Anche gli algoritmi di riconoscimento vocale possono sbagliare (e avere pregiudizi?)

Anche gli algoritmi di riconoscimento vocale possono sbagliare (e avere pregiudizi?)

Il riconoscimento vocale è diventato centrale nello sviluppo tecnologico dei giorni nostri: la maggiorparte delle multinazionali, infatti (da Amazon a Google passando per Microsoft e IBM) ha sviluppato qualcosa di utile o interessante in questo ambito. Se in molti casi si tratta di servizi per aziende (B2B, ovvero Business To Business), in altri ce li ritroviamo direttamente sui nostri PC, Mac e smartphone (quindi B2C, Business To Consumer). La centralità dell’innovazione in questo ambito, pero’, in alcuni casi finisce per scontrarsi con una dura realtà.

Per effettuare il riconoscimento i sistemi, in genere, analizzano migliaia di campioni vocali provenienti dalle varie parti del mondo: solo così facendo gli algoritmi potranno essere “addestrati” (come si dice nel gergo del machine learning) a riconoscere ed elaborare voci mai sentite prima. In quest’ottica dobbiamo leggere la realtà tecnologica che tutti utilizziamo: uno smartphone, sia Android che Apple, in genere supporta tranquillamente la dettatura vocale dei messaggi su Whatsapp. Con Alexa posso richiedere una canzone che mi piace a voce, o dirgli di propormene una sulla base dei miei precedenti ascolti. Tuttavia, secondo un recente articolo pubblicato dalla rivista scentifica PNAS,  varie tecnologie di voice recognition sviluppate da Amazon, Google, IBM, Apple e Microsoft tenderebbero ad identificare più probabilmente i campion provenienti da etnie bianche, sbagliando il 35% di quelli provenienti da gruppi neri. Un caso emblematico di realtà che si riflette come bias distorto all’interno di un algoritmo, che semplicemente era stato addestrato su un campione a maggioranza bianca. Lo stesso problema che, ad esempio, era accaduto con il riconoscimento facciale, che sembrava riconoscere con minore qualità in base al colore della pelle.

Senza per questo voler scomodare teorie del complotto o affini, verrebbe da dire che un sistema di riconoscimento vocale dovrebbe forse combiare diversamente i vari fattori che permettono di tradurre in testo (o in comandi da impartire alla macchina) la voce di un utente: e per fare questo i campioni di base dovrebbero, in teoria, essere decisamente più eterogenei e meglio distribuiti. Il rischio, in questi casi, è quello di rendere inutile o troppo complesso da usare il sistema per alcune persone, senza contare il dettaglio non indifferente legato al potenziale “razzismo” che l’algoritmo, in questo caso, rischierebbe di dimostrare. Ma bisogna rimanere freddi, lucidi e razionali: la tecnologia non può permettersi accuse del genere, neanche se incidentali (come sembrerebbe in questo caso) e soprattutto oggi: tempi in cui il suo sviluppo è sempre più diffuso e distribuito, tra varie etnie e paesi del mondo.

Photo by Andrew Butler on Unsplash

1 voto


Informazioni sull'autore

Salvatore Capolupo

Consulente SEO, ingegnere informatico e fondatore di Trovalost.it, Pagare.online, Lipercubo.it e tanti altri. Di solito passo inosservato e non ne approfitto.