I generatori di voce realistici sono già una realtà

La generazione automatica di voci umane è stata ampiamente studiata negli ultimi anni, quanto sembra si tratta di uno dei campi più prolifici in cui operare in questa direzione. Ovviamente le perplessità della necessità di studio in questo ambito non mancano, anche perché non è mai evidente come in questo caso la volontà di realizzare tecnologie per falsificare la realtà. Classificare in senso letterale, effettivamente, E questo non dovrebbe mai sfuggire al nostro controllo o a un esame etico di quello che stiamo facendo. Il caso del progetto LamDa – sia pur con le sue esagerazioni mediatiche, a volte riduzioniste altre  complottiste – è stato emblematico in tal senso, e qualcosa in teoria dovremmo aver imparato.





Resta la considerazione del fatto che un generatore di voce può essere utilizzato in ambiti molto diversi, ed è importante che la ricerca nell’ambito non si freni solo perché delle restrizioni morali ci impediscono di andare in questa direzione. Punto di vista della ricerca bisognerebbe sempre provarci, e poi dovrebbe essere possibile o meno utilizzare questa tecnologia sulla base di altri criteri esterni.

Girano molti file audio fake anche su WhatsApp e Telegram, e la precisione con cui questi audio vengono generati è davvero impressionante. Sembrano davvero le voci dei soggetti originali, che “diranno” cose che non hanno mai detto e questo, naturalmente, ci ricorda che non bisogna mai credere a tutto quello che troviamo in rete.

Si tratta ovviamente di un deepfake artificiale, una voce famosa che viene “imitata” mediante un complesso algoritmo di intelligenza artificiale. Il risultato è impressionante, e mostra uno stato dell’arte tecnologica avanzato in particolare da poco prima dell’estate 2022, periodo in cui questi software sono letteralmente esplosi. Gli strumenti per realizzare questo genere di operazioni sono da tempo diffusi sul web, e molti di questi sono del tutto gratuiti.

Parliamo di sintetizzatori vocali text-to-speech dotati di Intelligenza Artificiale, in grado di trasformare un qualsiasi testo scritto in voce; non solo, questi simulatori di nuova generazione sono in grado di farlo in modo realistico emulando voci ben note, con cui ad esempio sono stati addestrati (la voce del doppiatore italiano del personaggio di Peter Griffin, vari politici e via dicendo).

Come generare voci fake

Attenzione: l’uso di questi strumenti è sotto la vostra esclusiva responsabilità, mentre vi ricordiamo che la diffusione disinvolta o maliziosa di audio falsi può avere conseguenze molto serie in termini legali. Invitiamo tutti ad un uso profondamente responsabile dello strumento. Riportiamo il caso a scopo di analisi e di ricerca, come sempre facciamo sul nostro blog.

FakeYou è uno di questi, a volte sfruttato da vari gruppi e pagine social umoristiche, caratterizzato da un’interfaccia semplice e immediata. Nulla che già non si sapesse da tempo, ad ogni modo: dopo la generazione di musica “algoritmica”, di video e di immagini, la semplice voce “imitata” da un algoritmo era solo questione di tempo. La nuova tendenza dell’AI (Artificial Intelligence) sembra trovare massima espressione nell’emulare non solo capacità di calcolo sempre più estensive, ma anche capacità di apprendere e riprodurre capacità umane come disegnare, suonare, recitare o imitare e così via.

La questione a nostro avviso resta aperta: soluzioni del genere possono essere utilizzate in modo innocuo o malizioso, ma dipende sempre dall’uso che decidiamo di farne. Di sicuro non sarà ignorando – o, peggio provando a proibire – lo sviluppo tecnologico che risolveremo alcun problema, come l’esperienza ci insegna in questi casi. Bisogna guardare in faccia la tecnologia senza troppe remore, sempre, e poi essere consapevoli che la prossima volta che sentire la voce di un politico dire qualcosa ci potrebbe venire il dubbio, in mancanza di altri dati, che la fonte deve essere verificata e che esistono dei criteri per poter riconoscere le voci fake.

Come riconoscere le voci fake generate dalla AI

La preoccupazione per il crescente livello di disinformazione indotto da queste tecnologie è ovviamente una questione di cui cerchiamo di tenere massimamente conto.

Per quanto riguarda i deepfake osservare gli occhi dei soggetti è un buon modo per capire se si tratta di un fake o di un video reale. Quanto riguarda invece le voci artificiali è un po’ più complicato, ma probabilmente un’analisi dello spettro può aiutare a riconoscere per esempio le esitazioni nel discorso, oppure il fatto che il soggetto sembra “mangiarsi le parole” o allungarle più del dovuto mentre parla potrebbe suggerire, in modo sistematico, che si tratta di un falso.

Esiste uno studio interessante a riguardo, che sfrutta una rete neurale convoluzionale (CNN) che sembra in grado di distinguere audio fake da audio autentici in quasi 89 casi su 100 (88,9%). Il modello in questione viene addestrato su un dataset di casi natural e fake, analizza l’audio con una rete neurale e viene così addestrata, per poi riconoscere anche campioni che non ha mai sentito di audio ex novo. Non sembrano esistere, ad oggi, software pubblici in grado di implementare soluzioni del genere, ma siamo abbastanza sicuri che qualcosa, prima o poi, uscirà fuori.

Immagine di copertina: un generatore vocale con AI visto da DALL-E



Questo blog pubblica contenuti ed offre servizi free da 11 anni. – Leggi un altro articolo a caso – Per informazioni contattaci
Non ha ancora votato nessuno.

Ti sembra utile o interessante? Vota e fammelo sapere.

I generatori di voce realistici sono già una realtà
DALL·E 2022 10 08 11.00.39 voice generator based on artificial intelligence
Torna su