“Pronto, sono io”. Ma sei davvero tu? In un mondo dove l’intelligenza artificiale può clonare voce umana con una precisione spaventosa, questa domanda non è più così scontata. Microsoft ha appena alzato il sipario su VALL-E 2, vi linko qui il paper. Cos’è? È un’AI capace di replicare la voce di un essere umano in modo indistinguibile dalla realtà. Un progresso tecnologico che promette meraviglie, ma che nasconde insidie tali da far tremare i polsi persino ai suoi creatori.
L’intelligenza artificiale trova la sua voce
VALL-E 2 non è il solito sintetizzatore vocale che suona come un robot con il raffreddore. E non è neanche uno dei sistemi più avanzati sul mercato (penso alle voci di Elevenlabs). No, signori miei, questa è roba ancora più seria. Stiamo parlando di un’AI che ha raggiunto la “parità umana” nel campo della sintesi vocale.
Ma cosa rende VALL-E 2 così speciale? Beh, per cominciare, questa piccola meraviglia tecnologica può clonare voce dopo aver ascoltato solo tre secondi di audio. Tre. Secondi. Il tempo di dire “Ciao, come stai?” e boom: l’AI ha già carpito i segreti della vostra voce e può replicarla a piacimento. È come se avesse un orecchio assoluto per le voci umane, capace di coglierne ogni minima sfumatura e riprodurla alla perfezione.
VALL-E 2 surclassa i sistemi precedenti in robustezza del discorso, naturalezza e somiglianza con il parlante
Ricercatori Microsoft
Immagine: Depositphotos
Un genio vocale… troppo geniale?
Non pensate che VALL-E 2 si limiti a ripetere frasi semplici come un pappagallo hi-tech. Oh no. Può gestire anche frasi complesse e ripetitive, quelle che di solito mettono in crisi i sistemi di sintesi vocale. È come se avesse un dottorato in linguistica e un master in recitazione, il tutto racchiuso in un algoritmo.
Ora, immaginate di mettere questo potere nelle mani del pubblico. Suona eccitante, vero? Beh, non così in fretta. I creatori di VALL-E 2 sono così impressionati (e preoccupati) dalle capacità della loro creatura che hanno deciso di tenerla in gabbia “puramente come progetto di ricerca”. Niente accesso al pubblico, niente integrazione in prodotti commerciali. Hanno creato un drago e ora non sanno bene come gestirlo.
E si può capirli. In un’epoca in cui le truffe telefoniche sono all’ordine del giorno, un’AI capace di clonare voce con tale precisione potrebbe essere un’arma potentissima nelle mani sbagliate. Immaginate di ricevere una chiamata da vostra figlia che vi chiede di inviarle urgentemente del denaro. Suona come lei, parla come lei, ma… è davvero lei?
Il lato oscuro della perfezione vocale
I ricercatori di Microsoft non sono certo ingenui. Sono perfettamente consapevoli dei potenziali rischi legati a una tecnologia così avanzata:
Potrebbe comportare potenziali rischi nell’uso improprio del modello, come lo spoofing dell’identificazione vocale o l’impersonificazione di un parlante specifico.
In altre parole, VALL-E 2 potrebbe essere usato per ingannare sistemi di sicurezza basati sul riconoscimento della voce o per creare deepfake audio incredibilmente convincenti. Questo aggeggio apre qualsiasi serratura vocale.
Può clonare la voce di chiunque.
Il confine tra uso benefico e abuso è sottile come un capello. E finché non troveremo un modo per navigare in sicurezza queste acque insidiose sperando nell’algoretica, VALL-E 2 rimarrà confinata (? Forse) nei laboratori di ricerca come un genio troppo potente per essere liberato dalla sua lampada.
Speriamo di trovare il bandolo di questa matassa, perché questa tecnologia potrebbe davvero aiutare (faccio un esempio) persone con afasia o altre disabilità patologiche legate al linguaggio. O pensate alle possibilità nel campo dell’educazione, dell’intrattenimento, del giornalismo. Sarebbe incredibile.
Alcuni dati tratti dal paper. La coerenza della voce clonata con quella originale è eclatante.
La voce del futuro
La voce che sento adesso nella mia testa mi sussurra: cosa ci riserva il domani? VALL-E 2 è solo l’inizio di una nuova era in cui le voci artificiali saranno indistinguibili da quelle umane? O è un campanello d’allarme che ci ricorda di procedere con cautela nel nostro abbraccio con l’intelligenza artificiale?
La tecnologia per clonare voce umana ha fatto un balzo quantico, e non c’è modo di tornare indietro. Ci troviamo sull’orlo di un nuovo mondo in cui la voce non sarà più una prova inconfutabile di identità.
E infatti, in fin dei conti, non so nemmeno se quel pensiero è davvero mio. In un mondo come il nostro non si può mai essere troppo sicuri.
L’articolo VALL-E 2, l’AI di Microsoft per clonare la voce: così reale che non va diffusa è tratto da Futuro Prossimo.
Tecnologia, intelligenza artificiale, microsoft, Sintesi vocale, Voce