Principale Innovare La nuova intelligenza artificiale di Google Text-to-Speech è così buona che scommettiamo che non puoi dirlo da un vero essere umano

La nuova intelligenza artificiale di Google Text-to-Speech è così buona che scommettiamo che non puoi dirlo da un vero essere umano

Il Tuo Oroscopo Per Domani

Riesci a distinguere tra il parlato al computer generato dall'intelligenza artificiale e un essere umano reale e vivo? Forse hai sempre pensato di poterlo fare. Forse sei affezionato ad Alexa e Siri ma credi che non confonderesti mai nessuno dei due con una vera donna.

Le cose stanno per diventare molto più interessanti. Gli ingegneri di Google hanno lavorato duramente per creare un sistema di sintesi vocale chiamato Tacotron 2 . Secondo a carta hanno pubblicato questo mese, il sistema crea prima uno spettrogramma del testo, una rappresentazione visiva di come dovrebbe suonare il discorso. Quell'immagine viene passata attraverso l'algoritmo WaveNet esistente di Google, che utilizza l'immagine per produrre un discorso umano dal suono estremamente naturale.

quanto è alta Angie Dickinson

Utilizzando questo metodo, i ricercatori riferiscono: 'Il nostro modello raggiunge un punteggio medio di opinione (MOS) di 4,53 paragonabile a un MOS di 4,58 per il discorso registrato professionalmente'. (Un punteggio medio di opinione è un termine di telecomunicazioni che misura il suono realistico di qualcosa.)

Come dimostrano i campioni audio di Google, Tacotron 2 è in grado di rilevare dal contesto la differenza tra il sostantivo 'deserto' e il verbo 'deserto', nonché il nome 'presente' e il verbo 'presente' e modificarne la pronuncia di conseguenza. Può porre l'accento sulle parole in maiuscolo e applicare l'inflessione corretta quando si pone una domanda piuttosto che fare una dichiarazione.

E può generare un testo che suona così simile al linguaggio umano che è difficile o impossibile conoscere la differenza. Se vuoi vedere quanto è difficile, vai su Google pagina dei campioni audio e scorri verso il basso fino all'ultima serie di campioni, intitolata 'Tacotron 2 or Human?' Lì troverai Tacotron 2 e una persona reale che pronunciano frasi come 'Quella ragazza ha fatto un video sul rossetto di Star Wars'.

AVVISO SPOILER: Per metterti alla prova, ascolta i campioni e indovina quale è prima di leggere il resto di questa colonna.

Quindi quali campioni sono sintesi vocale e quali sono una vera voce umana? Gli ingegneri di Google non lo dicono, ma hanno lasciato un indizio molto grande. Ciascuno degli esempi di file .wav ha un nome file contenente il termine 'gen' o 'gt.' Sulla base del documento, è altamente probabile che 'gen' indichi il discorso generato da Tacotron 2 e 'gt' sia il vero discorso umano. ('GT' probabilmente sta per 'verità di base', un termine di apprendimento automatico che significa fondamentalmente 'il vero affare.')

Supponendo che sia corretto, ecco le risposte al test:

tim mcgraw età e altezza

'Quella ragazza ha fatto un video sul rossetto di Star Wars.'

Esempio 1: umano reale Real

Campione 2: Tacotron 2

'Ha conseguito un dottorato in sociologia alla Columbia University.'

Campione 1: Tacotron 2

Esempio 2: umano reale

'George Washington è stato il primo presidente degli Stati Uniti.'

Campione 1: Tacotron 2

Esempio 2: umano reale

quanto è alto Larry Hernandez

'Sono troppo impegnato per il romanticismo.'

Esempio 1: umano reale Real

Campione 2: Tacotron 2

Quanti ne hai azzeccati? E sapevi davvero la differenza, o dovevi solo indovinare?