Vendita Quadri

Il sintetizzatore vocale che rivoluzionerà il doppiaggio



Si è conclusa da poco l’importante conferenza Interspeech 2021 in cui, fra le altre cose, è stato presentato da Nvidia un sintetizzatore vocale di nuova generazione che potrebbe rivoluzionare moltissimi campi, compreso quello del doppiaggio.

È basato sull’intelligenza artificiale, più nello specifico su un modello di rete neurale nominato RAD-TTS che la famosa casa produttrice di schede video ha da poco messo all’opera. I risultati dei primi test sono stati eccellenti e hanno mostrato l’enorme potenzialità che questa nuova tecnologia possiede.

 

Come funziona il sintetizzatore vocale basato su RAD-TTS

Il modello RAD-TTS è stato sviluppato addestrando l’ia attraverso registrazioni audio sovrapposte ai relativi testi scritti. È stata messa particolare attenzione sulla punteggiatura, in modo che l’intelligenza artificiale riuscisse a comprendere dove e come dare più enfasi a specifiche parti delle frasi.

Il concetto sembra piuttosto semplice, ma la realizzazione ha richiesto molto lavoro da parte dei ricercatori, che finalmente sono riusciti a creare una versione funzionante del sintetizzatore vocale. Attraverso l’interfaccia è anche possibile utilizzare diverse funzionalità interessanti, prima fra tutte la possibilità di modificare la voce di un oratore a piacimento.

Il vero vantaggio di tale tecnologia, infatti, è quello di riuscire a riprodurre la voce umana senza la benché minima sbavatura o suono artificiale. Ad esempio, si può prendere l’audio registrato da un uomo e trasformare la voce affinché sembri in tutto e per tutto quella di una donna.

 

Le possibili applicazioni future

Stando a quanto dichiarato da Nvidia, le possibilità di applicazione per il sintetizzatore vocale basato su ia sono molteplici. Oltre a rendere più cristallina l’esperienza con gli assistenti vocali dei servizi automatizzati di banche, rivenditori eccetera, si punta a migliorare le interazioni sociali per le persone con disabilità vocali.

Oltre agli aspetti sociologici del progetto, si è pensato anche agli ambiti lavorativi in cui la voce è il vero fulcro di tutto. Il doppiaggio, in primis potrebbe subire una vera e propria rivoluzione, riducendo drasticamente la necessità di assumere doppiatori sempre differenti.

Attraverso il RAD-TTS, infatti, basterebbe far leggere ad uno o due di essi le varie sceneggiature e le voci potrebbero poi essere modificate in post produzione. Il mondo dei videogiochi ne beneficerebbe assai, poiché i personaggi da doppiare sono sempre tantissimi, ma non solo.

Il progetto è ancora in fase embrionale e ha bisogno di ritocchi e modifiche per raggiungere la vera perfezione, tuttavia è già possibile ascoltare un testo narrativo letto interamente da una intelligenza artificiale che simula egregiamente la voce umana.




Lascia un commento