vuoi
o PayPal
tutte le volte che vuoi
La possibilità di costruire una macchina in grado di riprodurre la voce umana ha da
sempre suscitato l’interesse della comunità scientifica, e già durante il Medioevo
venivano condotti studi ed esperimenti su quella che oggi viene chiamata “sintesi
vocale”.
Il primo esempio di macchina parlante funzionante risale però agli inizi del XIX
secolo, ed è frutto del lavoro trentennale dell’autore e inventore austro-ungherese
Wolfgang von Kempelen.
La macchina acustica-meccanica vocale (fig. 1) si presentava come un modello
dell’apparato vocale, composto da una bocca e una lingua in gomma, un “naso” e un
complesso sistema di tubi e leve, azionato tramite un mantice. Il modello di
Kempelen era in grado di riprodurre la maggior parte dei fonemi riproducibili
dall’apparato vocale umano, e di pronunciare frasi complete – seppure in monotono
– in inglese, italiano, francese e tedesco .
1
Fig. 1 Modello della macchina parlante di Kempelen
Durante tutto il secolo successivo, molti scienziati cercano di imitare il meccanismo
di Kempelen con strumenti meccanici ed elettronici più elaborati, ma è solo nel
1939, alla fiera mondiale di New York, che verrà presentato al mondo uno
strumento veramente rivoluzionario: il Voder.
1 Il tedesco, tuttavia, necessitava di una maggiore abilità da parte dell’operatore, a causa
dell’elevata frequenza di consonanti nella lingua tedesca.
1.1 Il Voder
Sviluppato dallo scienziato Homer Dudley presso i Bell Laboratories, il Voder (“Voice
Operating DEmonstratoR”) era controllato da un operatore attraverso una tastiera e
si componeva di un insieme di circuiti per generare i due suoni di base del
“linguaggio” umano: un tono periodico per le vocali e le consonanti sonore, e un
sibilo per le consonanti sorde. A questo sistema si aggiungevano quindi una barra
per passare da fonemi sordi a fonemi sonori, un pomello per selezionare voce
maschile o femminile e un pedale per calibrare l’intonazione del suono. (Pieraccini
2012: 192)
La macchina di Dudley si può considerare il primo esempio di sistema “text-to-
speech”, e l’unica e sostanziale differenza con i sistemi TTS moderni è l’assenza di
un computer che renda automatico il processo di esecuzione dei comandi: gli
operatori del Voder, infatti, dovevano completare un lungo processo di formazione
per imparare ad utilizzare correttamente lo strumento e padroneggiare il complesso
apparato di tasti, pedali e pulsanti che lo componevano (fig. 2).
Fig. 2 Schema di funzionamento del Voder
In realtà, l’interesse di Dudley non era indirizzato verso la sintesi vocale
inizialmente, e la sua invenzione è di fatto un “effetto collaterale” dei suoi studi sulla
compressione del parlato per l’ottimizzazione delle trasmissioni telefoniche.
Negli anni ’30, il sistema di trasmissione telefonica prevedeva che i segnali telefonici
viaggiassero prevalentemente su cavi in rame, miscelati in un singolo segnale
elettrico multiplato. Il segnale multiplato, giunto a destinazione, veniva quindi
separato in diversi segnali telefonici senza che i singoli segnali subissero un
significativo deterioramento; affinché questo deterioramento restasse entro limiti
tollerabili, bisognava però tenere in considerazione la larghezza di banda totale,
ovvero il range di frequenze contenute nel segnale di trasmissione finale. La minima
larghezza di banda sufficiente per adattarsi all’intervallo di frequenza di un normale
discorso umano era di 4kHz, e pertanto, per poter trasmettere ad esempio dieci
segnali telefonici senza distorsioni, era necessario un cavo che consentisse una
larghezza di banda di almeno 40kHz (Pieraccini 2012: 48-50).
Con l’aumentare del numero di utenti, il problema dei limiti fisici imposti
dall’uso dei cavi in rame inizia a farsi sempre più stringente; nel 1929 la AT&T inizia
quindi a progettare soluzioni alternative, e nel 1936 New York e Chicago fanno da
banco di prova per una nuova tipologia di cavo: nelle due metropoli americane viene
installata una rete di cavi coassiali per la banda larga, in grado di raccogliere su un
singolo cavo centinaia di segnali telefonici; il limite dei 4kHz, tuttavia, rimane.
Nel 1937, Homer Dudley riesce a superare questo ostacolo, inventando una
macchina in grado di comprimere l’informazione contenuta in un discorso in un
segnale di larghezza di banda di appena 300 Hz, grazie all’utilizzo di filtri passa
banda in grado di conservare solo le frequenze all’interno di una porzione specifica
dello spettro udibile: il Vocoder (da “voice” e “coder”). Il Vocoder si componeva di
due moduli, Analisi e Sintesi; il modulo di analisi era dedicato alla compressione del
parlato prima della trasmissione, mentre il modulo di sintesi si occupava della
ricostruzione di una versione intelligibile del discorso originale. Il segnale
ricostruito dal modulo di sintesi, tuttavia, seppure quasi completamente
comprensibile, risultava piuttosto degradato rispetto all’originale.
Dudley si rese conto che era possibile immagazzinare le informazioni relative
alla frequenza di ogni fono direttamente all’interno del modulo di sintesi,
rendendolo indipendente dal modulo di analisi e migliorandone la qualità del
segnale. Il passo successivo fu quello di associare le informazioni immagazzinate per
ogni fono al tasto di una tastiera, in modo da poter combinare i suoni in sequenza e
generare parole e frasi: era nato il Voder.
In seguito alla rivoluzione portata da Dudley, l’attenzione del mondo della scienza si
rivolge alla questione della sintesi vocale ancora una volta.
2. Metodi di sintesi vocale
La difficoltà principale incontrata dai ricercatori nel tentativo di riprodurre la voce
umana risiede nella natura “immensamente variabile” dell’oggetto di studio: dal
momento che non esiste una pronuncia perfetta o assoluta da prendere come
modello, non esiste un metodo univoco e formale per valutare la qualità di un
sintetizzatore. La soluzione attuata dai tecnologi della sintesi vocale è quindi quella
di sottoporre a un numero statisticamente significativo di soggetti un numero
statisticamente significativo di esempi di parlato prodotto dal sintetizzatore, e
chiedere di esprimere un giudizio riguardo a due parametri fondamentali,
l’intelligibilità e la similarità con la voce umana (Pieraccini 2012: 196).
Diversi sintetizzatori utilizzano diverse tecnologie, e pertanto rispondono
diversamente ai requisiti di intelligibilità e similarità: i sistemi che utilizzano la
sintesi basata su regole ma producono una voce intelligibile anche ad alte velocità,
ma dal suono artificiale e metallico; i sistemi basati sulla sintesi concatenativa,
d’altro canto, producono un risultato più naturale, ma hanno bisogno di database di
dimensioni considerevoli per contenere ore ed ore di registrazioni vocali, e pertanto
sono meno pratici ed adattabili.
Tutti i sistemi Text-To-Speech, tuttavia, condividono la prima fase del
processo di sintesi: la normalizzazione. Il testo da far pronunciare al sintetizzatore,
infatti, deve innanzitutto essere trattato per rendere la macchina in grado di capire
tutto ciò che è palese per l’essere umano: abbreviazioni come “S. Pietro” e “Dr. Rossi”
devono essere espanse, date indicate come “5/10” devono essere rese esplicite per
evitare ambiguità con la notazione matematica, l’intonazione che deriva dalla
presenza di punteggiatura dev’essere adeguatamente indicata, e il tutto dev’essere
trascritto foneticamente, in modo che ad ogni simbolo scritto equivalga un suono
univoco (203).
2.1 Sintesi basata su regole (o sintesi per formanti)
Nel 1950, negli Haskins Laboratories, istituto di ricerca affiliato a Yale, Franklin
Cooper e i suoi colleghi inventano una macchina in grado di convertire le immagini
di spettrogrammi stampate su una pellicola trasparente in un discorso, grazie all’uso
di una cintura mobile e dei sensori di luce. Il sistema utilizzato per costruire questa
macchina si basa su una particolare caratteristica del linguaggio umano, ovvero la
presenza di “formanti”, frequenze in cui l’energia del suono è più concentrata a
causa delle proprietà di risonanza del tratto vocale. Su uno spettrogramma, le
formanti appaiono come porzioni più intense, e la maggior parte dei fonemi sonori 2
sono quindi facilmente riconoscibili, grazie alla presenza di un pattern nelle tre
formanti. Attraverso lo studio di molti spettrogrammi di molteplici e differenti
contesti conversazionali, è addirittura possibile imparare a leggere il contenuto del
discorso direttamente dallo spettrogramma. (Pieraccini 2012: 33-35)
Fig. 3 La traccia delle tre formanti sullo spettrogramma del sintagma “my dog”
(Pieraccini 2012: 34)
Tutte le vocali, più le consonati v, g, b, d, dz (il suono “z” nella parola zanzara) e z (il suono “s”
2
nella parola inglese because)
In particolare, sono le due formanti presenti nella parte bassa dello spettro, F1 e F2,
a determinare la percezione dei fonemi sonori: ad esempio, se la prima formante è
attorno ai 300 Hz e la seconda attorno ai 2000 Hz, il suono percepito è /i/, mentre se
la prima è attorno ai 250 Hz e la seconda attorno ai 900 Hz, il suono percepito è /u/
(194-195). Grazie all’utilizzo di un filtro elettronico su un segnale periodico
generato elettronicamente, è possibile riprodurre le frequenze delle due o tre
formanti, e manipolando il segnale e il filtro si possono ottenere suoni nasali e
consonanti sorde, ottenendo quello che i ricercatori chiamano “sintetizzatore basato
sulle formanti”.
I primi sintetizzatori vocali a sfruttare pienamente questo metodo vengono
costruiti nel 1953, indipendentemente l’uno dall’altro, da Walter Lawrence nel
Regno Unito e da Gunner Fant in Svezia. Il PAT (Parametric Artificial Talker) di
Lawrence e l’OVE (Orator Verbis Electris) di Fant presentano entrambi tre filtri
connessi in parallelo per simulare le tre formanti, e condividono lo stesso principio
di funzionamento: il controllo dei parametri fondamentali del discorso attraverso
una serie di regole, stabilite grazie alla conoscenza approfondita del linguaggio
umano.Gunner Fant continuerà i suoi studi sulla sintesi vocale fino agli anni ’80,
passando dall’OVE all’OVE II, e infine all’Infovox, attraverso una serie di versioni
migliorate e modificate del suo sintetizzatore originale. In particolare, il risultato
finale della sua ricerca, l’Infovox, sarà uno dei primi sintetizzatori vocali multilingue
disponibile in commercio (196).
2.2 Sintesi articolatoria
All’in