Anteprima
Vedrai una selezione di 5 pagine su 18
La sintesi vocale dal Vocoder ai Vocaloid Pag. 1 La sintesi vocale dal Vocoder ai Vocaloid Pag. 2
Anteprima di 5 pagg. su 18.
Scarica il documento per vederlo tutto.
La sintesi vocale dal Vocoder ai Vocaloid Pag. 6
Anteprima di 5 pagg. su 18.
Scarica il documento per vederlo tutto.
La sintesi vocale dal Vocoder ai Vocaloid Pag. 11
Anteprima di 5 pagg. su 18.
Scarica il documento per vederlo tutto.
La sintesi vocale dal Vocoder ai Vocaloid Pag. 16
1 su 18
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

La possibilità di costruire una macchina in grado di riprodurre la voce umana ha da

sempre suscitato l’interesse della comunità scientifica, e già durante il Medioevo

venivano condotti studi ed esperimenti su quella che oggi viene chiamata “sintesi

vocale”.

Il primo esempio di macchina parlante funzionante risale però agli inizi del XIX

secolo, ed è frutto del lavoro trentennale dell’autore e inventore austro-ungherese

Wolfgang von Kempelen.

La macchina acustica-meccanica vocale (fig. 1) si presentava come un modello

dell’apparato vocale, composto da una bocca e una lingua in gomma, un “naso” e un

complesso sistema di tubi e leve, azionato tramite un mantice. Il modello di

Kempelen era in grado di riprodurre la maggior parte dei fonemi riproducibili

dall’apparato vocale umano, e di pronunciare frasi complete – seppure in monotono

– in inglese, italiano, francese e tedesco .

1

Fig. 1 Modello della macchina parlante di Kempelen

Durante tutto il secolo successivo, molti scienziati cercano di imitare il meccanismo

di Kempelen con strumenti meccanici ed elettronici più elaborati, ma è solo nel

1939, alla fiera mondiale di New York, che verrà presentato al mondo uno

strumento veramente rivoluzionario: il Voder.

1 Il tedesco, tuttavia, necessitava di una maggiore abilità da parte dell’operatore, a causa

dell’elevata frequenza di consonanti nella lingua tedesca.

1.1 Il Voder

Sviluppato dallo scienziato Homer Dudley presso i Bell Laboratories, il Voder (“Voice

Operating DEmonstratoR”) era controllato da un operatore attraverso una tastiera e

si componeva di un insieme di circuiti per generare i due suoni di base del

“linguaggio” umano: un tono periodico per le vocali e le consonanti sonore, e un

sibilo per le consonanti sorde. A questo sistema si aggiungevano quindi una barra

per passare da fonemi sordi a fonemi sonori, un pomello per selezionare voce

maschile o femminile e un pedale per calibrare l’intonazione del suono. (Pieraccini

2012: 192)

La macchina di Dudley si può considerare il primo esempio di sistema “text-to-

speech”, e l’unica e sostanziale differenza con i sistemi TTS moderni è l’assenza di

un computer che renda automatico il processo di esecuzione dei comandi: gli

operatori del Voder, infatti, dovevano completare un lungo processo di formazione

per imparare ad utilizzare correttamente lo strumento e padroneggiare il complesso

apparato di tasti, pedali e pulsanti che lo componevano (fig. 2).

Fig. 2 Schema di funzionamento del Voder

In realtà, l’interesse di Dudley non era indirizzato verso la sintesi vocale

inizialmente, e la sua invenzione è di fatto un “effetto collaterale” dei suoi studi sulla

compressione del parlato per l’ottimizzazione delle trasmissioni telefoniche.

Negli anni ’30, il sistema di trasmissione telefonica prevedeva che i segnali telefonici

viaggiassero prevalentemente su cavi in rame, miscelati in un singolo segnale

elettrico multiplato. Il segnale multiplato, giunto a destinazione, veniva quindi

separato in diversi segnali telefonici senza che i singoli segnali subissero un

significativo deterioramento; affinché questo deterioramento restasse entro limiti

tollerabili, bisognava però tenere in considerazione la larghezza di banda totale,

ovvero il range di frequenze contenute nel segnale di trasmissione finale. La minima

larghezza di banda sufficiente per adattarsi all’intervallo di frequenza di un normale

discorso umano era di 4kHz, e pertanto, per poter trasmettere ad esempio dieci

segnali telefonici senza distorsioni, era necessario un cavo che consentisse una

larghezza di banda di almeno 40kHz (Pieraccini 2012: 48-50).

Con l’aumentare del numero di utenti, il problema dei limiti fisici imposti

dall’uso dei cavi in rame inizia a farsi sempre più stringente; nel 1929 la AT&T inizia

quindi a progettare soluzioni alternative, e nel 1936 New York e Chicago fanno da

banco di prova per una nuova tipologia di cavo: nelle due metropoli americane viene

installata una rete di cavi coassiali per la banda larga, in grado di raccogliere su un

singolo cavo centinaia di segnali telefonici; il limite dei 4kHz, tuttavia, rimane.

Nel 1937, Homer Dudley riesce a superare questo ostacolo, inventando una

macchina in grado di comprimere l’informazione contenuta in un discorso in un

segnale di larghezza di banda di appena 300 Hz, grazie all’utilizzo di filtri passa

banda in grado di conservare solo le frequenze all’interno di una porzione specifica

dello spettro udibile: il Vocoder (da “voice” e “coder”). Il Vocoder si componeva di

due moduli, Analisi e Sintesi; il modulo di analisi era dedicato alla compressione del

parlato prima della trasmissione, mentre il modulo di sintesi si occupava della

ricostruzione di una versione intelligibile del discorso originale. Il segnale

ricostruito dal modulo di sintesi, tuttavia, seppure quasi completamente

comprensibile, risultava piuttosto degradato rispetto all’originale.

Dudley si rese conto che era possibile immagazzinare le informazioni relative

alla frequenza di ogni fono direttamente all’interno del modulo di sintesi,

rendendolo indipendente dal modulo di analisi e migliorandone la qualità del

segnale. Il passo successivo fu quello di associare le informazioni immagazzinate per

ogni fono al tasto di una tastiera, in modo da poter combinare i suoni in sequenza e

generare parole e frasi: era nato il Voder.

In seguito alla rivoluzione portata da Dudley, l’attenzione del mondo della scienza si

rivolge alla questione della sintesi vocale ancora una volta.

2. Metodi di sintesi vocale

La difficoltà principale incontrata dai ricercatori nel tentativo di riprodurre la voce

umana risiede nella natura “immensamente variabile” dell’oggetto di studio: dal

momento che non esiste una pronuncia perfetta o assoluta da prendere come

modello, non esiste un metodo univoco e formale per valutare la qualità di un

sintetizzatore. La soluzione attuata dai tecnologi della sintesi vocale è quindi quella

di sottoporre a un numero statisticamente significativo di soggetti un numero

statisticamente significativo di esempi di parlato prodotto dal sintetizzatore, e

chiedere di esprimere un giudizio riguardo a due parametri fondamentali,

l’intelligibilità e la similarità con la voce umana (Pieraccini 2012: 196).

Diversi sintetizzatori utilizzano diverse tecnologie, e pertanto rispondono

diversamente ai requisiti di intelligibilità e similarità: i sistemi che utilizzano la

sintesi basata su regole ma producono una voce intelligibile anche ad alte velocità,

ma dal suono artificiale e metallico; i sistemi basati sulla sintesi concatenativa,

d’altro canto, producono un risultato più naturale, ma hanno bisogno di database di

dimensioni considerevoli per contenere ore ed ore di registrazioni vocali, e pertanto

sono meno pratici ed adattabili.

Tutti i sistemi Text-To-Speech, tuttavia, condividono la prima fase del

processo di sintesi: la normalizzazione. Il testo da far pronunciare al sintetizzatore,

infatti, deve innanzitutto essere trattato per rendere la macchina in grado di capire

tutto ciò che è palese per l’essere umano: abbreviazioni come “S. Pietro” e “Dr. Rossi”

devono essere espanse, date indicate come “5/10” devono essere rese esplicite per

evitare ambiguità con la notazione matematica, l’intonazione che deriva dalla

presenza di punteggiatura dev’essere adeguatamente indicata, e il tutto dev’essere

trascritto foneticamente, in modo che ad ogni simbolo scritto equivalga un suono

univoco (203).

2.1 Sintesi basata su regole (o sintesi per formanti)

Nel 1950, negli Haskins Laboratories, istituto di ricerca affiliato a Yale, Franklin

Cooper e i suoi colleghi inventano una macchina in grado di convertire le immagini

di spettrogrammi stampate su una pellicola trasparente in un discorso, grazie all’uso

di una cintura mobile e dei sensori di luce. Il sistema utilizzato per costruire questa

macchina si basa su una particolare caratteristica del linguaggio umano, ovvero la

presenza di “formanti”, frequenze in cui l’energia del suono è più concentrata a

causa delle proprietà di risonanza del tratto vocale. Su uno spettrogramma, le

formanti appaiono come porzioni più intense, e la maggior parte dei fonemi sonori 2

sono quindi facilmente riconoscibili, grazie alla presenza di un pattern nelle tre

formanti. Attraverso lo studio di molti spettrogrammi di molteplici e differenti

contesti conversazionali, è addirittura possibile imparare a leggere il contenuto del

discorso direttamente dallo spettrogramma. (Pieraccini 2012: 33-35)

Fig. 3 La traccia delle tre formanti sullo spettrogramma del sintagma “my dog”

(Pieraccini 2012: 34)

Tutte le vocali, più le consonati v, g, b, d, dz (il suono “z” nella parola zanzara) e z (il suono “s”

2

nella parola inglese because)

In particolare, sono le due formanti presenti nella parte bassa dello spettro, F1 e F2,

a determinare la percezione dei fonemi sonori: ad esempio, se la prima formante è

attorno ai 300 Hz e la seconda attorno ai 2000 Hz, il suono percepito è /i/, mentre se

la prima è attorno ai 250 Hz e la seconda attorno ai 900 Hz, il suono percepito è /u/

(194-195). Grazie all’utilizzo di un filtro elettronico su un segnale periodico

generato elettronicamente, è possibile riprodurre le frequenze delle due o tre

formanti, e manipolando il segnale e il filtro si possono ottenere suoni nasali e

consonanti sorde, ottenendo quello che i ricercatori chiamano “sintetizzatore basato

sulle formanti”.

I primi sintetizzatori vocali a sfruttare pienamente questo metodo vengono

costruiti nel 1953, indipendentemente l’uno dall’altro, da Walter Lawrence nel

Regno Unito e da Gunner Fant in Svezia. Il PAT (Parametric Artificial Talker) di

Lawrence e l’OVE (Orator Verbis Electris) di Fant presentano entrambi tre filtri

connessi in parallelo per simulare le tre formanti, e condividono lo stesso principio

di funzionamento: il controllo dei parametri fondamentali del discorso attraverso

una serie di regole, stabilite grazie alla conoscenza approfondita del linguaggio

umano.Gunner Fant continuerà i suoi studi sulla sintesi vocale fino agli anni ’80,

passando dall’OVE all’OVE II, e infine all’Infovox, attraverso una serie di versioni

migliorate e modificate del suo sintetizzatore originale. In particolare, il risultato

finale della sua ricerca, l’Infovox, sarà uno dei primi sintetizzatori vocali multilingue

disponibile in commercio (196).

2.2 Sintesi articolatoria

All’in

Dettagli
Publisher
A.A. 2016-2017
18 pagine
1 download
SSD Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher cidracula di informazioni apprese con la frequenza delle lezioni di Audio digitale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Pisa o del prof Romani Francesco.