Che materia stai cercando?

La sintesi vocale dal Vocoder ai Vocaloid

Tesina realizzata per l'esame di Audio Digitale del professor Romani. Il tema trattato è la sintesi vocale, con un excursus storico che va dai primi sintetizzatori meccanici alle nuove tecnologie (es: assistenti vocali, vocaloid ecc.). Scarica il file in formato PDF!

Esame di Audio digitale docente Prof. F. Romani

Anteprima

ESTRATTO DOCUMENTO

1.1 Il Voder

Sviluppato dallo scienziato Homer Dudley presso i Bell Laboratories, il Voder (“Voice

Operating DEmonstratoR”) era controllato da un operatore attraverso una tastiera e

si componeva di un insieme di circuiti per generare i due suoni di base del

“linguaggio” umano: un tono periodico per le vocali e le consonanti sonore, e un

sibilo per le consonanti sorde. A questo sistema si aggiungevano quindi una barra

per passare da fonemi sordi a fonemi sonori, un pomello per selezionare voce

maschile o femminile e un pedale per calibrare l’intonazione del suono. (Pieraccini

2012: 192)

La macchina di Dudley si può considerare il primo esempio di sistema “text-to-

speech”, e l’unica e sostanziale differenza con i sistemi TTS moderni è l’assenza di

un computer che renda automatico il processo di esecuzione dei comandi: gli

operatori del Voder, infatti, dovevano completare un lungo processo di formazione

per imparare ad utilizzare correttamente lo strumento e padroneggiare il complesso

apparato di tasti, pedali e pulsanti che lo componevano (fig. 2).

Fig. 2 Schema di funzionamento del Voder

In realtà, l’interesse di Dudley non era indirizzato verso la sintesi vocale

inizialmente, e la sua invenzione è di fatto un “effetto collaterale” dei suoi studi sulla

compressione del parlato per l’ottimizzazione delle trasmissioni telefoniche.

Negli anni ’30, il sistema di trasmissione telefonica prevedeva che i segnali telefonici

viaggiassero prevalentemente su cavi in rame, miscelati in un singolo segnale

elettrico multiplato. Il segnale multiplato, giunto a destinazione, veniva quindi

separato in diversi segnali telefonici senza che i singoli segnali subissero un

significativo deterioramento; affinché questo deterioramento restasse entro limiti

tollerabili, bisognava però tenere in considerazione la larghezza di banda totale,

ovvero il range di frequenze contenute nel segnale di trasmissione finale. La minima

larghezza di banda sufficiente per adattarsi all’intervallo di frequenza di un normale

discorso umano era di 4kHz, e pertanto, per poter trasmettere ad esempio dieci

segnali telefonici senza distorsioni, era necessario un cavo che consentisse una

larghezza di banda di almeno 40kHz (Pieraccini 2012: 48-50).

Con l’aumentare del numero di utenti, il problema dei limiti fisici imposti

dall’uso dei cavi in rame inizia a farsi sempre più stringente; nel 1929 la AT&T inizia

quindi a progettare soluzioni alternative, e nel 1936 New York e Chicago fanno da

banco di prova per una nuova tipologia di cavo: nelle due metropoli americane viene

installata una rete di cavi coassiali per la banda larga, in grado di raccogliere su un

singolo cavo centinaia di segnali telefonici; il limite dei 4kHz, tuttavia, rimane.

Nel 1937, Homer Dudley riesce a superare questo ostacolo, inventando una

macchina in grado di comprimere l’informazione contenuta in un discorso in un

segnale di larghezza di banda di appena 300 Hz, grazie all’utilizzo di filtri passa

banda in grado di conservare solo le frequenze all’interno di una porzione specifica

dello spettro udibile: il Vocoder (da “voice” e “coder”). Il Vocoder si componeva di

due moduli, Analisi e Sintesi; il modulo di analisi era dedicato alla compressione del

parlato prima della trasmissione, mentre il modulo di sintesi si occupava della

ricostruzione di una versione intelligibile del discorso originale. Il segnale

ricostruito dal modulo di sintesi, tuttavia, seppure quasi completamente

comprensibile, risultava piuttosto degradato rispetto all’originale.

Dudley si rese conto che era possibile immagazzinare le informazioni relative

alla frequenza di ogni fono direttamente all’interno del modulo di sintesi,

rendendolo indipendente dal modulo di analisi e migliorandone la qualità del

segnale. Il passo successivo fu quello di associare le informazioni immagazzinate per

ogni fono al tasto di una tastiera, in modo da poter combinare i suoni in sequenza e

generare parole e frasi: era nato il Voder.

In seguito alla rivoluzione portata da Dudley, l’attenzione del mondo della scienza si

rivolge alla questione della sintesi vocale ancora una volta.

2. Metodi di sintesi vocale

La difficoltà principale incontrata dai ricercatori nel tentativo di riprodurre la voce

umana risiede nella natura “immensamente variabile” dell’oggetto di studio: dal

momento che non esiste una pronuncia perfetta o assoluta da prendere come

modello, non esiste un metodo univoco e formale per valutare la qualità di un

sintetizzatore. La soluzione attuata dai tecnologi della sintesi vocale è quindi quella

di sottoporre a un numero statisticamente significativo di soggetti un numero

statisticamente significativo di esempi di parlato prodotto dal sintetizzatore, e

chiedere di esprimere un giudizio riguardo a due parametri fondamentali,

l’intelligibilità e la similarità con la voce umana (Pieraccini 2012: 196).

Diversi sintetizzatori utilizzano diverse tecnologie, e pertanto rispondono

diversamente ai requisiti di intelligibilità e similarità: i sistemi che utilizzano la

sintesi basata su regole ma producono una voce intelligibile anche ad alte velocità,

ma dal suono artificiale e metallico; i sistemi basati sulla sintesi concatenativa,

d’altro canto, producono un risultato più naturale, ma hanno bisogno di database di

dimensioni considerevoli per contenere ore ed ore di registrazioni vocali, e pertanto

sono meno pratici ed adattabili.

Tutti i sistemi Text-To-Speech, tuttavia, condividono la prima fase del

processo di sintesi: la normalizzazione. Il testo da far pronunciare al sintetizzatore,

infatti, deve innanzitutto essere trattato per rendere la macchina in grado di capire

tutto ciò che è palese per l’essere umano: abbreviazioni come “S. Pietro” e “Dr. Rossi”

devono essere espanse, date indicate come “5/10” devono essere rese esplicite per

evitare ambiguità con la notazione matematica, l’intonazione che deriva dalla

presenza di punteggiatura dev’essere adeguatamente indicata, e il tutto dev’essere

trascritto foneticamente, in modo che ad ogni simbolo scritto equivalga un suono

univoco (203).

2.1 Sintesi basata su regole (o sintesi per formanti)

Nel 1950, negli Haskins Laboratories, istituto di ricerca affiliato a Yale, Franklin

Cooper e i suoi colleghi inventano una macchina in grado di convertire le immagini

di spettrogrammi stampate su una pellicola trasparente in un discorso, grazie all’uso

di una cintura mobile e dei sensori di luce. Il sistema utilizzato per costruire questa

macchina si basa su una particolare caratteristica del linguaggio umano, ovvero la

presenza di “formanti”, frequenze in cui l’energia del suono è più concentrata a

causa delle proprietà di risonanza del tratto vocale. Su uno spettrogramma, le

formanti appaiono come porzioni più intense, e la maggior parte dei fonemi sonori 2

sono quindi facilmente riconoscibili, grazie alla presenza di un pattern nelle tre

formanti. Attraverso lo studio di molti spettrogrammi di molteplici e differenti

contesti conversazionali, è addirittura possibile imparare a leggere il contenuto del

discorso direttamente dallo spettrogramma. (Pieraccini 2012: 33-35)

Fig. 3 La traccia delle tre formanti sullo spettrogramma del sintagma “my dog”

(Pieraccini 2012: 34)

Tutte le vocali, più le consonati v, g, b, d, dz (il suono “z” nella parola zanzara) e z (il suono “s”

2

nella parola inglese because)

In particolare, sono le due formanti presenti nella parte bassa dello spettro, F1 e F2,

a determinare la percezione dei fonemi sonori: ad esempio, se la prima formante è

attorno ai 300 Hz e la seconda attorno ai 2000 Hz, il suono percepito è /i/, mentre se

la prima è attorno ai 250 Hz e la seconda attorno ai 900 Hz, il suono percepito è /u/

(194-195). Grazie all’utilizzo di un filtro elettronico su un segnale periodico

generato elettronicamente, è possibile riprodurre le frequenze delle due o tre

formanti, e manipolando il segnale e il filtro si possono ottenere suoni nasali e

consonanti sorde, ottenendo quello che i ricercatori chiamano “sintetizzatore basato

sulle formanti”.

I primi sintetizzatori vocali a sfruttare pienamente questo metodo vengono

costruiti nel 1953, indipendentemente l’uno dall’altro, da Walter Lawrence nel

Regno Unito e da Gunner Fant in Svezia. Il PAT (Parametric Artificial Talker) di

Lawrence e l’OVE (Orator Verbis Electris) di Fant presentano entrambi tre filtri

connessi in parallelo per simulare le tre formanti, e condividono lo stesso principio

di funzionamento: il controllo dei parametri fondamentali del discorso attraverso

una serie di regole, stabilite grazie alla conoscenza approfondita del linguaggio

umano.Gunner Fant continuerà i suoi studi sulla sintesi vocale fino agli anni ’80,

passando dall’OVE all’OVE II, e infine all’Infovox, attraverso una serie di versioni

migliorate e modificate del suo sintetizzatore originale. In particolare, il risultato

finale della sua ricerca, l’Infovox, sarà uno dei primi sintetizzatori vocali multilingue

disponibile in commercio (196).

2.2 Sintesi articolatoria

All’incirca nello stesso periodo in cui Lawrence e Fant mostrano al mondo i primi

sintetizzatori vocali basati su regole, altri ricercatori decidono invece di tornare alle

origini della sintesi vocale: la riproduzione del parlato attraverso la simulazione

meccanica dell’apparato vocale umano.

È il ricercatore George Rosen del MIT a introdurre l’espressione “sintesi

articolatoria”, in riferimento alla tecnologia usata per il suo sintetizzatore DAVO

(“Dynamic Analogue of the VOcal tract”), inventato nel 1958 e basato sull’attivazione

delle varie sezioni dell’apparato tramite impulsi elettrici. Il sistema di controllo del

DAVO permetteva la sintesi di qualsiasi sequenza di due elementi fonetici, e di

manipolare variabili geometriche e di tempo. (Rosen 1960)

Con l’avvento dei computer, i sintetizzatori meccanici vengono soppiantati dalla

forza bruta derivante dalla potenza di calcolo delle nuove macchine digitali, e una

nuova generazione di sintetizzatori basati sulla sintesi articolatoria vede la luce

grazie alla possibilità di calcolare la fisica in tempo reale. Alla base della sintesi

articolatoria vi è infatti la necessità di determinare in ogni istante la configurazione

dell’apparato vocale, l’apertura e la posizione della labbra, la posizione e l’altezza

della punta della lingua, la posizione del velo pendulo, in modo da poter calcolare la

frequenza prodotta da ogni movimento e riprodurre esattamente il comportamento

dell’apparato vocale umano.

La sintesi articolatoria, per la sua stessa natura di “imitazione” dell’apparato

fonatorio, è la tecnologia con il maggior potenziale per quanto riguarda la similarità

con la voce umana; tuttavia, a causa della difficoltà di modellazione dei movimenti e

dei componenti dell’apparato, è stata presto abbandonata dalla maggior parte dei

ricercatori, a favore di una tecnica - almeno all’apparenza – più semplice (Pieraccini

2012: 198).

2.3 Sintesi concatenativa

La sintesi concatenativa è un metodo che si basa sulla realizzazione di una sequenza

di segmenti estratti da registrazioni. Questi segmenti possono andare dal singolo

fonema all’intero periodo, passando per la sillaba, il morfema e la parola, e affinché

si combinino correttamente devono avere il giusto tono, durata e intensità.

Per costruire un rudimentale sintetizzatore vocale che sfrutti la sintesi

concatenativa è sufficiente registrare una gran quantità di frasi con diverse

intonazioni, suddividere ed etichettare il materiale registrato e poi ricombinarlo a

piacimento. Tuttavia, ottenere la giusta combinazione di intonazione, durata e

intensità, e quindi un risultato naturale e intelligibile, non è affatto banale.

Un accento sulla sillaba sbagliata può rendere una parola “strana” nel migliore

dei casi, e totalmente incomprensibile nel peggiore; senza intonazione una frase

appare piatta e inespressiva (come accadeva per la macchina acustica-meccanica di

Kempelen), mentre un’intonazione sbagliata può essere fuorviante rispetto al

significato del messaggio. La soluzione più ovvia è quindi quella di registrare

campioni di ogni possibile pronuncia di ogni fonema, sillaba o parola di una lingua,

ed oggi grazie all’enorme potenza e capacità di immagazzinamento dei moderni

calcolatori questo è possibile, ma i primi studi sulla sintesi concatenativa risalgono

agli anni ’70, e i limiti di velocità e capacità dei computer dell’epoca rendevano

impraticabile questa strada.

La soluzione adottata fu quindi quella di rappresentare parametricamente i

frammenti di discorso registrati, in modo da poterli ricreare alterandone la durata, il

tono e l’intensità, e modellare l’intonazione dell’intera frase per comunicare il giusto

significato. (198-200)

3. Le nuove tecnologie

A partire dagli anni ’80, i sintetizzatori vocali escono dagli istituti di ricerca e

iniziano ad entrare nelle case dei normali cittadini.

Il 24 gennaio 1984 la Apple presenta al mondo il suo nuovo personal computer,

il Macintosh. Dopo una prima introduzione di Steve Jobs, tuttavia, è il Macintosh

stesso a presentarsi, tra lo stupore dei presenti: nel sistema operativo è infatti

integrato un software di sintesi vocale, il SAM (Software Automatic Mouth)

sviluppato da Mark Barton e ribattezzato dalla Apple MacInTalk, che permette alla

macchina di parlare in modo intelligibile, seppure non particolarmente naturale 3

(Hertzfeld 1984).

Il metodo di sintesi utilizzato da MacInTalk è basato sulla sintesi concatenativa

per difoni: anziché combinare i foni singolarmente, la combinazione avviene tra

coppie di foni, in modo da ottenere un effetto più naturale: ad esempio, il suono “m”

nella parola “ambizioso” è molto differente nella parola “Milano”, nonostante si tratti

dello stesso fonema, e quindi combinando il suono “m” di “Milano” nella parola

“ambizioso”, il risultato finale è intelligibile ma innaturale.

La registrazione della presentazione del Macintosh è disponibile online all’indirizzo:

3

https://www.youtube.com/watch?v=rkLHV39S3y4

In questa prima versione, il grado di somiglianza con il parlato umano è ancora

molto limitato in realtà, ma i successivi aggiornamenti e il progressivo aumento di

capacità renderanno i sintetizzatori vocali della Apple sempre più raffinati e

competitivi.

3.1 PlainTalk

Nel 1990, grazie al successo di MacInTalk, e intuendo le potenzialità di un sistema

integrato di riconoscimento e sintesi vocale, la Apple inizia ad investire sulle

tecnologie del parlato, assumendo un team di ricercatori nel campo. Il risultato è

PlainTalk, rilasciato nel 1993 nei modelli della serie Macintosh Quadra e orientato a

garantire l’accessibilità dei computer Apple anche agli utenti con difficoltà visive.

Nella sua versione iniziale, PlainTalk si compone di un modulo di

riconoscimento vocale per i comandi vocali e di un modulo di sintesi basato su una

versione aggiornata del MacInTalk orginale, MacInTalk 2. Nelle versioni successive,

il modulo di riconoscimento vocale diventerà sempre più sofisticato fino ad arrivare

alla svolta nel 2012: non più un sistema basato esclusivamente su comandi vocali,

ma un vero e proprio Speech-To-Text in grado di riconoscere il linguaggio naturale,

e senza bisogno di una fase di apprendimento.

Il sistema di Text-To-Speech, d’altro canto, introdurrà diverse migliorie e

renderà disponibili una molteplicità di voci in diverse lingue e accenti, dal suono

sempre più naturale (da “Victoria” nel 2001 a “Vicki” nel 2003 e “Alex” nel 2007).

L’integrazione completa dei due moduli si avrà in Siri, l’assistente vocale della

Apple rilasciato alla fine del 2012, che grazie alla sua intelligenza artificiale è in

grado non solo eseguire dei comandi o leggere dei messaggi, ma anche comprendere

il significato di una domanda e rispondere in modo appropriato.

L’assistente vocale di casa Apple, tuttavia, non è l’unico a rivelarsi al mondo nel

2012: nello stesso anno la Samsung presenta S Voice, disponibile in otto lingue su

tutti i dispositivi Samsung Android a partire dallo smartphone Galaxy SIII, Google

rilascia Google Now, assistente vocale sempre in ascolto e attivato automaticamente

dal comando vocale “Ok Google”, e in tre aeroporti di New York appare AVA

(Advanced Virtual Assistant), un’assistente vocale integrata in un ologramma e in


PAGINE

18

PESO

937.62 KB

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea magistrale in informatica umanistica (Facoltà di Lettere e Filosofia e di Scienze Matematiche, Fisiche e Naturali)
SSD:
Università: Pisa - Unipi
A.A.: 2017-2018

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher cidracula di informazioni apprese con la frequenza delle lezioni di Audio digitale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Pisa - Unipi o del prof Romani Francesco.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!