Informatica Applicata Alla Musica, Appunti Completi, Goffredo Haus

Appunti di Informatica applicata alla musica basati su appunti personali del publisher presi alle lezioni del prof. Haus dell’università degli Studi di Milano - Unimi, …

Esame Informatica Applicata Alla Musica

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Haus Goffredo

Università Università degli Studi di Milano

Publisher The_Bous

A.A. 2015-2016

34 pagine

7 download

Appunto

Vota 5,0 / 5 (2)

Scarica

Estratto del documento

BITRATE:

I file audio sono connessi per natura al tempo.

Infatti ad ogni secondo è associato un certo contenuto informativo e quindi una certa sottosequenza di cifre binarie.

il numero di cifre binarie che compongono queste sottosequenze è chiamato BITRATE.

BITRATE= frequenza di campionamento*BIT parole di quantizzazione usate * numero canali (mono, stereo)

Siccome la compressione diminuisce la lunghezza del file, le sottosequenze diminuiranno di lunghezza e quindi il

bitrate medio diminuirà.  

ES. pcm bitrate=1411 kb/s bitrate compresso=320 kb/s tasso di compressione: 4,5

TIPI DI SEGNALE AUDIO E COMPRESSIONE

Tra le varie tipologie audio, quelle più compresse sono:

- SEGNALE MUSICALE: è diventato uno standard mondiale il CD (Compact Disk), che utilizza:

o Frequenza di campionamento= 44100 [hz]

o Parole di quantizzazione da 16 bit [2^4]

o Stereo (2 canali)

BITRATE MEDIO= 44100[hz]*16[bit]*2= 1,4 mb/s

- SEGNALE VOCALE: come riferimento viene preso il Sistema telefonico digitale con:

o Frequenza di campionamento= 8[khz]

o Parole di quantizzazione di 8 bit [2^3]

o Stereo (2 canali)

BITRATE MEDIO = 8000 [hz]*8 [bit] * 2= 128 kbit/s

CONFRONTO CON FORMATO COMPRESSO: CONFRONTO CON FORMATO COMPRESSO:

se il CD ha un bitrate di 1,4 mb/s ci se il Sistema Telefonico digitale ha un

aspettiamo che il format compresso abbia bitrate di 128 kb/s ci aspettiamo che il

un bitrate più basso. Infatti l’MP3, un format compresso abbia un bitrate più

classico esempio di formato compresso di basso. Infatti il GSM, un classico esempio

audio ha un bitrate di 128 kbit/s, quindi di formato compresso di audio vocale ha

con un tasso di compressione di 1:10 un bitrate di 9,6 kbit/s, quindi con un

tasso di compressione di 1:14

TIPI DI COMPRESSIONE LOSSY(con perdita di informazioni)

Le compressioni lossy si possono dividere in:

- CODIFICHE LOSSY PER MODELLI:

o Algoritmi quali LPC, CELP e GSM

o Codifica per segnali vocali in quanto estraggono dall’audio le caratteristiche principali del parlato (pitch e/o

formanti, ecc…)

o Comprimono fino a fattore 26

o Impiegate soprattutto nella telefonia mobile

- CODIFICHE LOSSY NEL DOMINIO DELLE FREQUENZE

o Algoritmi che lavorano sullo spettro frequenziale del segnale. tale spettro viene scelto con una

quantizzazione non lineare guidata da un modello psicoacustico, che ha il compito di eliminare frequenze

inutili, in quanto non percepibili dall’orecchio umano.

o Tasso di compressione più alto rispetto alle lossless

o Signal quality più bassa rispetto alle lossless 

o Complessita algoritmica maggiore delle lossless processing delay più alto

o Un esempio di questi algoritmi sono: MPEG, ASPEC, MUSICAM,ecc…

PROCEDIMENTO ENCODER-DECODER

Il processo costituito da 3 entità principalmente:

- ENCODER: riceve un file PCM (wav o AIFF) non compresso e lo comprime tramite algoritmi

speciali.

- FORMATO DI CODIFICA: stabilisce le regole che specificano la struttura dell’informazione audio

compressa.

- DECODER: blocco che prende un file in un formato compresso e lo riporta nel formato non

compresso (WAV o AIFF,ecc…)

La maggior parte della complessità algoritmica sta nell’ENCODER così da rendere più facile e rapida la

fase del decoding.

Quando ho un .MP3 appunto compresso, posso sempre tornare al file pcm originale non compresso (wav o

aiff), sempre perdendo delle informazioni sulla traccia audio.

Infatti ad ogni giro della figura sopra che faccio introduco distorsioni e meno informazioni nella nuova

traccia. Quindi seguendo la logica, meno giri faccio del ciclo, meglio è. Per fare questo, gli sviluppatori ed i

musicisti hanno iniziato a compiere L’EDITING su pezzi musicali direttamente su .MP3 e non su .WAV così da

non perdere ancora informazioni, durante la ri-conversione.

STRUTTURA ENCODER

Figure 1. i pezzi più importanti sono il Quantizzatore non lineare e il Modello

psicoacustico. MODELLO PSICOACUSTICO: Simulare un pezzo dell’orecchio

QUANTIZZATORE NON LINEARE: attribuisce dei pesi alla singola banda con una chiamato coclea. Ci sono molti modelli cocleari sviluppati da tanti

certa quantità di bit e I criteri con cui decide quanti bit dargli è deciso dal centri di ricerca diversi. A parità di formato potrei avere un codec di

modello PSICOACUSTICO alte prestazioni e di basse prestazioni, quindi non dipende solo dal

formato ma anche dal encoder. Appunto per questo motivo il coder

è molto importante perché sceglie i criteri con cui comprimere il file.

Quindi comanda il codec e gli dice cosa deve prendere in un

Gli altri blocchi sono blocchi di passaggio e di transizione tra I due blocchi più determinato file tramite degli standard appunto chiamati modelli

importanti sopra citati. Per esempio: psicoacustici. Non fa scelte, ma predisponde per le scelte. Passa le

1. FFT mi dice quante frequenze devo tener conto sue informazioni al quantizzatore lineare. Praticamente il modello

2. IMPACCHETTAMENTO: alla fine di tutto dopo i processi di modello dice quanti bit attribuire a determinate frequenze a seconda della

psicoacustico e di quantizzazione devo aggiungere un po’ di informazioni loro importanza nella coclea.

. (metadati-intestazioni del frame) e in più per risparmiare ancora spazio fa

una nuova compressione di tipo LOSSLESS di cui è prefissata la capacità di

compressione. Questa ulteriore codifica serve a comprimere ancora di più

l’informazione ed il criterio che viene usato non è specifico. Nelle

informazioni aggiunte viene anche inserito come poter decomprimere il

file. Inoltre, l’impacchettamento contiene anche l’ALGORITMO DI

HUFFMANN, per eliminare le ridondanze presenti nella traccia.

CODIFICA LOSSLESS(senza perdita di informazioni)

Questo tipo di compressione può essere considerata quasi l’opposto di quella lossy, infatti non viene

perso qualsiasi tipo di informazione dal file audio. Appartengono a questa categoria anche le

compressioni non-multimediali quali per esempio i file di testo.

Durante questa compressione quindi non viene perso alcun dato e si può facilmente tornare al file PCM

non compresso. ESEMPIO FORMATI LOSSLESS

Un esempio di questo tipo di compressione è dato dai

formati Zip, Gzip, Bzip2, Rar, 7z. I file per cui non è

accettabile una perdita di informazione, come i testi o i

programmi, utilizzano questo metodo. Per le immagini

fotografiche generalmente non si usano

algoritmi lossless in quanto sarebbero veramente poco

efficienti, ma per le immagini che contengano ampie aree

con colori puri spesso la compressione "senza perdita" non

solo è applicabile, ma anche conveniente

(GIF, PNG, MNG, TIFF con compressione LZW, ZIP o RLE).

Gli algoritmi di compressione senza perdita di informazione lossless si basano sulla compressione della

ridondanza all’interno di un file.

È molto difficile trovare attimi in cui il segnale in uscita sia esattamente identico; è, cioè, praticamente

impossibile trovare un numero consistente di istanti in cui l'onda sonora da emettere sia identica in

tutte le sue componenti in più punti di uno stesso flusso audio. Le tecniche di compressione che si

basano sulla ridondanza hanno anche il vantaggio di avere un ulteriore controllo contro la possibile

insorgenza di errori nella compressione. La ridondanza è, infatti, uno strumento di controllo, oltre che di

compressione, specialmente in fase di trasferimento dei dati via Internet.

Le caratteristiche proprie di una compressione LossLess sono le seguenti:

- Il fattore di compressione in una compressione lossless, come in una lossy indica quanto

riducono l’ingombro del file e praticamente nella lossless tutti comprimono con la stessa fascia

di compressione sempre quasi tutti con lo stesso principio di compressione.

- Tempo di codifica quasi uguale alla compressione lossy e tempo di decodifica molto basso

- La compressione lossless non ha un tasso di fattore di compressione fisso

- La compressione lossless si basa prima su:

o Divisione del pezzo in vari sottopezzi che non possono essere né troppo corti né troppo

lunghi (trovare una strategia di frammentazione )

o Codifica lossless

- Possiamo affermare che in lossless cambia la compressione molto da un brano all’altro, ma non

molto cambiando encoder.

FORMATI AUDIO LOSSLESS

Esistono molti formati audio LossLess tra cui i più importanti:

- Un tipico formato lossless è .SHN (Shorten).

o Ormai sono obsoleti, non li usa più quasi nessuno

o Il principio base di questo formato è: ridurre le ridondanze ma senza perdere neanche

un BIT di informazione come in quasi tutti gli algoritmi di compressione lossless.

- .FLAC

- .APE(MonkeysAudio)

- .TTA

- .WV(WavPack)

- ALAC (formato proprietario APPLE)

- OptimFROG

- WMA (formato proprietario Windows): esiste sia lossy che lossless, sempre proprietario

Windows, ma ha sviluppato 2 algoritmi di compressione, uno lossy ed un lossless.

- TAK

Di seguito fornisco documentazione per valutare le differenze tra i vari formati LossLess.

Figure 1. Tabella comparazione formati audio LossLess

Figure 2. II tabella comparazione formati LossLess

Figure 3. Tabella Supporti per ogni formato, costo licenze e ultima release rilasciata

LOSSY+LOSSLESS (Tutti i formati a confronto di compressione audio)

Figure 4. Tutti i formati di compressione audio

GRANULARITA’ TEMPORALE PCM-LOSSY-LOSSLESS

.AAC (Advanced Audio Coding)

I sirultati di test soggettivi hanno dimostrato che la caratteristica backward compatible classica degli

MPEG compromette la qualità audio. Per questo motivo il team ha aggiunto uno standard ISO nuovo che

non è compatibile all’indietro e si chiama .AAC. .AAC è stato quindi incorporato in MPEG-4.

Le caratteristiche fondamentali di questo nuovo formato sono:

- A parità di informazione e di qualità in uscita, la compressione di un .AAC rispetto ad un .MP3 è

maggiore

- Per ottenere questo migliore compressione viene adottato un PREDITTORE:

o Le codifiche basate sul predittore codificano un segnale come differenza rispetto ad un

segnale predetto. Questa predizione è un modello, una formalizzazione del

comportamento di una sorgente di informazione.

o In questo modo potrò codificare solo le differenze dal modello predetto.

- Frequenze di campionamento da 8 a 96 Khz

- Bitrate da 8 a 512 Kbit/sec

- Comprende il multicanale: fino a 48 canali FULL.

ENCODER AAC

La figura sopra mostra un classico schema di encoding di un file .AAC. Da come possiamo notare, la fase

di encoding e l’encoder di una codifica AAC è molto più complesso rispetto ad una codifica .MP3.

Come nell’encoding .MP3 si avranno le seguenti fasi:

- Verranno eliminate tutte le frequenze impercepibili

Anteprima

Vedrai una selezione di 8 pagine su 34