Riassunto Elaborazione dell'audio digitale, prof. A.Servetti

Riassunto per l'esame di Elaborazione dell'audio digitale, basato su appunti personali e studio autonomo delle slide fornite dal docente A. Servetti, che ha sostenuto il corso con il supporto …

Esame Elaborazione dell'audio digitale

Facoltà Ingegneria dell'informazione iii

Dal corso del Prof. Servetti Antonio

Università Politecnico di Torino

Publisher bis91

A.A. 2016-2017

73 pagine

2 download

Appunto

Vota 4,0 / 5 (1)

Scarica

Estratto del documento

- DE MARTIN -

SEGNALE ➔ qualcosa che trasporta INFORMAZIONE attraverso le sue variazioni spaziotemporali, può essere trasformato, immagazzinato o trasmesso.

SUONO ➔ variazione di pressione dell'aria oggettivamente rilevabile

AUDIO ➔ variazione di pressione percepibile dal nostro orecchio, all'interno di un intervallo di intensità e frequenza (20Hz-20kHz)

Per quanto riguarda il limite superiore, si deve tenere conto di:

VARIABILITÀ INDIVIDUALE
PERDITA DI ALTE FREQUENZE CON L'ETÀ

INTENSITÀ

FREQUENZA

* INTENSITÀ ➔ SPL in dB (0-140) ➔ Sound Pressure Level

FREQUENZE ➔ 20 - 20.000Hz, 10 ottave (10 raddoppiamenti di frequenza)

****** b ➔ riferimento, prima intensità udibile di una sinusoide a 1kHz ➔ SPL = 10 log(1/0)

In analogico il segnale audio sarà trasmesso secondo precise catene

Con l'avvento del computer si passa alla tecnica digitale

DSP - DIGITAL SIGNAL PROCESSING (ELABORAZIONE NUMERICA DEI SEGNALI) - fare operazioni analogiche in digitale

DIGITALE è più resistente al rumore
ANALOGICO è più facile da elaborare se campionato e quantizzato

- La conversione A/D serve per passare dal dominio al tempo continuo a quello a tempo discreto - CAMPIONAMENTO

Im questo passaggio si perde qualcosa del segnale - più è " quei campioni meno perdiamo.

TEOREMA DEL CAMPIONAMENTO DI SHANNON -

ci dà le condizioni per passare da un dominio all'altro senza perdere informazione.

Fc >> 2Fo (Fo banda)
Fo strettamente limitata - la maggior parte dei segnali reali hanno banda illimitata, in'' approssimazione è l’eliminazione delle parti ad alte frequenze
Interpolare con filtro passa-basso ideale - convoluzione con sinc → irrealezzabile (ho < x < infinito) Adesso si usa un reale con frequenze di taglio pari a Fo . Anche possi irrealezzabile perchè la posizione non può essere nulla → filtro passa-basso reale

Definito Δ = _{X_m} / 2ⁿ e l'SNR sarà

SNR = 10 log₁₀ (σ_x² / (Δ²/12)) = 10 log₁₀ (σ_x² / (1/12) * (x_m² / 2²ⁿ)) =

= 10 log₁₀ σ_x² * 12 * 2²ⁿ / (x_m²) = 10 log₁₀ 12 + 10 log₁₀ σ_x² / x_m² + 10 log₁₀ 2^2ⁿ =

= Costoante + Componente legata a x_m + ~6n dB

=> SNR ∝ 6N dB

Fissato il fondo scala si, si ha che per ogni bit in più ho un aumento dell'SNR pari a 6dB, quindi aumenta molto velocemente (aumentare n bit significa raddoppiare i livelli).

In uscita al quantizzatore si ottiene una sequenza costituita da parole di n bit decodificabili. DEQUANTIZZATORE Q^-1 prendi un valore binario e genera un valore ricostruito.

I bit/rate prodotti dalla quantizzazione uniforme sono spesso elevati. Per questi si parla di TECNICHE DI COMPRESSIONE

R₁ è un bitrate troppo alto che va ridotto con un algoritmo di compressione. Sulla seconda catena il decompressione genera una sequenza ŷ[m] di nuovo a R₁ bit/s

In questo caso gli di ottimi vengono trovati sfruttando un sistema di N equazioni di grado. Quella che bisogna coprire è di punto prossimo ... end (indietro), è quindi coprire punto void.

N. N sono scelti trovando un compromesso tra prestazioni (SNR) e complessità/memoria. Per le voce in banda telefonica è sufficiente un quantizzatore differenziale di ordine N = 10.

Predittiva (DPCM - Linear Prediction Coding)

Problema di predizione - è possibile fare una predizione del valore attuale x[m] a partire dai campioni passati?

L’idea è quella di codificare e trasmettere l’ERRORE DI PREDIZIONE (differenza tra il valore reale e quello predetto),

cioè:

^{e[m] = x[m] - x̂[m]}

Come troviamo il valore predetto?

Codifica di ordine 1 → Ci basiamo sull’ultimo campione

^{x̂[m] = f(x[m-1]) = d ⋅ x[m-1]}

Codifica di ordine N → Ci basiamo sulla combinazione lineare degli ultimi N campioni.

^{x̂[m] = ∑d_i x[m-1]}

dove di sono COEFFICIENTI DI PREDIZIONE LINEARE

… L_i e N si trovano seguendo lo stesso ragionamento di prima (quindi convolvendo i pari della correlazione).

Adaptive (ARH) → Segnali non stazionari

Le tecniche statistiche sono adatte per segnali stazionari, le cui caratteristiche non dipendono dal tempo. I segnali audio …

Metodo inverse sono fortemente non stazionari, per questo parliamo delle tecniche adaptive.

→

Le sequenze delle formanti sono la caratteristica principale per identificare il fonema pronunciato, e quindi per l'intelligibilità. I parametri in uscita sono le prime due formanti e la loro ampiezza, ma la complessità di calcolo è eccessiva. Infatti si può assumere che il sistema fornisca comunque ogni 20 ms la determinazione del miglior filtro di sintesi, detto filtro di predizione lineare (LPC).

Nella pratica si considera un ordine 10 (LPC-10) perché:

È meglio considerare le prime tre formanti per migliorare l'intelligibilità.
Si deve tenere conto della scarte massale.

I 10 coefficienti saranno i 10 parametri che ricaviamo. Per quantizzarli serve per ogni quantizzatore 4 o 5 bit, quindi in totale 45 bit.

Alla fine abbiamo:

PARAMETRI → 1 + 1 + 1 + 10 = 13 x 50 volte al secondo = 650 param/s
BIT → 7 + 1 + 4 + 45 = 60 bit x 50 volte al secondo = 3000 bit/s = R

Con questa tecnica definiamo lo standard LPC.

Frequenza -> Inverso del periodo -> Tempo più breve per i segnali periodici.

Consideriamo di avere un coseno e una frequenza di clock. Si prende come riferimento per il ritardo di fase la posizione del primo picco, cioè τ=0. In questo punto la fase coincide con l'argomento del coseno.

Parliamo di shift in tempo quando indichiamo di quanto è traslato nel tempo il segnale di un certo valore T₁:

x(τ)=s(τ-T₁)
T₁>0 -> Ritardo
T₁<0 -> Anticipo

La relazione con la fase sta nella relazione:

I₁= -^φ/_{2πf_o}
dove ¹/_{f_o}=T_o => Δt= -^φ/_2π T_o

dove Δt è il ritardo nel tempo che corrisponde al ritardo di fase rispetto a τ₁. Come si arriva a questa formula? Si considerano due sinusoidi, una con frequenza doppia dell'altra. Ciò comporta un time shift diverso (T₁≠T₂), ma si ha lo stesso ritardo di fase perché partono entrambe da 0. Questo significa che il picco coincide spostato. Prendiamo le espressioni delle sinusoidi, una espressa in funzione della frequenza e della fase e l'altra in funzione della frequenza e del ritardo di tempo, e le eguagliamo:

Phase Shift - Time Shift

A cos (ω_oτ+φ) = A cos (ω_o (τ-T₁))

ω_oτ+φ = ω_oτ - ω_oT₁
=> φ = -ω_oT₁ => T₁ = -^φ/_{ω_o} = -^φ/_{2πf_o}

Fase e ritardo di tempo hanno segno opposto, quindi il segnale sarà ritardato se la fase è negativa.

Anteprima

Vedrai una selezione di 16 pagine su 73