Che materia stai cercando?

Formazione e percezione delle immagini - Appunti

Appunti sulla parte teorica di "Interazione uomo macchina" riguardante la Formazione e percezione delle immagini. Nello specifico gli argomenti trattati sono i seguenti: le immagini, elaborazione delle immagini, fisica e fisiologia della visione, misura delle radiazioni. Vedi di più

Esame di Formazione e percezione delle immagini docente Prof. C. Drioli

Anteprima

ESTRATTO DOCUMENTO

2 Formazione e percezione delle immagini

pinhole è z, mentre quella tra il pinhole è lo schermo è f. Notiamo che

la coordinata –f è uguale per tutti i punti dello schermo essendo lo

schermo posto a distanza fissa dal pinhole: ci interessa quindi studiare

x' e y'. Cerchiamo adesso di determinare il valore di y'. Abbiamo in

figura due triangoli simili per cui vale la seguente proporzione:

y : y ' z : f

y f y 

  f k

y ' k considerando ;

z z

Tutti i punti ad altezza y via via più lontani dal pinhole si

focalizzano in punti sempre più piccoli: infatti aumentando z

diminuisce il rapporto y/z.

Quanto detto per il piano zy si può ripetere per il piano zx:

x

x ' k

Quindi z

y

x

 

x ' k y ' k

e sono dette leggi della prospettiva forte (in cui si

z z

tiene conto in maniera esplicita del valore z).

Anche la z subisce trasformazioni di tipo prospettico ma ciò non

è rilevante in questo contesto (z'=-k).

2.3.2 Il processo di imaging pipeline 21

2 Formazione e percezione delle immagini

Abbiamo già visto cos'è una lente e quali sono le sue

caratteristiche; ora vedremo le trasformazioni intermedie in un

processo di imaging pipeline. Possiamo esprimere il processo mediante

questo schema in cui vengono messe in evidenza le trasformazioni:

T B P 1

Mondo reale Mondo reale Mondo della Mondo 2D

T dello schermo

in 3D 3D proiezione

Riferito ad un sistema Riferito alla telecamera Riferito alla telecamera Riferito ad un

fisso opportuno sist. di rif.

Nel mondo reale in 3D abbiamo un oggetto la cui posizione

rispetto ad un sistema fisso è data dalle coordinate x,y e z. Mediante

una matrice di proiezione P cerchiamo di passare al mondo della

proiezione riferito al sistema della telecamera, in cui l'oggetto avrà

coordinate x', y' e z':  

k

 

0 0

 

z

 

   

k

 

x y z 0 0 x ' y ' z '

 

z

 

k

 

0 0

 

z

Il segno meno corrisponde al fatto che passando dal pinhole

l'immagine risulta capovolta.

Esiste anche una legge della prospettiva debole. La matrice P descrive

la prospettiva forte; spesso però ci troviamo in una situazione tipo

quella in figura:

In questo caso l'oggetto è molto lontano dall'obiettivo. Diciamo

che l'oggetto è compreso tra z e z e dista z dalla telecamera.

min max medio 22

2 Formazione e percezione delle immagini

  

z z z

max min y

x

 

   x ' y '

z 4 z

Spesso, se e

medio z z

min max

   

z z z z

min medio min

Possiamo quindi trascurare rispetto a z . Introduciamo

z medio

F=z , cioè un fattore di scala fisso per ogni punto. Abbiamo quindi

medio

una nuova trasformazione mediante la matrice di prospettiva debole

P :

deb  

k

 

0 0

 

F

 

   

k

 

x y z 0 0 x ' y ' z '

 

F

 

k

 

0 0

 

F

2.3.3 Equivalenza tra le coordinate

Consideriamo il seguente grafico: 23

2 Formazione e percezione delle immagini

Notiamo il sistema di riferimento fisso del mondo reale xyz e

quella della telecamera x'y'z'. In quest'ultimo notiamo il vettore che

u

indica la direzione UP della telecamera, il vettore che indica l'asse

n

ottico e il vettore che indica il lato della telecamera.

v

Posso esprimere le coordinate di P nel sistema di riferimento della

telecamera mediante una opportuna rototraslazione degli assi.

Eseguiamo dapprima la traslazione, mediante la matrice di

traslazione T: T

   

x y z 1 x y z 1

T T T

Dobbiamo ottenere:  

x x x '

T 0

 

y y y '

T 0

 

z z z '

T 0

Quindi T sarà:  

1 0 0 0

 

 

0 1 0 0

   

x y z 1 x y z 1

  T T T

0 0 1 0

 

 

  

 

x ' y ' z ' 1

0 0 0

Dobbiamo ora effettuare la rotazione; vogliamo che

   

 

n n n u u u

0 0 1

diventi il nuovo asse z, cioè , che

x y z x y z

 

   

v v v

0 1 0 1 0 0

diventi e che diventi . Si avrò quindi

x y z

una matrice B tale che:  

v v v

 

x y z B I

 

 

u u u

x y z

 

n n n

 

x y z 24

2 Formazione e percezione delle immagini

dove I è la matrice identità. B sarà quindi la matrice inversa della

prima. La prima è una matrice ortonormale e l'inversa di una matrice

ortonormale è la sua trasposta; quindi B sarà

 

v u n

 

x x x

B   

v u n

y y y

 

 

v u n

z z z

Allora avremo: T B

   

   

x y z 1 x ' y ' z ' 1

cioè siamo passati dalle coordinate del sistema di rif. del mondo reale a

quelle solidali con la telecamera. Possiamo inglobare la proiezione

scrivendo che con il prodotto delle matrici TBP passiamo da punti in

un sistema di rif. 3D a punti su uno schermo 2D nel riferimento della

telecamera.

2.3.4 Realizzazione dell'immagine

Con un'ultima trasformazione possiamo passare all'immagine

sullo schermo. In particolare ci interessa lo schermo del computer,

schematizzato nella figura seguente:

O(0,0) x

y

L'origine è il puntino in alto a sinistra. Trasformiamo ora le

coordinate x,y nel sistema della telecamera alle coordinate dello

schermo . Non vanno fatte rotazioni ma una semplice traslazione.

x y  

, 

Se il punto O ha coordinate nel riferimento della telecamera, nel

riferimento dello schermo dovrà avere coordinate (0,0):

  

x x

  

y x 25

2 Formazione e percezione delle immagini 1

Si avrà come per gli altri casi una matrice, che indichiamo con T e

1

considerare infine una grande trasformazione TBPT .

2.3.5 Il rumore e la distorsione

Possiamo schematizzare come segue il processo di imaging

pipeline fin qui descritto: Schermo di cattura

World ASPETTO FISICO

File di

Radiazioni informazioni

elettromagnetiche digitali

Sistema ottico

3D 3D 2D ASPETTO GEOMETRICO

Rif. fisso Rif. solid. Rif. solid. allo schermo

con sist. ott.

Nel processo di creazione del file finale si aggiungono due

effetti "sgraditi", cioè il rumore e la distorsione.

Il rumore è ciò che si aggiunge alla parte di interesse di un

segnale, facendo sì che i valori finali non siano quelli attesi; una

macchia sull'obiettivo, ad es., aggiunge alla fotografia delle

componenti non significative ai fini della descrizione della scena

fotografata, e quindi posso classificarla come rumore.

La distorsione radiale è dovuta a diversi fattori, tra cui ad es. a

difetti intrinseci della lente dell'obiettivo, alla forma della lente stessa

ecc. Il disegno chiarisce cosa si intende per distorsione. La parte

centrale dello schermo, racchiusa in un cerchio, risulta priva di

26

2 Formazione e percezione delle immagini

distorsione: cioè un punto del mondo reale va a finire esattamente nella

posizione prevista dall'analisi teorica. I punti periferici al di fuori del

cerchio vengono spostati in direzione radiale, rispetto al centro dello

schermo, di una certa quantità rispetto a quanto previsto.

2.3.6 Correzione della distorsione Punto osservato

Punto

reale

Nella figura notiamo che c'è una certa differenza di posizione tra

il punto P osservato e il punto P reale. In termini di coordinate

possiamo ricavare la posizione corretta del punto mediante la seguente

formula:  

  

2 4

X X 1 K r K r

reale distorto 1 2

 

  

2 4

Y Y 1 K r K r

reale distorto 1 2

Quello tra parentesi rappresenta il fattore di correzione, in cui r

è la distanza del punto osservato dal centro dello schermo. K e K

1 2

sono costanti che dipendono dal particolare sistema ottico usato. I

4

termini K r si possono trascurare.

2

Per stimare K si possono ad es. prendere dei fogli con su

1

stampata una griglia regolare:

Ponendo il foglio siffatto in posizione perfettamente ortogonale

all'asse ottico della telecamera se ne cattura l'immagine. Sappiamo

come è realizzata la griglia sul foglio originale, sappiamo quindi qual è

27

2 Formazione e percezione delle immagini

l'immagine che ci aspettiamo e possiamo confrontarla con l'immagine

distorta che invece otteniamo.:

Si costruisce quindi un grafico, in cui rappresentiamo la

distorsione (ordinate) in funzione di r (ascisse). I punti si possono

approssimare ad una parabola.

2.3.7 Correzione del rumore

Il segnale relativo all'immagine acquisita da una telecamera, ad

es., può essere espresso mediante la seguente relazione:

 

s (

t ) p (

t ) n ( t )

In cui p(t) rappresenta la parte pura del segnale, quella di interesse, e

n(t) rappresenta la parte secondaria, il cosiddetto rumore o noise.

Se ad es. scattiamo due fotografie a distanza di qualche secondo,

nelle medesime condizioni, otterremo due fotografie simili ma non

esattamente uguali. Il rumore difatti è una componente variabile. Resta

ora da determinare in che maniera è possibile stimarlo.

n(t) è una variabile random con distribuzione

approssimativamente normale, la cui media vale 0 (anche se questa è

un'assunzione non troppo realistica) e la cui varianza indichiamo con

 2 . Quando la media non vale 0, si aggiunge alla formula un termine b

n 28

2 Formazione e percezione delle immagini

dipendente dall'apparecchiatura (bias), mentre n(t) è una componente

puramente casuale.   

s (

t ) p (

t ) n (

t ) b

Se fotografiamo il cielo azzurro in una giornata serena, anche il

più piccolo disturbo diventa significativo, mentre lo stesso disturbo in

una fotografia del carnevale di Rio De Janeiro diventa impercettibile.

Vediamo quindi che non possiamo prendere una misura assoluta del

rumore. Ci interessa quindi il cosiddetto SNR (Signal Noise Ratio) o

Rapporto segnale/rumore: 

  segnale

SNR 10 log 

10 rumore

dove il segnale indicato al numeratore della frazione è p(t). L' SNR si

misura in decibel. Si usa il logaritmo per amplificare il valore del

rapporto che altrimenti sarebbe troppo piccolo. Se il rapporto è <1 (e

quindi il log è negativo) percepiamo solo il rumore.

Supponiamo ora di poter disporre di n immagini della stessa scena, I ,

1

I , …, I .

2 n

I I ( x , y )

1 1  

x 0

... N , y 0

...

M

... 

I I ( x , y )

n n Ogni immagine è una matrice in cui ogni elemento rappresenta

un valore di intensità luminosa.

Ricaviamo l'immagine media: n

1 

I I i

n 

i 1

Avremo:  

s (

t ) p (

t ) n (

t )

1 1 1

...  

s (

t ) p (

t ) n (

t )

n 1 n 29

2 Formazione e percezione delle immagini

p1(t) rimane costante in quanto costituisce il segnale puro, ovvero la

parte che rimane invariata.

Quello che varia invece è il rumore:

 

n n n n

1 1 1

   

   

 

s ( t ) p (

t ) n (

t ) p (

t ) n (

t )

i 1 i 1 i

 

n n n

   

i 1 i 1 i 1 i 1

La parte tagliata è nulla perché è la media del rumore, che noi abbiamo

supposto essere nulla.  

2

N M n

1   

   

I ( x , y ) I ( x , y )

  

NOISE i

( n 1

) N M   

x 0 y 0 i 1

Questo è relativo a tutta l'immagine.

NOISE

A volte però il rumore non è lo stesso su tutta l'immagine, per cui alla

 ( x , y )

fin fine ci interessa , cioè il rumore in ogni punto.

NOISE  

n

1  2

   

( x , y ) I ( x , y ) I ( x , y )

NOISE i

( n 1

) 

i 1

Quindi nella formazione di un'immagine possono agire fattori

intrinseci ed estrinseci. I fattori intrinseci sono ad es. il fuoco della

telecamera, K1 e K2 della distorsione radiale, le dimensioni

dell'obiettivo, le dimensioni dello schermo ecc., mentre quelli

estrinseci sono indipendenti dalla telecamera e sono ad es. la posizione

e l'orientamento della stessa telecamera, la temperatura, il livello di

luminosità ecc. 30

2 Formazione e percezione delle immagini

2.4 I sensori

I sensori sono dei dispositivi capaci di convertire un certo

segnale in un livello di tensione; in particolare i sensori di luminosità

assorbono fotoni e rilasciano cariche elettriche, ovviamente in maniera

correlata: SENSORE ADC

Fotoni Cariche

I differenti livelli di tensione passano ad un ADC (Analog

Digital Converter, Convertitore Analogico Digitale), dispositivo

capace di fornire in uscita dei valori digitali discreti corrispondenti ai

valori analogici acquisiti in ingresso. Tale processo si dice di

Quantizzazione. Inoltre su uno schermo, ad es. possiamo mettere solo

una quantità discreta di sensori. Per questo motivo ci si riferisce a

questo processo come ad un processo di discretizzazione.

La tecnologia di sensori oggi più diffusa è la CCD (Charge

Coupled Device). Un dispositivo CCD immagazzina per un certo

periodo una carica elettrica proporzionale alla quantità di radiazione

elettromagnetica che riceve. Un'altra tipologia di sensori si basa sulla

tecnologia CMOS.

2.4.1 La digitalizzazione

Due tipici dispositivi capaci di acquisire delle immagini digitali

sono gli scanner e le macchine fotografiche digitali.

SCANNER

Gli scanner sono dispositivi periferici capaci di digitalizzare

immagini bidimensionali (fotografie, disegni, ecc.). Tipicamente in

uno scanner sono presenti centinaia di sensori CCD per pollice di

31

2 Formazione e percezione delle immagini

lunghezza. Il numero di sensori per pollice di lunghezza diventa così

un'unità di misura per il grado di qualità di un'immagine e si indica con

DPI (Dots Per Inch).

Tali sensori sono posti su una riga mobile. Non appena inizia la

scansione questa riga si posiziona all'inizio dell'immagine da acquisire:

i sensori rimangono esposti per un certo periodo di tempo all'immagine

opportunamente illuminata e si caricano elettricamente. La carica viene

inviata ad un particolare buffer da cui poi vengono lette

sequenzialmente. Si ottengono quindi numeri proporzionali alle

cariche. Una volta acquisita la prima riga i CCD si spostano quindi in

avanti leggendo la seconda riga e così via fino ad acquisire l'intera

immagine. Ogni punto dell'immagine digitalizzata diventa un elemento

di una matrice 2D sullo schermo, denominato pixel (picture element).

MACCHINA FOTOGRAFICA DIGITALE

In una macchina fotografica digitale i CCD stanno su una

matrice. Sono quindi presenti in numero maggiore che su uno scanner:

aumenta così il costo ma diminuisce il tempo di acquisizione

dell'immagine. Pur trovandosi su una matrice i sensori sono organizzati

in colonne. Un dispositivo detto otturatore espone a turno ciascuna

colonna all'immagine, e questo molto rapidamente. Dopo aver caricato

i CCD della prima colonna i dati vengono scaricati sul buffer, mentre

contemporaneamente viene esposta la seconda colonna e così via. La

lettura dei buffer è quindi un'operazione che deve avvenire

rapidamente.

INTERLACING

E' una tecnica (quella usata dai classici televisori) che prevede

l'esposizione e l'acquisizione delle colonne pari alternate a quelle

dispari. Così vengono esposte ed acquisite contemporaneamente le

colonne dispari, poi quelle pari e così via, alternandosi rapidamente,

così rapidamente da ingannare l'occhio e dare l'impressione che

l'immagine sia presente sempre per intero. 32

2 Formazione e percezione delle immagini

2.5 Il sistema visuale umano

Il sistema visuale umano è costituito dal sistema occhi-nervi-cervello.

Radiazioni Rappresentazione

elettromagnetiche della realtà

OCCHI Cervello

(fotoni) (mente)

2.5.1 Struttura dell'occhio umano

La funzione dell'occhio è quella di tradurre le onde

elettromagnetiche della luce in impulsi nervosi che vengono

trasmessi al cervello mediante il nervo ottico.

L'occhio, o bulbo oculare, è una struttura sferoidale del

diametro di circa 2,5 cm con una sporgenza pronunciata sulla sua

superficie anteriore. La parte esterna è formata da tre strati di tessuto: 33

2 Formazione e percezione delle immagini

il più esterno è la sclera, un rivestimento protettivo che ricopre circa

cinque sesti della superficie oculare e che, nella parte anteriore, è in

continuità con la cornea, trasparente e sporgente. Lo strato

intermedio è la coroide, molto ricca di vasi sanguigni, che riveste i

tre quinti posteriori del bulbo oculare ed è in continuità con il corpo

ciliare e con l'iride che si trova nella parte anteriore dell'occhio.

Infine, lo strato più interno è la retina, sensibile alla luce.

La cornea è una membrana trasparente, convessa in avanti,

costituita da cinque strati, attraverso la quale la luce penetra

all'interno dell'occhio. Dietro la cornea c'è una cavità (camera

anteriore) che contiene un liquido trasparente e acquoso, l'umor

acqueo, che la separa da una struttura, il cristallino, che rappresenta

la "lente" dell'occhio. Il cristallino è una sfera appiattita formata da

un gran numero di fibre trasparenti disposte in strati; è circondato dal

muscolo ciliare, di forma circolare, a cui è collegato da alcuni

legamenti. Insieme ai tessuti circostanti, il muscolo ciliare forma il

corpo ciliare che, appiattendo il cristallino o arrotondandolo, ne

modifica la lunghezza focale, cioè la distanza alla quale esso mette a

fuoco le immagini.

L'iride è una formazione circolare, pigmentata, localizzata

dietro la cornea e davanti al cristallino; essa presenta un'apertura

circolare al centro, la pupilla, le cui dimensioni sono controllate da

un muscolo posto sul suo margine. Contraendosi e rilassandosi,

questo muscolo fa allargare o rimpicciolire la pupilla stessa,

controllando la quantità di luce che penetra nell'occhio.

Dietro il cristallino, il bulbo oculare contiene una sostanza

gelatinosa trasparente, l'umor vitreo, racchiusa da uno strato

membranoso sottile, la membrana ialoidea. La pressione dell'umor

vitreo mantiene il bulbo oculare disteso.

2.5.2 Funzionamento dell'occhio

Gli occhi degli animali possono essere paragonati a semplici

macchine fotografiche, in quanto il cristallino forma sulla retina

fotosensibile, che corrisponde a una pellicola fotografica,

un'immagine capovolta degli oggetti. Come si è detto sopra,

nell'occhio la messa a fuoco viene ottenuta con l'appiattimento o 34

2 Formazione e percezione delle immagini

l'arrotondamento del cristallino: tale processo viene chiamato

accomodazione. In condizioni normali, l'accomodazione non è

necessaria per vedere oggetti lontani. Il cristallino, appiattito dal

legamento sospensore, mette a fuoco questi oggetti sulla retina. Per

vedere oggetti più vicini, il cristallino viene progressivamente

arrotondato dalla contrazione del corpo ciliare, che fa rilassare il

legamento. Un bambino in tenera età riesce a vedere chiaramente a

una distanza di soli 6,3 cm; con il passare degli anni, il cristallino

gradualmente si indurisce, al punto che i limiti della visione da vicino

sono circa 15 cm a 30 anni e 40 cm a 50 anni. Con l'avanzare dell'età,

in genere si verifica una perdita della capacità di adattare gli occhi a

normali distanze di lettura o di lavoro da vicino. Questo difetto della

visione (presbiopia) può essere corretto con l'uso di lenti convesse

per la visione da vicino. Altri difetti come l'ipermetropia e la miopia

sono, invece, provocati da differenze strutturali nelle dimensioni

degli occhi.

2.5.3 Le diottrie

La diottria è la misura della potenza di una lente sottile. Essa è

pari all'inverso della lunghezza focale f, quando questa viene misurata

in metri. Ad es. un obiettivo fotografico con fuoco 50 mm ha una

potenza di 1/0,05 = 20 diottrie. Un telescopio con fuoco 7 m ha

pochissime diottrie.

2.5.4 Cornea e cristallino

Come detto sopra, gli elementi focalizzanti dell'occhio umano

sono due e sono:

 La cornea: ha una funzione protettrice ma anche di lente con

una potenza di circa 40 diottrie.

 Il cristallino: ha un fuoco variabile per consentire la formazione

di un'immagine nitida esattamente sulla retina.

Grazie al cristallino riusciamo a vedere bene gli oggetti posti a

diverse distanze. Il cristallino aggiusta il suo fuoco a seconda della

distanza a cui sono posti gli oggetti che guardiamo. 35

2 Formazione e percezione delle immagini

1 1 1

 

Riferendoci all'eq. della lente sottile e all'occhio

f v u

umano:

 u è la distanza di un oggetto dal cristallino (variabile)

 v è la distanza della retina dal cristallino (fissa)

E' chiaro che essendo v fisso per mantenere l'uguaglianza devo

agire sul fuoco: u

3

u v

2 u

1

Oggetti cristallino retina

Nei bambini il cristallino ha potenza nel range di 10-30 diottrie.

Negli adulti (età > 45 anni) la potenza in diottrie del cristallino è nel

range di 10-15.

La combinazione di cornea e cristallino fornisce un potere di

50/60 diottrie, cioè una focale di 12-16 mm.

Poiché la retina dista dalla cornea circa 24 mm, per una visione

a fuoco a media distanza occorrono circa 40 diottrie. La potenza in più

viene utilizzata per compensare l'irregolarità di forma e mettere a

fuoco oggetti a diversa distanza. Nella figura seguente vediamo la

geometria degli occhi in una persona con vista normale, in una miope,

in una ipermetrope: 36

2 Formazione e percezione delle immagini

Come notiamo in una persona con vista normale l'immagine

viene focalizzata esattamente sulla retina, in una miope a distanza

minore, in una ipermetrope al di là della retina.

2.5.5 La retina

La retina è una membrana fotosensibile, formata in gran parte

da cellule nervose stratificate che poggiano, dal lato esterno della

retina, su uno strato pigmentato. Queste cellule si distinguono, a

seconda del loro aspetto e della loro funzione, in coni e bastoncelli e

hanno differenti sensibilità ai colori e alla quantità di luce.

I coni sono più grandi e sensibili ai colori e permettono

un'alta acutezza visiva (si attivano solo con una certa quantità di

luce); i bastoncelli sono più piccoli, più sensibili dei precedenti alla

luce e permettono la visione crepuscolare a scarsa acutezza visiva

(con il termine acutezza visiva si intende la capacità di discriminare

un oggetto; essa è tanto maggiore quanto minore è la distanza alla

quale si percepiscono come separati due punti appartenenti a

quell'oggetto). 37

2 Formazione e percezione delle immagini

Sulla retina, in perfetta opposizione alla pupilla, si trova una

piccola zona elissoidale del diametro di circa 2,5 mm, di colore

giallo, chiamata fovea centralis: essa corrisponde alla zona di

massima acutezza visiva dell'occhio. Nella fovea le cellule

fotosensibili sono rappresentate solo da coni. Intorno a essa sono

presenti sia coni sia bastoncelli; procedendo verso la periferia della

zona sensibile i coni si diradano e, all'estremità esterna, si trovano

solo bastoncelli.

Nel punto in cui il nervo ottico penetra nel bulbo oculare si

trova una piccola zona rotonda di retina priva di cellule fotosensibili,

la papilla ottica, che rappresenta il punto cieco dell'occhio (blind

spot). A causa della struttura nervosa della retina, l'occhio vede con

la massima chiarezza solo nella regione della fovea. I coni

permettono di distinguere dettagli fini, in quanto sono collegati

singolarmente alle fibre nervose e pertanto gli stimoli diretti a

ciascuno di essi vengono riprodotti in modo preciso. I bastoncelli,

invece, sono collegati alle fibre nervose a gruppi; pertanto sono in

grado di rispondere a stimoli ridotti ma diffusi, mentre non hanno la

capacità di distinguere piccoli dettagli dell'immagine visiva. A causa

di queste differenze, sia strutturali sia funzionali, il campo visivo

dell'occhio è formato da una piccola zona centrale di grande

nitidezza, circondata da una zona di nitidezza minore, in cui però la

sensibilità alla luce è maggiore. La conseguenza di questo fenomeno

è che gli oggetti risultano visibili di notte nella parte periferica della

retina, mentre sono invisibili in quella centrale. I responsabili della

visione diurna sono i coni, mentre alla visione notturna presiedono i

bastoncelli.

La retina ricopre l'interno dell'occhio per circa 200 gradi: 38

2 Formazione e percezione delle immagini

Tutta la retina è fotosensibile, ma la densità di coni e bastoncelli

è molto variabile. Nella figura seguente vediamo la distribuzione

delle cellule nella retina:

Ci sono circa 140.000 coni per mm lineare nella fovea, un'area

che sottende solo 2 gradi.

Fissando il piccolo punto centrale nella fig. seguente tutte le

lettere appaiono ugualmente leggibili: 39

2 Formazione e percezione delle immagini

Questo perché le lettere piccole si focalizzano nei punti più

sensibili della retina, mentre quelle grandi nei punti meno sensibili:

però essendo più grandi sono ugualmente ben leggibili.

2.5.6 Occhi e lunghezze d'onda

La radiazione elettromagnetica che giunge all'occhio è

distribuita nelle varie lunghezze d'onda. Il contributo energetico di

40

2 Formazione e percezione delle immagini

ciascuna lunghezza d'onda in una radiazione luminosa può essere

visualizzato in un istogramma dello spettro:

L'occhio umano risponde a lunghezze d'onda comprese tra 380 e

-9

780 nm (1 nm = 10 m).

La radiazione giunge alle cellule retinali e interagisce con

particolari molecole. Il meccanismo della visione comporta la

sensibilizzazione delle cellule della retina da parte di un pigmento

fotosensibile che nei bastoncelli prende il nome di rodopsina, nei coni

iodopsina. La rodopsina viene inattivata per azione della luce e deve

essere riformata dai bastoncelli in condizioni di oscurità; quindi,

l'effetto che si avverte passando dalla luce del sole a una stanza buia,

quando non si riesce a vedere nulla, è dovuto al fatto che le nuove

molecole di rodopsina non sono ancora disponibili. Quando il

pigmento si è formato e gli occhi sono diventati sensibili ai bassi livelli

di illuminazione, si dice che la vista si è adattata all'oscurità.

La risposta di picco della rodopsina è intorno a 500 nm dove la

visione notturna appare al massimo dell'efficienza.

Per quanto riguarda i coni, se ne possono distinguere tre classi, a

seconda della lunghezza d'onda a cui si attivano: S (corte), M (medie),

L (lunghe).

Le risposte di picco sono riportate nel grafico seguente: 41

2 Formazione e percezione delle immagini

2.5.7 Alcune peculiarità della visione umana

L'occhio è sensibile a variazioni temporali dell'illuminazione.

Gli effetti temporali più importanti della visione sono lo smoothing

temporale e l'adattamento.

SMOOTHING TEMPORALE

Sequenze di immagini che cambiano rapidamente possono

essere percepite come un'unica sequenza fluida se si supera una certa

frequenza di fusione (CFF). (Vedi interlacciamento).

La risposta alle variazioni repentine di illuminazione dipende

dalla frequenza delle variazioni e da molte altre variabili di tipo

ambientale e soggettivo: 42

2 Formazione e percezione delle immagini

La mancata fusione produce l'effetto sfarfallio o flickering.

Questo effetto, ad es. va considerato nel progetto dei monitor. La CFF

in un uomo è di circa 60 Hz, in un'ape ad es. è di 300 Hz.

La TV ha un refresh di circa 40 Hz, e sebbene sia inferiore ai 60

Hz di CFF, non si nota la sfarfallio grazie all'interlacciamento. Nel

cinema le riprese sono fatte alla frequenza di 25 scatti al secondo. Si

raggiungono i 50 Hz raddoppiando ogni scatto.

ADATTAMENTO

Le cellule dell'occhio hanno risposte precise intorno a certi

livelli energetici. Se tali livelli vengono rapidamente superati si ha una

sovra saturazione e una perdita temporanea di acuità. Nella figura

seguente vediamo le conseguenze dell'adattamento al variare della

luminanza:

Notiamo che i bastoncelli reagiscono meglio quando c'è poca

luce (ma non troppo poca); nelle zone luminose i colori si vedono

quasi del tutto bianchi: la variazione di luminosità quando c'è troppa

luce non viene più percepita. Al contrario al di sotto di una certa soglia

minima di luminosità si vede tutto nero (al buio non è possibile

distinguere i colori).

Per quanto riguarda i coni, a seconda della luminosità entra in

gioco un certo tipo di cono. 43

2 Formazione e percezione delle immagini

Così l'adattamento è quel fenomeno secondo cui l'occhio ha

maggiore sensibilità in presenza di poca luce, minore quando c'è molta

luce.

2.5.8 Sensibilità al contrasto spaziale

Ad un osservatore viene chiesto di percepire la presenza di un

pattern sinusoidale su differenti frequenze (orizzontalmente). Si ha un

quadrato siffatto:

chiaro

scuro

Il pattern viene anche variato nel suo contrasto (verticalmente,

tra bianco e nero o tra grigi differenti via via più prossimi). La

relazione tra frequenza spaziale e contrasto minimo necessario per

percepire il pattern varia da individuo ad individuo e varia anche con

l'età: 44

2 Formazione e percezione delle immagini

La frequenza spaziale è misurata in cicli/mm sulla retina. La

nostra risposta a diversi tipi di segnali (sinusoidali per es.) è chiamata

CSF (Funzione di sensibilità al contrasto).

Un altro semplice esperimento consiste nel porre n osservatori

davanti ad uno schermo raffigurante un cerchio su uno sfondo. Il

cerchio ha un colore leggermente diverso dallo sfondo. Viene chiesto

agli osservatori di aumentare la luminosità del cerchio (agendo su

un'opportuna manopola) fino a quando si noti la differenza di colore

tra lo sfondo e il cerchio stesso.

Sia I l'intensità di base (l'unità di misura non è rilevante in

questo contesto). Il primo incremento percepibile sia dI. Supponiamo

che I di base sia I=100. L'aumento di luminosità introdotto dal soggetto

per poter vedere il cerchio distinto dallo sfondo è, supponiamo, dI=2.

Consideriamo il rapporto dI/I=2/100=0.02. Se ora consideriamo

45

2 Formazione e percezione delle immagini

I'=200, il corrispondente dI', cioè l'aumento di luminosità tale da essere

percepibile è dI'=4, e di conseguenza dI'/I'=4/200)0.02. E così via

avremo dI''/I''=6/300=0.02. Il rapporto dI/I è chiamato rapporto di

Weber. La legge di Weber afferma quindi che per un umano il

rapporto in questione non varia al variare di I e vale circa 0.02.

In questo modo vediamo che via via che la luminosità cresce è

sempre più difficile percepire eventuali variazioni. L'occhio umano

discrimina meglio le differenze di intensità luminose nelle zone scure.

Una spiegazione di quanto detto risale ai primi uomini sulla terra, che

per poter sopravvivere hanno dovuto adattare la propria vista a

percepire oggetti nell'oscurità (ad es. per difendersi o per cacciare).

2.5.9 Luminosità e dispositivi CCD

Prendiamo in esame adesso dei dispositivi CCD.

Se un CCD viene investito da un raggio luminoso di intensità

I=100, rilascerà in uscita un livello di tensione proporzionale al livello

di intensità in ingresso, che verrà convertito in un opportuno valore

numerico compreso in un range A-B (A=0 B=Max, dove 0 è il valore

corrispondente alla minima intensità e max alla massima, per cui

andando da A a B si va da scuro a chiaro). Supponiamo quindi di voler

convertire tale valore numerico in un livello di intensità da visualizzare

su un monitor. Avendo a disposizione solo 8 bit per memorizzare il

valore numerico di intensità possiamo disporre di 256 diversi livelli di

grigio.

Se suddividessimo il range A-B in 256 intervalli uguali

otterremo un'immagine poco nitida e questo perché ovviamente il CCD

non obbedisce alla legge di Weber mentre il nostro occhio si: per cui

utilizzando intervalli uguali tra un livello di luminosità e il successivo

otterremmo dati insufficienti nella zona prossima ad A e dati inutili

nella zona prossima a B. Occorre pertanto distribuire le ampiezze degli

intervalli in modo da utilizzare al meglio gli 8 bit a disposizione;

suddividendo il range A-B in 256 intervalli di ampiezza diversa (più

stretti in prossimità di A e più larghi in prossimità di B) potrò avere a

disposizione più valori per le intensità più basse, che sono quelle le cui

variazioni sono più facilmente percepibili, e meno valori per le

46

2 Formazione e percezione delle immagini

intensità di luminosità maggiori, che del resto sono più che sufficienti

essendo sempre più impercettibili le variazioni di luminosità in

prossimità di B.

Praticamente avrò il primo valore I , il secondo valore I +dI , il

0 0 0

terzo valore I +dI +dI e così via, in modo che si mantenga sempre

0 0 1

dI dI

0 1

l'uguaglianza . Affinché il secondo membro sia uguale al

I I dI

0 0 0

primo occorre che dI sia un po’ maggiore di dI essendo aumentato il

1 0

denominatore.

2.5.10 Lightness contrast

Consideriamo la figura seguente: 47

2 Formazione e percezione delle immagini

I quattro quadrati più interni sono dello stesso colore, ma il

nostro occhio viene ingannato e il percepisce di colore diverso. Da

questo si vede che il nostro occhio non percepisce tanto il singolo

colore quanto i rapporti tra i colori.

In molti casi non ci interessa tanto la brillantezza di un colore

quanto la differenza tra i diversi colori: un testo di colore giallo su uno

sfondo bianco è quasi illeggibile, sebbene il giallo e il bianco siano due

colori molto chiari.

2.5.11 Lightness constancy

Supponiamo di metterci di sera comodamente in poltrona a

leggere un libro, alla luce di una lampadina. Supponiamo quindi venga

accesa una seconda lampada in modo da raddoppiare l'illuminazione.

Ora, i caratteri neri del libro riflettono fisicamente il doppio della luce

che riflettevano prima. Tuttavia, tale differenza non viene percepita

perché anche la carta bianca ha raddoppiato la luce riflessa, per cui non

si ha un aumento della brillantezza del testo.

Il parametro importante per il nostro sistema percettivo è il

rapporto tra la luminosità di differenti aree. Questo è essenziale per

mantenere una visione coerente in condizioni di illuminazione

variabilissima. Noi non percepiamo valori assoluti di luce ma rapporti.

Il passaggio da uno sfondo bianco con caratteri neri ad uno

sfondo grigio sempre con caratteri neri è fastidioso in quanto implica

una maggiore concentrazione, essendo diminuito il contrasto, nella

lettura del testo. E' molto più riposante ad es., anche più di nero su

bianco, uno sfondo giallino tenue con un carattere marrone.

2.5.12 Bande di Mach 48

2 Formazione e percezione delle immagini

Queste barre verticali sono chiamate bande di Mach. Notiamo

che lungo il bordo di separazione tra una banda e la successiva più

chiara, la banda di sinistra appare più scura.

Ci chiediamo: perché il nostro sistema visivo percepisce in

questo modo le bande di Mach?

Esiste una possibile spiegazione, anche se non è accertato che

sia quella vera: si tratta di un modello semplificato dell'occhio in cui le

cellule gangliari della retina si comportano come integratori pesati di

segnali di intensità provenienti dai fotorecettori. L'integrazione è

organizzata spazialmente: le cellule gangliari che stiamo considerando

si trovano su una piccola regione circolare della retina. Queste cellule

sommano i segnali ricevuti nel centro della regione, mentre

sottraggono i segnali dei fotorecettori nella zona periferica:

A -

C +

- + D +

- -

B +

In figura vediamo 4 cellule di questo tipo sovrapposte a due barre di

diverso colore. La cellula A è completamente coperta dalla barra più

scura, mentre la cellula D è completamente coperta dalla barra più

chiara. La cellula B ha la parte additiva coperta dalla barra scura e la

periferia in maggior parte coperta dalla barra scura, mentre la cellula C

ha la parte additiva coperta dalla parte chiara così come la maggior

parte della parte periferica.

Così la cellula A riporterà un valore di intensità luminosa

leggermente minore del valore riportato dalla cellula A: questo perché

il valore sottratto da B è minore di quello sottratto da A, essendo una

parte della cellula B (la parte sottrattiva) posta nella zona più chiara.

La cellula C invece riporterà un valore di intensità più alto rispetto a D

in quanto la parte additiva si trova nella zona chiara e solo una piccola

parte della cellula si trova nella zona scura.

Questo spiega perché in prossimità del bordo percepiamo la

barra di sinistra più scura quando le intensità variano così rapidamente.

2.5.13 Percezione della profondità 49

2 Formazione e percezione delle immagini

INFORMAZIONI SULLA

PROFONDITA'

Moto degli occhi Effetti visivi

Accomodamento Binoculare Monoculare

Stereopsis Statiche In moto

Convergenza Disparità retinica Parallasse

Prospettiva Misura Interposizione

2.5.14 Effetti oculomotori

Il sistema visuale umano è capace di costruire una visione

tridimensionale del mondo. Questa capacità, chiamata percezione

della profondità, deriva da molti tipi di informazioni visuali, alcune

delle quali possono essere raccolte da un solo occhio e altre che

richiedono due occhi.

Gli effetti oculomotori derivano dai movimenti dei muscoli

degli occhi. Quando guardiamo qualcosa usiamo i muscoli che

circondano gli occhi per convergerli o fisicamente ruotiamo gli occhi

fino al punto di attenzione (o fixation point), affinché l'immagine cada

sulla fovea. Inoltre facciamo un'operazione di accomodamento

cambiando il nostro fuoco, tendendo o rilassando i muscoli ciliari per

aggiustare la densità del cristallino nel nostro occhio.

Tuttavia, nessuno di questi effetti è un accurato indicatore di

informazioni sulla profondità, dato che rilasciano informazioni utili

50

2 Formazione e percezione delle immagini

solo per quanto riguarda oggetti molto vicini. Quando guardiamo un

oggetto distante più di 6 metri, i muscoli ciliari sono nel loro massimo

stato di rilassatezza e i nostri occhi convergono all'infinito. Così, oltre i

6 metri non esistono effetti oculomotori che contribuiscono alla

percezione della profondità.

2.5.15 Percezione binoculare

L'attività binoculare coinvolge entrambe gli occhi. La capacità

di emettere giudizi circa la profondità basata sulla visione binoculari è

chiamata stereopsis. La stereopsis può fornire informazioni molto

precise sulla profondità di una scena.

Supponiamo per es. di tenere due matite verticalmente ad un

metro dai nostri occhi. La stereopsis fa si che riusciamo a percepire

disparità di 1 mm nella distanza tra le due matite. Per percepire la

profondità basandosi sulla visione binoculare, il sistema visivo ha

bisogno di eseguire due diversi compiti. Il primo è quello di cogliere le

caratteristiche delle due immagini (relative ai due occhi), seguito dal

calcolo della loro disparità retinica, o lo piazzamento relativo

nell'immagine retinale. Quindi l'immagine percepita dall'occhio

sinistro è diversa da quella percepita dall'occhio destro. Il cervello fa

quindi un'operazione di integrazione, fondendo e correggendo le due

diverse immagini al fine di ottenere un'unica immagine.

2.5.16 Percezione monoculare

Molte informazioni sulla profondità possono essere ricavate da

una singola immagine. Esistono effetti statici ed effetti dinamici.

L'interposizione è un effetto statico, ed in computer grafica è

conosciuto come visibilità. In computer grafica si genera questo effetto

utilizzando tecniche di rimozione di superfici nascoste. La più

semplice di queste tecniche, l'algoritmo del pittore, semplicemente

elabora tutti gli oggetti in un'immagine uno per uno, lavorando dal più

lontano al più vicino, sovrascrivendo ogni informazione precedente

nell'immagine. L'effetto di interposizione è come noi percepiamo una

tale scena. Se l'oggetto A copre l'oggetto B allora diciamo che A è più

vicino di B. 51

2 Formazione e percezione delle immagini

Un altro effetto monoculare è la misura, ovvero il concetto che

equivale alla nostra esperienza per cui oggetti più grandi sembrano più

vicini di quelli piccoli:

Il quadrato più a destra sembra il più lontano di tutti. Abbiamo

inoltre una nozione di misura familiare; se vediamo il volto di un

amico, possiamo stimare velocemente quanto questo amico è distante

perché conosciamo approssimativamente la misura della sua faccia.

L'effetto di profondità classificato come fenomeno della

prospettiva riguarda la percezione del cambiamento di strutture

fisiche al variare della distanza. La prospettiva è il risultato naturale

della piccola pupilla che si comporta come porta di ingresso del nostro

sistema visuale. Potremmo pensare alla pupilla come ad un punto

attraverso il quale tutta la luce deve passare, creando una proiezione

prospettiva. La prospettiva talvolta viene usata per ingannare il nostro

occhio: numerose illusioni ottiche difatti si basano sulla prospettiva.

Esistono tre tipi di prospettiva: la prospettiva lineare è il

fenomeno per cui oggetti appaiono sempre più piccoli via via che si

allontanano: un classico esempio sono i binari ferroviari. La

prospettiva del gradiente di tessitura ci da informazioni sulla

profondità in relazione al cambiamento della misura e del colore degli

oggetti con la distanza. Infine la prospettiva aerea tiene conto

dell'intervento di fattori quali nebbia e fumo, che sono sempre più

pronunciati man mano che un oggetto si allontana: i bordi sembrano

via via sempre meno nitidi e in sostanza oggetti che sono più lontani

appaiono via via meno chiari.

2.5.17 Parallasse

Esaminiamo un ultimo effetto legato al movimento, il

parallasse. Muovendo la nostra testa ci sembra che anche le posizioni

relative degli oggetti si muovano allo stesso modo. Il campo di

movimento apparente non è però uniforme: se ad es. fissiamo un punto

non troppo distante e quindi ruotiamo la nostra testa verso destra, gli

52

2 Formazione e percezione delle immagini

oggetti più vicini a noi rispetto al punto che fissiamo sembreranno

muoversi verso sinistra, quelli più lontani sembreranno muoversi verso

destra. In generale oggetti più vicini del punto fisso si muoveranno

nella direzione opposta a quella di rotazione della nostra testa e quelli

più lontani del punto fisso si muoveranno nella stessa direzione della

nostra testa. In entrambe i casi, la velocità apparente di movimento

cresce con la distanza dal punto fisso.

2.5.18 Cenni sulla visione

Da sempre l'uomo si è interrogato circa il fenomeno della

visione, chiedendosi in che modo l'uomo vede. Diversi scienziati e

filosofi, tra cui ricordiamo Cartesio, Newton, Helmholtz e Wertheimer,

si sono occupati di questo argomento.

Riferendoci al nostro secolo, nel periodo che va dagli anni '30

agli anni '50, sono stati condotti estesi esperimenti di psicologia

sperimentale sull'efficienza della visione. Nel 1960 Bela Julesz inventò

gli stereogrammi e dimostrò servendosi di queste figure, che la

visione utilizza modalità diverse dal semplice riconoscimento di forme

note. Negli anni '70/'80 numerosi ricercatori hanno provato l'esistenza

di canali indipendenti per l'acquisizione e l'analisi di differenze di

intensità luminosa a diverse frequenze spaziali.

Tornando indietro, nel 1953 Barlow scoprì nella rana il neurone

della mosca (assiomi di Barlow). La rana ha quindi una particolare

sensibilità alla percezione delle mosche. Nel 1971 vennero scoperti

gruppi neurali dell'uomo che funzionano come hand detector, gruppi

specializzati di neuroni che si attivano a seconda degli oggetti che

vediamo. Questa teoria, comunque, non è ben accetta.

Il problema fondamentale rimane: come riconoscere oggetti

sulle immagini? Azriel Rosenfiled propose come soluzione una

collezione di trucchi ed algoritmi ad hoc, uno per ogni tipo di oggetto:

ad es. avendo a disposizione un algoritmo che ci permette di

riconoscere la lettera A, uno per la B, e così via fino alla Z potremmo

riconoscere l'intero alfabeto in un'immagine. Lo stesso per altri oggetti

quali case, alberi ecc.

"La visione è il processo che produce a partire da immagini del

mondo esterno una descrizione che sia utile al soggetto vedente e non

sia disturbata da informazioni non necessarie o poco importanti" (Marr

e Nishihara, 1978). 53


PAGINE

75

PESO

604.45 KB

PUBBLICATO

+1 anno fa


DESCRIZIONE APPUNTO

Appunti sulla parte teorica di "Interazione uomo macchina" riguardante la Formazione e percezione delle immagini. Nello specifico gli argomenti trattati sono i seguenti: le immagini, elaborazione delle immagini, fisica e fisiologia della visione, misura delle radiazioni.


DETTAGLI
Corso di laurea: Corso di laurea in biotecnologie
SSD:
Università: Verona - Univr
A.A.: 2012-2013

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Novadelia di informazioni apprese con la frequenza delle lezioni di Formazione e percezione delle immagini e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Verona - Univr o del prof Drioli Carlo.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!