Appunti completi Artificial Vision

Appunti del prof. Marino di Artificial Vision. Gli appunti sono stati presi trascrivendo lettera per lettera le parole del prof. Sono necessari per prendere dal 28 in su. Personalmente la mia valutazione è stata 30/30. Scarica il file in formato PDF!

Esame Image Processing e Artificial Vision

Facoltà Ingegneria i

Dal corso del Prof. Marino Francesco Maria

Università Politecnico di Bari

Publisher pyter9

A.A. 2020-2021

79 pagine

4 download

Appunto

Vota 4,0 / 5 (2)

Scarica

Estratto del documento

La direzione a lungo dipende dalle varie acquisizioni dei vari profili

Per quanto riguarda invece la direzione a lungo dipende dalle varie acquisizioni dei vari profili◦ che dipende sia dalla velocità con cui si muove l'oggetto che dal frame rate della telecamera. Quindi per calcolare la dimensione lungo Y mi baso sul frame rate e sulla velocità di scorrimento. Per aumentare il frame rate della telecamera possiamo diminuire la ROI, riducendo il numero di righe. Posso anche cambiare l'inclinazione della telecamera (angolo alpha) andando così a restringere ancora di più la ROI. Minore sarà quest'angolo, maggiore potrà essere il framerate, perché in questo modo l'immagine avrà un numero di righe inferiore. Però minore sarà quest'angolo, maggiore sarà l'incertezza con cui ricostruirai lungo Z. Possiamo quindi dire che l'errore su Z, dipende dall'errore su X fratto sin(alpha):Z. Come detto in precedenza la direzione lungo dipende.

principalmente dall'inclinazione della telecamera e quindi dall'angolo alpha, infatti minore sarà quest'angolo, maggiore sarà l'incertezza lungo la direzione Z. Ovviamente l'angolo alpha non deve essere troppo grande perché in questo modo l'incertezza lungo la direzione X sarà maggiore. Dovrò scegliere alpha in maniera adeguata in modo da acquisire correttamente con non troppa incertezza la superficie lungo direzione Z. In funzione della quota rispetto alla direzione Y dell'immagine, ricaverò la coordinata Z. Se invece utilizzassimo un set up come il seguente: In questo caso ad essere inclinato è il laser e ora la relazione sull'incertezza Z è legata sempre all'angolo alpha ma in riferimento alla sua tangente: In questo set up il problema è che è più probabile che ci siano delle ostruzioni in quanto il laser a in questa posizione quando andrà ad impattare.sarebbe che non ci sarebbero occlusioni sulla facciata dell'oggetto, ma non sarebbe visibile dalla telecamera. Un'altra alternativa potrebbe essere la seguente geometria, che, sebbene a rischio di occlusioni, avrebbe utilità nel momento in cui si desidera massimizzare la percezione della telecamera della linea laser. Questo perché quando l'angolo alpha e l'angolo beta sono uguali, si massimizza la percezione della telecamera (legge di Snell: angolo incidente = angolo riflesso). Con questa soluzione si potrebbe anche utilizzare un laser con una potenza minore rispetto alle due soluzioni precedenti. Approssimativamente, l'incertezza lungo la direzione Z in questa soluzione sarebbe pari a: Un'ultima alternativa di setup potrebbe essere la seguente: Sicuramente questo è il setup peggiore in quanto il laser e la telecamera sono entrambi inclinati dallo stesso lato e, secondo la legge di riflessione, l'energia luminosa del laser verrebbe riflessa nella direzione opposta rispetto alla telecamera. Il vantaggio di questo setup sarebbe che non ci sarebbero occlusioni sulla facciata dell'oggetto, ma non sarebbe visibile dalla telecamera.è che va a minimizzare il rischio delle occlusioni, perché entrambi i dispositivi puntano verso l'oggetto con un'inclinazione "coerente". Un ulteriore modo "brutale" per aumentare il frame rate: dell'immagine inquadrata dalla telecamera ciò che a noi interessa fondamentalmente è la linea laser, cioè se ragioniamo sul fatto che questa immagine composta da un certo numero di righe quello che ci interessa capire per ogni colonna dell'immagine, a quale quota si trova il pixel della linea laser, per cui se ho 100 righe, per ogni colonna non ho bisogno di tirar fuori i 100 valori delle 100 riga che fanno capo a ognuno di queste colonne. Quello che mi interessa quindi è ricavare dei dati ottenuti dalla telecamera, la quota parte di pixel che si riferiscono alla linea laser. Se questo calcolo viene fatto all'interno della telecamera, vado notevolmente a ridurre la quantità di dati in output e con.

questo vado notevolmente ad aumentare la possibilità di throughput che questatelecamera può avere.

Esistono telecamere progettate e realizzate per lavorare appositamente per la profilometria. Questetelecamere sostanzialmente hanno al loro interno l’hardware che, una volta acquisita l’immagine, va acalcolare colonna per colonna in questa immagine il valore in termini di coordinata con cui la linea laserè andata ad impattare. Questo calcolo viene fatto spesso a livello di sub pixel, questo perché la linealaser per via dello scutter, della risoluzione della telecamera, non è del tutto focalizzata. Quindi i pixelnon passeranno mai direttamente dal bianco al nero. Per questo motivo il calcolo viene fatto al livello disub pixel. Solitamente si passerà da un pixel nero a un pixel bianco (laser) con un profilo gaussiano:

Se ragioniamo in base alle colonne invece il grafico dovremo vederlo cosi:

Il valore Pmax sarà massimo una

Determinata riga della mia immagine. Quello che avviene dal punto di vista del calcolo è ricavare questa coordinata di massimo ma anche in questo caso a livello di subpixel.

Centro di massa: Un'approssimazione per trovare il livello massimo di luminosità è tramite il.

Dobbiamo capire dove l'energia luminosa emessa dal laser è massimamente presente. Supponendo di buttar via tutti i valori di grigio al di sotto di una certa soglia, vado a calcolare il centro di massa di questo oggetto banalmente facendo per ognuno di questi pixel la media dei valori di intensità di ognuno di loro. Questo centro di massa rapportato alla sommatoria di questi livelli mi da la posizione ideale del centro di massa stesso.

Facciamo un esempio pratico.

Il risultato (10,17834) è il pixel al sub pixel). Quindi la linea di massimo non è 10 ma 10,17834. Per capire a che pixel devo fermarmi posso fare un'altra acquisizione identica e utilizzare le prime cifre decimali identiche.

massimo valore del pixel

Un altro approccio per trovare il livello massimo di luminosità è il ottenuto, senza quindi scendere a livello di sub pixel. Da cui quindi si otterrà un punto con delle coordinate che si riferiscono al pixel con massima luminosità acquisita.

Ci sono casi in cui utilizzare telecamere con profilometria integrata non è ottimale, specialmente nel caso in cui il setup sia outdoor e quindi un fattore chiave è la luce del sole che in alcuni casi potrebbe riflettere più in maniera più luminosa rispetto al laser stesso e quindi nell'immagine avremo dei pixel più luminosi che però non si riferiscono al laser. In questi casi questo tipo di telecamere non sono utilizzabili.

Possiamo suddividere un sistema in

Custom: personalizzabile a piacimento
Semi-custom: hai il grado di libertà di decidere il setup (decidi come sistemare laser e telecamera)
Rigidi: sono dei profilometri che nascono in

Maniera rigida con la telecamera e il laser bloccati
Esistono diverse tipologie di operazioni di pre-processing:

Position Dependent: sono operazioni in cui la coordinata del pixel è significativa. Un'operazione che dipende dalla posizione ad esempio è quella di bilanciamento del bianco che viene fatta sulle telecamere. Altri esempi di operazioni legate alla posizione del pixel sono funzioni di correzione dall'immagine che consentono di ottenere un'immagine "pulita".
Gray Scale Transformation: Quando abbiamo funzioni in cui l'unico parametro utile a determinare il valore della funzione stessa è il livello di grigio, quindi indipendente dalla posizione, parliamo di operazioni che si basano sulla trasformazione dei livelli di grigio di un'immagine. Un esempio:

valore superiore alla soglia stabilita, verrà portato in uscita a un valore scelto, in questo caso il valore corrispondente alla retta c.

Un'altra trasformazione è quella che vediamo sempre nell'esempio precedente rappresentato dalla retta a, che serve a fare il negativo di un'immagine. Ad esempio, quando ho un valore di grigio pari a 0, me lo trasforma nel valore massimo 255, quando un valore 10 ad esempio me lo trasforma in un valore 240, ad esempio, e così via. Questa regola vale per ogni pixel dell'immagine.

Un esempio di trasformazione dei livelli di grigio è l'equalizzazione. Essa è un'operazione che va a modificare i livelli di grigio che si applica conoscendo il livello di grigio del pixel. L'equalizzazione ha l'obiettivo di uniformare, ovvero equalizzare, l'istogramma. L'uniformità ottenuta è una uniformità media ottenuta dai pixel vicini. È una

trasformazione importante di pre-processing che fa anche riferimento alla posizione (positiondependent).

La trasformata geometrica è una trasformata che ha l'obiettivo di modificare la posizione geometrica dei pixel in un determinato modo.

Le trasformazioni geometriche vengono definite da due funzioni una per trasformare rispetto a X e l'altra per trasformare rispetto ad Y che non vanno a considerare il valore di grigio, ma considerano solo la posizione del pixel della mia immagine acquisita e attraverso quella posizione e attraverso una funzione matematica, studiata appositamente per correggere il problema, calcola la nuova coordinata Y' e X' del nuovo sistema di riferimento dove andare a posizionare quel pixel.

Ciò comporterà che quando andrò ad applicare questa trasformata, non è che detto che X' e Y' siano numeri interi. Ciò significa che andremo a piazzare questo pixel in una posizione non precisa al 100%.

nel calcolare l'immagine di uscita viene fatto uno step successivo che va a considerare le posizioni dove effettivamente andrebbero posizionati i pixel e va a calcolare qual è il valore di grigio o RGB, da posizionare in ciascuna di queste posizioni. Verrà quindi fatta un'interpolazione (una stima) basandoci sui calcoli fatti per ciascun pixel per determinare il valore di grigio o RGB da inserire nella nuova posizione. Quando vado a fare l'interpolazione potrebbe capitare che la stima effettuata sui pixel vicini produca un pixel con un colore che non era presente nell'immagine di partenza. Le funzioni T(x,y) che trasforma le coordinate X e Y nelle nuove coordinate X' e Y' sono funzioni che hanno un'espressione di questo tipo: Sono dei polinomi in cui un certo coefficiente (a per Tx e b per Ty), lega un prodotto x*y dove x è la coordinata X e y è la coordinata Y, con un certo tipo di esponente (r e k). Tanto più precisa

è la descrizione di questa funzione, tanto maggiori sono i termini di questi polinomi. Ci sono però appli

Anteprima

Vedrai una selezione di 17 pagine su 79