Appunti del corso Modellistica e identificazione, prof. De Santis

Name: Appunti del corso Modellistica e identificazione, prof. De Santis
Brand: Skuola.net
Rating: 3.5 (2 reviews)

Aggiornato il 12/05/2025

di CSY

Publisher

Vota 3,5/5 (2)

Contenuto originale e autentico, validato dal Team di Esperti di Skuola.net

Il file contiene gli appunti di tutte le lezioni di Modellistica e identificazione del professor De Santis da settembre a dicembre 2017. Consiglio (se possibile) di stampare il file a colori. …

Esame Modellistica e identificazione

Facoltà Ingegneria dell'informazione

Dal corso del Prof. De Santis Alberto

Università Università degli Studi di Roma La Sapienza

A.A. 2017-2018

123 pagine

12 download

Appunto

Scarica

Estratto del documento

N

Problema singolare quando Almeno una delle variabili esplicative si può esprimere in funzione delle altre. Dobbiamo

fare attenzione quando facciamo il modello di non mettere delle variabili esplicative che sono combinazione lineare

delle altre.

Evitare la singolarità del problema lo si fa a livello di esperimento, basta non includere variabili inutili.

CSZ sett 9

Facciamo un caso più generale Se abbiamo più

variabili e dobbiamo

scegliere quali mettere

nel modello prendiamo quelle che hanno il ρ più basso possibile perché quelle sono indipendenti.

Se riusciamo ad avere L Z = 0 solo per Z=0 allora le colonne di L sono linearmente indipendenti, una loro

N N

combinazione lineare nulla si verifica solo per Z=0, questo si verifica se la matrice è non singolare, allora la soluzione

al problema dei minimi quadrati esiste ed è unica. 7

CSZ sett 9

Se devo scegliere quali variabili inserire e queste sono tanto correlate allora scelgo quella che costa di meno. In

generale se ho una variabile che mi costa molto misurare allora ne cerco una fortemente correlata e uso quella.

Caso che non capita all’esame ma nella realtà:

Spesso si hanno una molteplicità di variabili esplicative, c’ bisogno di un metodo automatico, un algoritmo che scelga

le variabili esplicative in maniera tale che siano il più indipendenti possibile (perché non sarebbe possibile

confrontarle tutte, sarebbe troppo complicato).

Questo metodo si chiama PCA (principal component analysis) prende le colonne di L e fa una trasformazione lineare

N

delle colonne per far sì che esse siano linearmente indipendenti, quindi si evitano problemi mal condizionati. Nella

PCA seleziona le colonne che sono quasi parallele ad altre, che ad occhio non si vede se sono parallele (quindi dice in

pratica quali colonne togliere).

Noi prendiamo le variabili esplicative, facciamo la tabellina delle colonne e vediamo quali variabili utilizzare.

CSZ sett 9

25/11

Esercizio 16/04/11 n.4

1. Definire una procedura per verificare che l’andamento del consumo sia funzione solo del prezzo del

carburante. Si può dire che l’andamento dipende solo dal prezzo del carburante?

2. Quali problemi possiamo avere nell’espletare la procedura del punto precedente.

Definire una procedura

Se riesco a trovare il modello che lega l’andamento del consumo all’andamento del prezzo del carburante e questo

modello è buono vuol dire che queste variabili esplicative bastano per descrivere la situazione, vuol dire che non

devo aggiungere altre variabili esplicative.

Prima di risolvere il problema dobbiamo vedere se è verificata la condizione di identificabilità.

Abbiamo gli andamenti di X1 e X2 che sono molto simili, il coefficiente di correlazione lineare dice quanto sono simili

quegli andamenti, abbiamo un buon legame affine tra di loro, anche se questo non è perfetto. Sostanzialmente però

l’informazione presente in x sta già in x , ρ viene molto grande. Ho una situazione così:

2 1 x1x2

X = α + α x

2 0 1 1

Questo significa che se lascio entrambe le variabili ho un problema mal condizionato.

La stessa cosa vale per l’altra coppia di carburanti, metano e gpl, andamenti molto simili e quindi anche per questi

risulta ρ molto grande, e quindi x = β + β x

x2x3 4 0 1 3 9

CSZ sett 9

Propongo quindi come primo modello il seguente:

Nei problemi di solito non ho il grafico ma solo i dati sperimentali, mi conviene fare il grafico.

Se non avessi potuto dire guardando a occhio il modello quali variabili posso escludere avrei dovuto fare la tabellina

dei coefficienti di correlazione. All’esame quando dice di descrivere una procedura dobbiamo

essere più chiari possibile e per niente ambigui.

Esercizio 20/01/12 n.1 Il problema dice: supponendo che l’influenza del prezzo sui passeggeri

a Durham sia stata la stessa che negli altri aeroporti, stimare il

numero di passeggeri a Durham nel 2005.

Allora io faccio un modello di regressione lineare e stimo il valore

richiesto.

Y= “numero passeggeri 2005”

X = “numero passeggeri 1992”

Possiamo farlo con la regressione lineare perché il numero 4,9 rientra

nel range degli altri valori, se fosse stato ad esempio 12 milioni non

avrei potuto stimarlo con la regressione lineare.

CSZ sett 9

Una volta che abbiamo questo calcoliamo subito le stime dei parametri

Piccoli controlli sui valori che potrei fare:

In generale la covarianza tra le variabili può anche essere negativa, è la varianza che non può mai essere negativa, la

covarianza si indica al quadrato ma può comunque essere negativa.

Il ρ è venuto positivo, è giusto, variazioni concordi tra la X e la Y, la Y è crescente.

Se R viene più di 1 vuol dire che ho sbagliato qualcosa, deve essere minore di 1.

Quindi la predizione dei passeggeri del 2005 per Durham vale:

Il valore vero rilevato nel 2005 è stato 10,3 milioni

Il problema chiede cosa possiamo dire in proposito?

10,3 o 10,1 sono valori molto vicini, c’ è un errore di 0,2 (200mila passeggeri in meno di quelli che ci sono stati).

Il modello ha sottostimato le prestazioni dell’aeroporto. Abbiamo modo di dire se l’errore è grande o piccolo?

L’ unico modo per deciderlo è vedere gli errori che ci sono stati negli altri aeroporti. Dovrei misurare quindi le

previsioni per tutti gli aeroporti

Possiamo scrivere un intervallo di confidenza per la stima degli errori commessi, così siamo in grado di dire se

l’errore su Durham è piccolo o grande. Diciamo che l’errore ha una distribuzione gaussiana

CSZ sett 9

Validazione

 2

R > 0,8

 C(m) minima

 Quasi mai la figura di Akaike ha un minimo ben evidente allora uno si deve anche premunire di altri mezzi

per capire quanto sono buone le stime dei parametri fatte.

o Esempio noi abbiamo fatto la stima dei minimi quadrati dei parametri del modello, vorremmo che

E[θ ] = θ

LSE 0

o Y = L θ + W sicuramente c’è un modello che è migliore degli altri, vogliamo scegliere IL modello.

N N 0 N

Test di significatività su θ

LSE

24/11

La funzione di Akaike ci fa capire quando non conviene più aumentare la complessità, presenta un minimo dove si ha

la complessità migliore per quella famiglia di modelli.

Non sempre però ci si riesce a fermare a m, tante volte il risultato è

ambiguo, allora si deve ricorrere anche ad altri metodi di decisione

(che fanno capire se i parametri istituiti per questo modello sono

conformi), si utilizza allora il TEST DI SIGNIFICATIVITÀ DEI

PARAMETRI.

CSZ sett 9

Test di significatività del modello

Servono a validare il modello ulteriormente

Tutte le stime si localizzano intorno allo zero, quindi parametro non significativo.

Se le stime si localizzano lontano dallo zero allora parametro significativo.

Sui singoli parametri il test di significatività è:

Se accetto H0, quindi se è non significativo, la variabile esplicativa porta un’informazione che è già contenuta in altre

variabili. Per fare questo test siamo costretti a fare un’ipotesi sui dati. L’ipotesi è che i dati siano gaussiani, se i dati

sono tanti TLC e usiamo la distribuzione che è la gaussiana.

CSZ sett 9 (senza è)

CSZ sett 9 15

CSZ sett 9 16

CSZ sett 10

27/11

Errore del modello di regressione

È noto che l’errore ha la stessa varianza su tutti i punti di misura (non dipende dal punto di misura).

Strumenti IV, instrumental variables

Qual è l’errore nel modello di regressione lineare:

Separazione tra teoria e applicazione pratica. All’esame non ci saranno indecisioni, sarà chiaro quello che dobbiamo

fare. Per verificare se il modello va bene verifico se per alcune X che non ho considerato è valido.

Abbiamo dei dati sperimentali, a partire da quello faccio il modello, poi per alcuni valori verifico se il modello è

valido, devo stare attento però all’intervallo considerato, magari oltre una certa soglia il modello potrebbe non

essere valido. 1

CSZ sett 10

All’esame possiamo scegliere la procedura che vogliamo, o la formula con la varianza o questa con λ.

Esercizio 2 - 16/02/2015 Un manager riceve 79,5 dollari all’ora e fa guadagnare 25.000.000$

all’azienda all’anno.

Nella tabella ci sono i salari orari degli altri manager e quanto fanno

guadagnare alle aziende all’anno.

Lo stipendio di questo manager va bene? È congruo? Dobbiamo cioè

vedere se la sua paga è in linea con quella degli altri manager.

(Nel file che ci ha dato lui c’è un errore, lui aveva cancellato la coppia di

valori del manager, invece nel file che abbiamo noi si è cancellata

un’altra riga). Se abbiamo problemi

con il risultato basta

cambiare l’unità di

misura in modo tale da

fare i numeri piccoli,

esprimiamo il guadagno

annuo in milioni di

dollari, in modo tale da

avere numeri piccoli e da

poter usare

tranquillamente la

calcolatrice.

Questo modello vale tra

12 e 77 (X espressa in

milioni di dollari).

Se 79,5 sta dentro il

range allora viene

pagato bene, se sta fuori

o lo pagano troppo o lo pagano troppo poco. Fare i calcoli nei due casi per vedere la differenza.

CSZ sett 10

29/11

All’esame dobbiamo:

 accertarci quanto vale m (è chiaro dal testo)

 2

valutare R

 non si fa il calcolo di c(m) perché sarebbe troppo complicato

 Il test di significatività sui parametri si fa solo se espressamente richiesto o se risulta evidente la necessità di

farlo

 Il range di valori delle y è tipicamente una richiesta del testo dell’esercizio

o Dobbiamo controllare che il valore della X per cui si chiede di calcolare la y sia un numero compreso

nell’insieme di valori in cui il modello è valido

o Alla validazione si aggiungono degli item nel momento in cui aggiungiamo ipotesi

 Esempio se diciamo che i dati devono essere gaussiani ci dobbiamo accertare che la

sequenza di errore sia gaussiana 3

CSZ sett 10

Per impedire che la somma venga polarizzata bisogna equalizzare gli scarti. In questo caso la funzione di costo deve

essere fatta così:

Se l’informazione sull’errore non è disponibile allora si usa la cosa più vicina, alternativamente si può utilizzare anche

la misura della y

Come si modifica l’equazione di stima se i quadrati sono pesati?

La stima di verosimiglianza, di massima verosimiglianza baiesiana e un’a

Anteprima

Vedrai una selezione di 26 pagine su 123