Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
N
Problema singolare quando Almeno una delle variabili esplicative si può esprimere in funzione delle altre. Dobbiamo
fare attenzione quando facciamo il modello di non mettere delle variabili esplicative che sono combinazione lineare
delle altre.
Evitare la singolarità del problema lo si fa a livello di esperimento, basta non includere variabili inutili.
6
CSZ sett 9
Facciamo un caso più generale Se abbiamo più
variabili e dobbiamo
scegliere quali mettere
nel modello prendiamo quelle che hanno il ρ più basso possibile perché quelle sono indipendenti.
Se riusciamo ad avere L Z = 0 solo per Z=0 allora le colonne di L sono linearmente indipendenti, una loro
N N
combinazione lineare nulla si verifica solo per Z=0, questo si verifica se la matrice è non singolare, allora la soluzione
al problema dei minimi quadrati esiste ed è unica. 7
CSZ sett 9
Se devo scegliere quali variabili inserire e queste sono tanto correlate allora scelgo quella che costa di meno. In
generale se ho una variabile che mi costa molto misurare allora ne cerco una fortemente correlata e uso quella.
Caso che non capita all’esame ma nella realtà:
Spesso si hanno una molteplicità di variabili esplicative, c’ bisogno di un metodo automatico, un algoritmo che scelga
le variabili esplicative in maniera tale che siano il più indipendenti possibile (perché non sarebbe possibile
confrontarle tutte, sarebbe troppo complicato).
Questo metodo si chiama PCA (principal component analysis) prende le colonne di L e fa una trasformazione lineare
N
delle colonne per far sì che esse siano linearmente indipendenti, quindi si evitano problemi mal condizionati. Nella
PCA seleziona le colonne che sono quasi parallele ad altre, che ad occhio non si vede se sono parallele (quindi dice in
pratica quali colonne togliere).
Noi prendiamo le variabili esplicative, facciamo la tabellina delle colonne e vediamo quali variabili utilizzare.
8
CSZ sett 9
25/11
Esercizio 16/04/11 n.4
1. Definire una procedura per verificare che l’andamento del consumo sia funzione solo del prezzo del
carburante. Si può dire che l’andamento dipende solo dal prezzo del carburante?
2. Quali problemi possiamo avere nell’espletare la procedura del punto precedente.
Definire una procedura
Se riesco a trovare il modello che lega l’andamento del consumo all’andamento del prezzo del carburante e questo
modello è buono vuol dire che queste variabili esplicative bastano per descrivere la situazione, vuol dire che non
devo aggiungere altre variabili esplicative.
Prima di risolvere il problema dobbiamo vedere se è verificata la condizione di identificabilità.
Abbiamo gli andamenti di X1 e X2 che sono molto simili, il coefficiente di correlazione lineare dice quanto sono simili
quegli andamenti, abbiamo un buon legame affine tra di loro, anche se questo non è perfetto. Sostanzialmente però
l’informazione presente in x sta già in x , ρ viene molto grande. Ho una situazione così:
2 1 x1x2
X = α + α x
2 0 1 1
Questo significa che se lascio entrambe le variabili ho un problema mal condizionato.
La stessa cosa vale per l’altra coppia di carburanti, metano e gpl, andamenti molto simili e quindi anche per questi
risulta ρ molto grande, e quindi x = β + β x
x2x3 4 0 1 3 9
CSZ sett 9
Propongo quindi come primo modello il seguente:
Nei problemi di solito non ho il grafico ma solo i dati sperimentali, mi conviene fare il grafico.
Se non avessi potuto dire guardando a occhio il modello quali variabili posso escludere avrei dovuto fare la tabellina
dei coefficienti di correlazione. All’esame quando dice di descrivere una procedura dobbiamo
essere più chiari possibile e per niente ambigui.
Esercizio 20/01/12 n.1 Il problema dice: supponendo che l’influenza del prezzo sui passeggeri
a Durham sia stata la stessa che negli altri aeroporti, stimare il
numero di passeggeri a Durham nel 2005.
Allora io faccio un modello di regressione lineare e stimo il valore
richiesto.
Y= “numero passeggeri 2005”
X = “numero passeggeri 1992”
Possiamo farlo con la regressione lineare perché il numero 4,9 rientra
nel range degli altri valori, se fosse stato ad esempio 12 milioni non
avrei potuto stimarlo con la regressione lineare.
10
CSZ sett 9
Una volta che abbiamo questo calcoliamo subito le stime dei parametri
Piccoli controlli sui valori che potrei fare:
In generale la covarianza tra le variabili può anche essere negativa, è la varianza che non può mai essere negativa, la
covarianza si indica al quadrato ma può comunque essere negativa.
Il ρ è venuto positivo, è giusto, variazioni concordi tra la X e la Y, la Y è crescente.
2
Se R viene più di 1 vuol dire che ho sbagliato qualcosa, deve essere minore di 1.
Quindi la predizione dei passeggeri del 2005 per Durham vale:
Il valore vero rilevato nel 2005 è stato 10,3 milioni
Il problema chiede cosa possiamo dire in proposito?
10,3 o 10,1 sono valori molto vicini, c’ è un errore di 0,2 (200mila passeggeri in meno di quelli che ci sono stati).
Il modello ha sottostimato le prestazioni dell’aeroporto. Abbiamo modo di dire se l’errore è grande o piccolo?
L’ unico modo per deciderlo è vedere gli errori che ci sono stati negli altri aeroporti. Dovrei misurare quindi le
previsioni per tutti gli aeroporti
Possiamo scrivere un intervallo di confidenza per la stima degli errori commessi, così siamo in grado di dire se
l’errore su Durham è piccolo o grande. Diciamo che l’errore ha una distribuzione gaussiana
11
CSZ sett 9
Validazione
2
R > 0,8
C(m) minima
Quasi mai la figura di Akaike ha un minimo ben evidente allora uno si deve anche premunire di altri mezzi
per capire quanto sono buone le stime dei parametri fatte.
o Esempio noi abbiamo fatto la stima dei minimi quadrati dei parametri del modello, vorremmo che
E[θ ] = θ
LSE 0
o Y = L θ + W sicuramente c’è un modello che è migliore degli altri, vogliamo scegliere IL modello.
N N 0 N
Test di significatività su θ
LSE
24/11
La funzione di Akaike ci fa capire quando non conviene più aumentare la complessità, presenta un minimo dove si ha
la complessità migliore per quella famiglia di modelli.
Non sempre però ci si riesce a fermare a m, tante volte il risultato è
ambiguo, allora si deve ricorrere anche ad altri metodi di decisione
(che fanno capire se i parametri istituiti per questo modello sono
conformi), si utilizza allora il TEST DI SIGNIFICATIVITÀ DEI
PARAMETRI.
12
CSZ sett 9
Test di significatività del modello
Servono a validare il modello ulteriormente
Tutte le stime si localizzano intorno allo zero, quindi parametro non significativo.
Se le stime si localizzano lontano dallo zero allora parametro significativo.
Sui singoli parametri il test di significatività è:
Se accetto H0, quindi se è non significativo, la variabile esplicativa porta un’informazione che è già contenuta in altre
variabili. Per fare questo test siamo costretti a fare un’ipotesi sui dati. L’ipotesi è che i dati siano gaussiani, se i dati
sono tanti TLC e usiamo la distribuzione che è la gaussiana.
13
CSZ sett 9 (senza è)
14
CSZ sett 9 15
CSZ sett 9 16
CSZ sett 10
27/11
Errore del modello di regressione
È noto che l’errore ha la stessa varianza su tutti i punti di misura (non dipende dal punto di misura).
Strumenti IV, instrumental variables
Qual è l’errore nel modello di regressione lineare:
Separazione tra teoria e applicazione pratica. All’esame non ci saranno indecisioni, sarà chiaro quello che dobbiamo
fare. Per verificare se il modello va bene verifico se per alcune X che non ho considerato è valido.
Abbiamo dei dati sperimentali, a partire da quello faccio il modello, poi per alcuni valori verifico se il modello è
valido, devo stare attento però all’intervallo considerato, magari oltre una certa soglia il modello potrebbe non
essere valido. 1
CSZ sett 10
All’esame possiamo scegliere la procedura che vogliamo, o la formula con la varianza o questa con λ.
Esercizio 2 - 16/02/2015 Un manager riceve 79,5 dollari all’ora e fa guadagnare 25.000.000$
all’azienda all’anno.
Nella tabella ci sono i salari orari degli altri manager e quanto fanno
guadagnare alle aziende all’anno.
Lo stipendio di questo manager va bene? È congruo? Dobbiamo cioè
vedere se la sua paga è in linea con quella degli altri manager.
(Nel file che ci ha dato lui c’è un errore, lui aveva cancellato la coppia di
valori del manager, invece nel file che abbiamo noi si è cancellata
un’altra riga). Se abbiamo problemi
con il risultato basta
cambiare l’unità di
misura in modo tale da
fare i numeri piccoli,
esprimiamo il guadagno
annuo in milioni di
dollari, in modo tale da
avere numeri piccoli e da
poter usare
tranquillamente la
calcolatrice.
Questo modello vale tra
12 e 77 (X espressa in
milioni di dollari).
Se 79,5 sta dentro il
range allora viene
pagato bene, se sta fuori
o lo pagano troppo o lo pagano troppo poco. Fare i calcoli nei due casi per vedere la differenza.
2
CSZ sett 10
29/11
All’esame dobbiamo:
accertarci quanto vale m (è chiaro dal testo)
2
valutare R
non si fa il calcolo di c(m) perché sarebbe troppo complicato
Il test di significatività sui parametri si fa solo se espressamente richiesto o se risulta evidente la necessità di
farlo
Il range di valori delle y è tipicamente una richiesta del testo dell’esercizio
o Dobbiamo controllare che il valore della X per cui si chiede di calcolare la y sia un numero compreso
nell’insieme di valori in cui il modello è valido
o Alla validazione si aggiungono degli item nel momento in cui aggiungiamo ipotesi
Esempio se diciamo che i dati devono essere gaussiani ci dobbiamo accertare che la
sequenza di errore sia gaussiana 3
CSZ sett 10
Per impedire che la somma venga polarizzata bisogna equalizzare gli scarti. In questo caso la funzione di costo deve
essere fatta così:
Se l’informazione sull’errore non è disponibile allora si usa la cosa più vicina, alternativamente si può utilizzare anche
la misura della y
Come si modifica l’equazione di stima se i quadrati sono pesati?
La stima di verosimiglianza, di massima verosimiglianza baiesiana e un’a