Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Analisi dei dati sul consumo di gelato
AZ BA BB BC BD BQ BR BS=BR18*BB33/BA3331 cons income temp temp(-1) 25 income 0,225894 =BR19*BC33/BA3332 media 0,358517 84,82759 49,37931 48,34483 26 temp 1,348859 =BR20*BD33/BA3333 sqm 0,065599 6,119888 16,3505 15,89247 27 temp(-1) -0,57073
Vediamo che la temperatura è la variabile che presenta l'effetto massimo sul consumo di gelato.
Ricostruiamo ora le due rappresentazioni grafiche che ci avevano portato ad effettuare tutte queste modifiche alla specificità iniziale del modello.
Per fare questo riportiamo i valori previsti e il valore dei residui (analisi dati)
Nel primo grafico vogliamo rappresentare il tempo e i consumi osservati e previsti quindi selezioniamo le celle con time, cons e previsto con Y; per il secondo grafico a dispersione vogliamo il tempo e i residui quindi selezioniamo le variabili time e residui.
0,55 0,10,080,5 0,060,45 0,040,4 0,020,35 00,3 0 10 20 30-0,020,25 -0,040,2 0 10 20 30 -0,06
Nel primo grafico abbiamo il blu il consumo effettivo
e il rosso il consumo previsto, osserviamo che rispetto la rappresentazione grafica fatta inizialmente, non è più spiccato l'andamento anomalo della variabile residuo, non ci sono sottovalutazioni e sopravvalutazioni evidenti. Il secondo grafico ci mostra che i residui, più o meno, hanno un andamento casuale. Ricordiamo che in questo modello, non essendoci l'intercetta, si considera il modello definito sulle variabili: File: Error_Collinearityanalisi – collin Una delle assunzioni del modello, affinché possiamo arrivare alla stima dei minimi quadrati, è che la matrice dei regressori deve avere pieno rango di colonna. Proviamo ora a vedere cosa succede con riferimento a questi regressori x e y. Se guardiamo le colonne x e y possiamo vedere che sussiste una relazione lineare esatta in quanto y è il doppio di x, come possiamo identificare relazioni di questo tipo? In qualunque analisi che andremo ad effettuare d'ora in poi, dovremo farprecede la stima del modello con l'analisi della matrice di correlazione tra le variabili. Criterio per la quale c'è un alto livello di correlazione: - per un numero limitato di osservazioni (circa 20/30) - per un elevato numero di osservazioni Dati -> Analisi dati -> correlazione -> l'intervallo di input è dato dall'insieme di tutte le nostre variabili oggetto del modello di regressione; i dati sono raggruppati per colonne; ci sono le etichette nella prima riga e selezioniamo la cella in cui vogliamo la matrice di correlazione -> okY | X1 | X2 | X3 | |
---|---|---|---|---|
Y | 1 | 0.282016 | 0.282016 | 0.719267 |
X1 | 0.282016 | 1 | 0.001038 | 0.001038 |
X2 | 0.282016 | 0.001038 | 1 | 0.001038 |
X3 | 0.719267 | 0.001038 | 0.001038 | 1 |
Variabili e . Come si opera in una situazione di questo tipo? Occorre eliminare delle due variabili, altrimenti la matrice di correlazione non ha più pieno rango e non possiamo procedere alla stima. Come facciamo a scegliere la variabile che possiamo eliminare? Bisogna vedere la parte verde della matrice dove figurano le correlazioni tra la variabile risposta e le variabili esplicative: notiamo che in perfetta collinearità, il legame che c'è tra Y e e tra Y e è identico risulta indifferente interpretare la Y come funzione di e oppure di e . In presenza di perfetta collinearità eliminiamo una variabile a nostra scelta. Eliminiamo e andiamo a stimare il modello:
Dati → Analisi dati → regressione → varie selezioni → ok
Errore Valore di Inferiore Superiore Inferiore Superiore
Coefficienti Stat tstandard significatività 95% 95% 99.0% 99.0%
Intercetta 0,929511 1,542712 17,27762 0,08929 -33,908 36,99346 -33,908 36,993464,785968
2,080226 2,300696 0,029363 0,517697 9,054238 0,517697 9,0542389,491725 1,613966 5,880996 2,9E-06 6,180141 12,80331 6,180141 12,80331
Dati → Analisi dati → regressione → passa per l’origine → ok
Errore Valore di Inferiore Superiore Inferiore Superiore
Coefficienti Stat tstandard significatività 95% 95% 99.0% 99.0%
Intercetta 0 #N/D #N/D #N/D #N/D #N/D #N/D #N/D
4,939434 1,150905 4,291784 0,000191 2,581913 7,296956 2,581913 7,296956
9,562949 1,377988 6,939793 1,52E-07 6,740269 12,38563 6,740269 12,38563
Siamo arrivati a questa specificità del modello che possiamo considerare come modello finale: 49
File: Error_Collinearityanalisi – collin2Ora vediamo un secondo esempio di multicollinearità.
Proviamo ora a vedere cosa succede con riferimento a questi regressori , e : se guardiamo le colonne e possiamo vedere è proporzionale a a meno di una componente casuale per cui la è quasi collineare con .
Costruiamo la matrice di correlazione
tra le variabili.Dati → Analisi dati → correlazione → ok Y X1 X2 X3Y 1X1 0,282016 1X2 0,290046 0,997866 1X3 0,719267 0,001038 0,004287 1Per prima cosa dobbiamo prendere in considerazione la parte gialla della matrice ossia la matrice di correlazione che riporta in ogni sua cella la correlazione tra la variabile indicata sulla riga e la variabile indicata sulla colonna. Ciò che stona è la presenza del valore 0,997866 in quanto è quasi 1 ed darebbe problemi dal punto di vista inferenziale.Come facciamo a scegliere la variabile che possiamo eliminare? Bisogna vedere la parte verde della matrice dove figurano le correlazioni tra la variabile risposta e le variabili esplicative: notiamo che in questo caso la variabile ha una maggiore correlazione con Y rispetto alla variabile .In presenza di multicollinearità teniamo nel modello la variabile che ha una maggiore correlazione con la variabile di risposta Y. Eliminiamo e andiamo a stimare ilmodello:Dati → Analisi dati → regressione → varie selezioni → ok
Errore Valore di Inferiore Superiore Inferiore Superiore
Coefficienti Stat tstandard significatività 95% 95% 99.0% 99.0%
Intercetta 0,969889-0,67651 17,75691 -0,0381 -37,1107 35,75766 -37,1107 35,75766
4,944403 2,097967 2,356759 0,025944 0,639731 9,249076 0,639731 9,249076
9,47934 1,607494 5,896968 2,78E-06 6,181035 12,77765 6,181035 12,77765
Dati → Analisi dati → regressione → passa per l’origine → ok
Errore Valore di Inferiore Superiore Inferiore Superiore
Coefficienti Stat tstandard significatività 95% 95% 99.0% 99.0%
Intercetta 0 #N/D #N/D #N/D #N/D #N/D #N/D #N/D
4,877436 1,124716 4,336593 0,000169 2,573559 7,181312 2,573559 7,181312
9,450176 1,388098 6,808005 2,14E-07 6,606787 12,29357 6,606787 12,29357
Siamo arrivati a questa specificità del modello che possiamo considerare come modello finale: 50
VARIABILI INDICATRICI (DUMMY)
File: indicatrici generico –
variamo la variabile esplicativa genere in una variabile indicatrice. Per fare ciò, assegniamo il valore 1 alle femmine e il valore 0 ai maschi. In questo modo, otteniamo una variabile binaria che ci permette di rappresentare il genere come una variabile numerica. Successivamente, utilizziamo un software di analisi statistica come Excel per eseguire la regressione lineare. Inseriamo la variabile indicatrice genere come variabile esplicativa e lo stipendio come variabile risposta. Il software calcolerà i coefficienti della regressione, inclusa l'intercetta e il coefficiente della variabile indicatrice genere. Una volta ottenuti i coefficienti, possiamo utilizzarli per costruire la funzione di regressione. La funzione sarà del tipo: stipendio = intercetta + coefficiente_genere * genere Dove intercetta rappresenta il valore dello stipendio medio per i maschi (quando genere = 0) e coefficiente_genere rappresenta la differenza nello stipendio medio tra femmine e maschi. In questo modo, possiamo utilizzare la funzione di regressione per stimare lo stipendio per ogni livello della variabile esplicativa genere.cosa dobbiamo costruire le variabili indicatrici rispetto al genere, come si costruisco?Sappiamo che per definizione una variabile indicatrice assume valore 1 B C D Ese una condizione è soddisfatta e valore 0 in caso contrario, quindi con 1 stipendio genere M F2 1590 m 1 0riferimento ai maschi possiamo usare la funzione logica SE() i cui 3 1592 m 1 0argomenti sono: test ossia nel nostro caso è se questa cella contiene M 4 1577 m 1 0o F quindi se C2 è maschio "m" ; se la condizione è verificata mettiamo 5 1698 m 1 01 e se non lo è mettiamo 0. 6 1621 f 0 17 1678 f 0 1Funzione: =SE(C2="m";1;0) 8 1511 m 1 09 1657 f 0 1Questo ci consente di costruire il valore della variabile indicatrice per i 10 1655 f 0 1maschi. In maniera analoga con la funzione =SE(C2="f";1;0) possiamo 11 1521 m 1 012 1679 f 0 1calcolare la variabile indicatrice per le femmine, ma per questo è 13 1528 m 1 0possibile anche scrivere direttamente1 meno la variabile maschio. 14 1550 f 0 1Copiamo e incolliamo queste formule per tutti i valori. 15 1535 m 1 0Possiamo osservare che per ogni riga la somma dei valori delle variabili indicatrici M ed F fa sempre 1.Cerchiamo adesso di riottenere la funzione di regressione avvalendoci di un modello di regressione lineare, iniziamo a considerare:Osserviamo che questo modello non è stimabile in quanto può essere riespresso come: 51Però abbiamo appena osservato che la matrice delle osservazioni che consta del vettore dei termini unitari più il vettore della variabile indicatrice maschi e il vettore della variabile indicatrice femmine, non ha pieno rango di colonna in quanto .Parametrizzazione Corner constraintQuindi non possiamo tenere nel modello tutte e 3 le variabili, vediamo ora questi modelli:1)In questo modello omettiamo la variabile indicatrice F quindi rimane solo l'intercetta e la variabile indicatrice relativa ai maschi. Procediamo con la
stima:Errore Valore di Inferiore Superiore Inferiore Superiore
Coefficienti Stat tstandard significatività 95% 95% 99.0% 99.0%
Intercetta 1640 23,009659 71,274413 3,87E-17 1589,866 1690,134 1589,86 1690,13
M -71 30,4389188 -2,3325401 0,037895 -137,321 -4,67929 -137,32 -4,67929
L’intercetta risulta pari a 1640, valore che abbiamo già nella funzione di regressione attraverso la tabella pivot e rappresenta la media della variabile Y per le femmine. Il valore -71, se consideriamo 1569 e togliamo 1640 , la differenza è negativa e pari a 71 quindi è la differenza tra lo stipendio medio dei maschi e lo stipendio medio delle femmine.
2)In questo modello omettiamo la variabile indicatrice M quindi rimane solo l’intercetta e la variabile indicatrice relativa alle femmine.