........................................................................................................................... 13
assunzioni sul modello .............................................................................................. 7
Classificazione dei modelli di regressione
2 ........................................................................................................ 39
coefficiente di determinazione .......................................................................... 26
Proprietà della retta ai minimi quadrati
DESCRITTIVE
0 ....................................................................................................................................... 32
proprietà di 1 ....................................................................................................................................... 28
proprietà di ......................................................................... 27
Proprietà della retta ai minimi quadrati
INFERENZIALI .................................................................. 18
scarto, somma dei quadrati degli scarti e minimi quadrati
............................................................................................................... 41
scomposizione varianza totale
2 ............................................................................................................................................. 35
stima di .................................................................................................................... 23
test della matrice Hessiana
Introduzione al modello di regressione lineare
Per modelli statistici si intende modelli probabilistici-matematici che permettono di
esplicitare la relazione tra variabili statistiche.
Ogni modello è una rappresentazione semplificata della realtà. È necessario trovare un
compromesso:
• Un modello deve essere sufficientemente semplice per essere interpretabile ed
utilizzabile. Semplice perché deve essere interpretabile ed utilizzabile. Rischia di
non essere rappresentativo della realtà, come conseguenza non stimare bene le
quantità che ci interessano e non fare una buna previsione sugli aspetti che ci
interessa studiare
• Non troppo semplice per riuscire ad avvicinarsi alla realtà. Nel momento in cui
riusciamo ad utilizzare il modello, è necessario riuscire interpretare i risultati del
nostro modello e se il modello è molto complesso può essere
Tipi di variabili
Le variabili possono essere
• di interesse, che ha il ruolo di variabile di risposta
• concomitanti, ovvero variabili esplicative le qual hanno lo scopo di spiegare la
variabile risposta.
Lo scopo è quello di studiare i modelli statistici per determinare come la variabile risposta è
influenzata da quelle esplicative.
Costruzione di un modello
1. Specificazione del modello: normalmente contiene parametri non note
2. Stima del modello
3. Verifica e diagnostica del modello: fase in cui verifichiamo se il modello descrive bene
i dati e
se le assunzioni fatte sono rispettate dai dati
4. Utilizzo del modello
Specificazione del modello
Il modello viene specificato sulla base di:
• teoria a disposizione per lo studio dei dati d’interesse (variabili di interesse, relazioni
tra variabili, ipotesi di studio)
• dati: metodologia di raccolta dati, pre-processing dei dati.
Il modello deve rispecchiare la natura dei dati.
Stima del modello
Il modello è spesso descritto da parametri non noti, che andranno di conseguenza stimati. I
parametri del modello vengono stimati sulla base dei dati osservati (esistono vari metodi di
stima)
Verifica e diagnostica del modello
Si verifica se il modello è adatto ai dati utilizzati, e verifica se le assunzioni alla base del
modello sono coerenti coi dati. In caso contrario è necessaria una diversa specificazione,
stimare il modello e verificare nuovamente il nuovo modello.
Utilizzo del modello
Nel caso in cui la verifica del modello andasse a buon fine, allora è possibile utilizzare il
modello.
Modello di regressione
Alla base del modello di regressione c’è l’idea che la relazione tra variabili possa essere
esplicitata come: )
= ( , … , +
1
dove:
• →
Y è la variabile risposta (chiamata anche variabile endogena o indipendente) è la
nostra variabile di interesse
• , … , sono chiamate variabili esplicative (chiamate anche covariate, variabili
1
indipendenti, regressori variabili esogene o predittori)
• )
( , … , è una funzione deterministica, ovvero quella che cattura o descrive la
1
componente sistematica del modello. Ci dice come ci aspettiamo che le variabili
esplicative influenzino quelle prese dalla variabile risposta.
• ε: variabile errore (errore dovuto a mancanza covariate nel modello, errori di
misurazione, cattiva specificazione di f) →
lettere maiuscole variabili aleatorie (VA)
→
lettere minuscole realizzazione variabile aleatoria (numeri)
)
= ( , … , +
1
ℎ
, … , sono considerati fissati, non sono variabili aleatorie in quanto:
1
• il valore della esplicativa è fissato in fase sperimentale
• la natura della variabile suggerisce che sia una variabile aleatoria, perciò pensiamo ad
un approccio condizionale: cioè il modello è specificato condizionalmente alla
realizzazione della covariata
→
La variabile aleatoria di Y è unicamente determinata da la specificazione del modello
.
richiede di specificare anche la distribuzione di
Una volta specificato il modello per le variabili statistiche di una popolazione osserviamo un
n i i= 1, …, n i-
campione di dimensioni . Usiamo l’indice con per riferirci all’unità sima nel
campione.
Il modello specificato vale per ogni unità del campione, cioè:
)
= ( , … , + per ogni = 1, … ,
1
dove:
• i-
è la risposta per l’ simo individui
• l- i-
sima covariata per l’ simo individuo
• i-
errore dell’ simo individuo
Stima del modello f
Specificare la componente sistematica che mette in relazione covariate e variabile risposta
è in generale non semplice. Quindi si sceglie una componente sistematica f espressa in termini
di alcuni parametri ignoti. Formalizzando:
)
( , … , viene specificata a meno di uno o più parametri (nel caso in cui i parametri
1
sono più di uno è un vettore), il cui valore non è noto
[una variabile in grassetto indica la forma vettoriale]
= ( , … , ; ) +
1
La distribuzione degli errori può essere espressa in termini di uno o più parametri. Una
volta chiariti i parametri del modello, stimare il modello significa stimare sulla base delle
osservazioni del campione i valori dei parametri e dei parametri che caratterizzano la
distribuzione degli .
Stimare questi parametri vuol dire che si passa da una formulazione con quantità ignote a una
formulazione con cui possiamo sostituire le quantità ignote con quantità di valori stimati.
Quindi passiamo a una formulazione esplicita della relazione tra le variabili esplicative e la
variabile risposta.
Verifica e diagnostica del modello
Una volta stimati i valori dei parametri, il modello è univocamente specificato. A questo
punto è necessario verificare la validità del modello.
Da verificare:
• bontà del modello (descrizione idonea dei dati osservati)
• significatività dei coefficienti di regressione (scelta idonea delle variabili esplicative)
•
realisticità delle ipotesi fatte sugli errori
Queste verifiche possono suggerire di specificare il modello in modo diverso. Quando
soddisfatti, il modello può essere usato per fare stima e previsioni.
Classificazione dei modelli di regressione
I modelli di regressione si possono classificare in base a:
• il numero di variabili coinvolte
▪ semplice: se ci sono una variabile risposta e una variabile esplicativa
( )
= ; +
1
▪ multipla: se ci sono una variabile risposta e più di una esplicativa
= ( , … , ; ) +
1
▪ multivariata: se c’è più di una variabile risposta (e generalmente più di una
esplicativa) ( )
= , … , ; +
1 1 1 1
( )
= , … , ; +
2 2 1 2
…
( )
= , … , ; +
1
m, m
In questo caso si ha un sistema di equazioni dove è il numero di variabili
risposta. È importante notare come in un modello di regressione multivariata non
assumiamo che la relazione funzionale tra variabile esplicative e variabile
risposta sia la stessa indipendentemente dalla varabile risposta che
consideriamo.
• legame funzionale tra le variabili, cioè la scelta di f
▪ lineare: la risposta è una combinazione lineare di variabili esplicative e
parametri
ex. modello di regressione lineare multipla univariata
= + + + ⋯ + +
0 1 1 2 2
, , … ,
Questi parametri sono comuni a tutti gli individui. L’errore è invece
0 1
i-
specifico per l’individuo simo. La relazione tra variabile esplicativa e variabile
risposta rimane la stessa sia nella forma che nel valore espresso nei parametri non
, , … ,
noti .
0 1
ex. modello di regressione lineare multipla multivariata
= + + + ⋯ + +
1 01 11 1 21 2 1 1
= + + + ⋯ + +
2 02 12 1 22 2 2 2
…
= + + + ⋯ + +
0 1 1 2 2
In questo caso ho più variabili esplicative e più variabile risposte e vado a
specificare questo modello nel caso di regressione lineare e in ogni equazione si
→
ritrova il modello di regressione lineare univariata è una combinazione di
, , … ,
modelli regressione lineare multipla univariata. I parametri che
0 1
appaiono nelle equazioni sono comuni agli individui, ovvero non appaiono
i
nell’indice ma diverse variabili risposta messe in relazione con le covariate degli
.
individui tramite diversi vettori del parametro
Esempio di esercizio:
Le tipologie di modello di regressioni possono essere:
• linearizzabile: modelli di regressione che possono essere resi lineari tramite
opportune trasformazioni.
ex. modello di regressione non lineare
1
=
0
la risposta non è combinazione lineare di variabili esplicative e parametri la
componente erratica agisce in modo moltiplicativo e non additivo.
Prendiamo il logaritmo di entrambe le parti di (*)
log( ) log( ) log( )
= + + log ( )
0 1
∗
∗ ∗ ∗
log( ) log( )
= log ( ), = = = og ( )
definiamo , , e riscriviamo
0 0
il modello come: ∗
∗ ∗ ∗
= + +
0 1
• non lineari: modelli di regressione per cui non esiste una trasformazione che li renda
lineari.
Modello di regressione lineare semplice
Tra i vari tipi di regressione il modello lineare ha un ruolo fondamentale, in quanto grazie
alla sua semplicità si adatta a descrivere la relazione tra variabili. Consideriamo ora il caso
in cui si ha una sola variabile esplicativa: modello di regressione lineare semplice.
= + +
0 1 1 con = 1,2, … ,
esempio altezze di madri e figlie:
L’idea è quella di capire se l’altezza della madre influenza l’altezza della figlia. Lo scopo è
quello di capire se c’è una relazione tra le due variabili.
Il primo strumento esplorativo è quello di visualizzare i dati con un diagramma di
dispersione.
Si può intravedere che la tendenza è che madri alte avranno figlie alte, e madri basse
avranno figlie basse.
Tuttavia ciò non è del tutto vero in quanto madri con altezza uguale possono avere figlie
con diversa altezza; questo è dovuto al fatto che altri fattori (come l’altezza del padre) non
vengono presi in considerazione.
La relazione che lo scatter-plot suggerisce è quella di una relazione lineare, in quanto i
punti si sviluppano attorno ad una linea retta.
Cerchiamo ora di quantificare questa possibile relazione lineare. Un possibile strumento è il
o .
COEFFICIENTE DI CORRELAZIONE INDICE DI CORRELAZIONE DI PEARSON
−1 ≤ = ≤1
Più il valore è vicino a uno si avrà una correlazione elevata,
al contrario quando sarà vicino a -1 sarà bassa.
:
LEGENDA
Dataset altezza:
→
= 0.885 correlazione positiva, ovvero che madri più alte tendono ad avere figlie più
alte. In più possiamo dire che i punti si distendono sulla linea retta in quanto abbiamo una
correlazione lineare molto alta.
Data la correlazione lineare positiva elevata è possibile formulare un modello di tipo lineare
per mettere in relazione le due variabili.
S PECIFICAZIONE DEL MODELLO
Perciò l’assunzione di non avere errori sistematici implica che si ha la proprietà di linearità
della media.
Otteniamo la proprietà di omoschedasticità sulle risposte.
Otteniamo la proprietà di Incorrelazione delle variabili risposta.
Consideriamo ora altre assunzioni:
S TIMA DEL MODELLO 2
, ,
Parametri coinvolti: 0 1 ,
Consideriamo la stima puntuale dei coefficienti di regressione . In altre parole
0 1
cerchiamo un modo che ci permetta di scegliere, sulla base delle osservazioni a disposizione,
,
due valori per i coefficienti . L’unica assunzione che utilizziamo è quella di linearità.
0 1
Formalizziamo ora le osservazioni:
1
1 1
2 2
2
… … …
osservazioni v. esplicativa v. risposta
In questo caso, anche la variabile risposta viene scritta
con la lettera minuscola, questo perché non viene considerata
la variabile aleatoria ma viene presa in considerazione
la realizzazione della variabile aleatoria.
Formalizziamo dicendo che le mie osservazioni sono un insieme di coppie
{( )
, ∶ = 1, … , }:
• ( )
,
ogni coppia di valori può essere pensata come un punto nel piano
• e = +
per ogni coppia di valori assegnati a , l’equazione è l’equazione
0 1 0 1
→
di una retta nel piano. è l’equazione che formalizza la relazione tra variabile
esplicativa e variabile risposta. e
Un modo per scegliere i valori da assegnare a è quello di scegliere quei valori
0 1
che generano la retta che più si avvicina ai dati osservati.
Consideriamo l’esempio delle madri e figlie considerando il relativo diagramma di
dispersione: =5+
= 5
0
= 1
1 = 30 + 0.8
= 30
0
= 0.8
1
Posso generalizzare il ragionamento pensando all’insieme di tutte le possibili rette
e
che otterrei considerando tutti i possibili i valori ammissibili per e scegliere
0 1
tra tutte le rette quella che più si avvicina ai punti del diagramma di dispersione.
Un approccio ragionevole è quello di valutare la distanza tra i valori osservati per la
variabile risposta e quelli assunti dalla retta per i valori assunti dalla variabile
esplicativa. In altre parole:
X
Per ogni valore preso dalla variabile esplicativa nel dataset, abbiamo il
Y
corrispondente valore osservato per , cioè .
e = + =
Fissati , possiamo valutare la retta in , quello che quindi
<Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Esercitazioni Analisi statistica multivariata
-
Appunti Analisi statistica multivariata - Analisi esplorativa
-
Analisi statistica multivariata - Modulo R
-
Domande esame risolte Analisi statistica multivariata