Estratto del documento

........................................................................................................................... 13

assunzioni sul modello .............................................................................................. 7

Classificazione dei modelli di regressione

2 ........................................................................................................ 39

coefficiente di determinazione .......................................................................... 26

Proprietà della retta ai minimi quadrati

DESCRITTIVE

0 ....................................................................................................................................... 32

proprietà di 1 ....................................................................................................................................... 28

proprietà di ......................................................................... 27

Proprietà della retta ai minimi quadrati

INFERENZIALI .................................................................. 18

scarto, somma dei quadrati degli scarti e minimi quadrati

............................................................................................................... 41

scomposizione varianza totale

2 ............................................................................................................................................. 35

stima di .................................................................................................................... 23

test della matrice Hessiana

Introduzione al modello di regressione lineare

Per modelli statistici si intende modelli probabilistici-matematici che permettono di

esplicitare la relazione tra variabili statistiche.

Ogni modello è una rappresentazione semplificata della realtà. È necessario trovare un

compromesso:

• Un modello deve essere sufficientemente semplice per essere interpretabile ed

utilizzabile. Semplice perché deve essere interpretabile ed utilizzabile. Rischia di

non essere rappresentativo della realtà, come conseguenza non stimare bene le

quantità che ci interessano e non fare una buna previsione sugli aspetti che ci

interessa studiare

• Non troppo semplice per riuscire ad avvicinarsi alla realtà. Nel momento in cui

riusciamo ad utilizzare il modello, è necessario riuscire interpretare i risultati del

nostro modello e se il modello è molto complesso può essere

Tipi di variabili

Le variabili possono essere

• di interesse, che ha il ruolo di variabile di risposta

• concomitanti, ovvero variabili esplicative le qual hanno lo scopo di spiegare la

variabile risposta.

Lo scopo è quello di studiare i modelli statistici per determinare come la variabile risposta è

influenzata da quelle esplicative.

Costruzione di un modello

1. Specificazione del modello: normalmente contiene parametri non note

2. Stima del modello

3. Verifica e diagnostica del modello: fase in cui verifichiamo se il modello descrive bene

i dati e

se le assunzioni fatte sono rispettate dai dati

4. Utilizzo del modello

Specificazione del modello

Il modello viene specificato sulla base di:

• teoria a disposizione per lo studio dei dati d’interesse (variabili di interesse, relazioni

tra variabili, ipotesi di studio)

• dati: metodologia di raccolta dati, pre-processing dei dati.

Il modello deve rispecchiare la natura dei dati.

Stima del modello

Il modello è spesso descritto da parametri non noti, che andranno di conseguenza stimati. I

parametri del modello vengono stimati sulla base dei dati osservati (esistono vari metodi di

stima)

Verifica e diagnostica del modello

Si verifica se il modello è adatto ai dati utilizzati, e verifica se le assunzioni alla base del

modello sono coerenti coi dati. In caso contrario è necessaria una diversa specificazione,

stimare il modello e verificare nuovamente il nuovo modello.

Utilizzo del modello

Nel caso in cui la verifica del modello andasse a buon fine, allora è possibile utilizzare il

modello.

Modello di regressione

Alla base del modello di regressione c’è l’idea che la relazione tra variabili possa essere

esplicitata come: )

= ( , … , +

1

dove:

• →

Y è la variabile risposta (chiamata anche variabile endogena o indipendente) è la

nostra variabile di interesse

• , … , sono chiamate variabili esplicative (chiamate anche covariate, variabili

1

indipendenti, regressori variabili esogene o predittori)

• )

( , … , è una funzione deterministica, ovvero quella che cattura o descrive la

1

componente sistematica del modello. Ci dice come ci aspettiamo che le variabili

esplicative influenzino quelle prese dalla variabile risposta.

• ε: variabile errore (errore dovuto a mancanza covariate nel modello, errori di

misurazione, cattiva specificazione di f) →

lettere maiuscole variabili aleatorie (VA)

lettere minuscole realizzazione variabile aleatoria (numeri)

)

= ( , … , +

1

, … , sono considerati fissati, non sono variabili aleatorie in quanto:

1

• il valore della esplicativa è fissato in fase sperimentale

• la natura della variabile suggerisce che sia una variabile aleatoria, perciò pensiamo ad

un approccio condizionale: cioè il modello è specificato condizionalmente alla

realizzazione della covariata

La variabile aleatoria di Y è unicamente determinata da la specificazione del modello

.

richiede di specificare anche la distribuzione di

Una volta specificato il modello per le variabili statistiche di una popolazione osserviamo un

n i i= 1, …, n i-

campione di dimensioni . Usiamo l’indice con per riferirci all’unità sima nel

campione.

Il modello specificato vale per ogni unità del campione, cioè:

)

= ( , … , + per ogni = 1, … ,

1

dove:

• i-

è la risposta per l’ simo individui

• l- i-

sima covariata per l’ simo individuo

• i-

errore dell’ simo individuo

Stima del modello f

Specificare la componente sistematica che mette in relazione covariate e variabile risposta

è in generale non semplice. Quindi si sceglie una componente sistematica f espressa in termini

di alcuni parametri ignoti. Formalizzando: 

)

( , … , viene specificata a meno di uno o più parametri (nel caso in cui i parametri

1 

sono più di uno è un vettore), il cui valore non è noto

[una variabile in grassetto indica la forma vettoriale]

= ( , … , ; ) +

1

La distribuzione degli errori può essere espressa in termini di uno o più parametri. Una

volta chiariti i parametri del modello, stimare il modello significa stimare sulla base delle

osservazioni del campione i valori dei parametri e dei parametri che caratterizzano la

distribuzione degli .

Stimare questi parametri vuol dire che si passa da una formulazione con quantità ignote a una

formulazione con cui possiamo sostituire le quantità ignote con quantità di valori stimati.

Quindi passiamo a una formulazione esplicita della relazione tra le variabili esplicative e la

variabile risposta.

Verifica e diagnostica del modello

Una volta stimati i valori dei parametri, il modello è univocamente specificato. A questo

punto è necessario verificare la validità del modello.

Da verificare:

• bontà del modello (descrizione idonea dei dati osservati)

• significatività dei coefficienti di regressione (scelta idonea delle variabili esplicative)

realisticità delle ipotesi fatte sugli errori

Queste verifiche possono suggerire di specificare il modello in modo diverso. Quando

soddisfatti, il modello può essere usato per fare stima e previsioni.

Classificazione dei modelli di regressione

I modelli di regressione si possono classificare in base a:

• il numero di variabili coinvolte

▪ semplice: se ci sono una variabile risposta e una variabile esplicativa

( )

= ; +

1

▪ multipla: se ci sono una variabile risposta e più di una esplicativa

= ( , … , ; ) +

1

▪ multivariata: se c’è più di una variabile risposta (e generalmente più di una

esplicativa) ( )

= , … , ; +

1 1 1 1

( )

= , … , ; +

2 2 1 2

( )

= , … , ; +

1

m, m

In questo caso si ha un sistema di equazioni dove è il numero di variabili

risposta. È importante notare come in un modello di regressione multivariata non

assumiamo che la relazione funzionale tra variabile esplicative e variabile

risposta sia la stessa indipendentemente dalla varabile risposta che

consideriamo.

• legame funzionale tra le variabili, cioè la scelta di f

▪ lineare: la risposta è una combinazione lineare di variabili esplicative e

parametri

ex. modello di regressione lineare multipla univariata

= + + + ⋯ + +

0 1 1 2 2

, , … ,

Questi parametri sono comuni a tutti gli individui. L’errore è invece

0 1

i-

specifico per l’individuo simo. La relazione tra variabile esplicativa e variabile

risposta rimane la stessa sia nella forma che nel valore espresso nei parametri non

, , … ,

noti .

0 1

ex. modello di regressione lineare multipla multivariata

= + + + ⋯ + +

1 01 11 1 21 2 1 1

= + + + ⋯ + +

2 02 12 1 22 2 2 2

= + + + ⋯ + +

0 1 1 2 2

In questo caso ho più variabili esplicative e più variabile risposte e vado a

specificare questo modello nel caso di regressione lineare e in ogni equazione si

ritrova il modello di regressione lineare univariata è una combinazione di

, , … ,

modelli regressione lineare multipla univariata. I parametri che

0 1

appaiono nelle equazioni sono comuni agli individui, ovvero non appaiono

i

nell’indice ma diverse variabili risposta messe in relazione con le covariate degli

.

individui tramite diversi vettori del parametro

Esempio di esercizio:

Le tipologie di modello di regressioni possono essere:

• linearizzabile: modelli di regressione che possono essere resi lineari tramite

opportune trasformazioni.

ex. modello di regressione non lineare

1

=

0

la risposta non è combinazione lineare di variabili esplicative e parametri la

componente erratica agisce in modo moltiplicativo e non additivo.

Prendiamo il logaritmo di entrambe le parti di (*)

log( ) log( ) log( )

= + + log ( )

0 1

∗ ∗ ∗

log( ) log( )

= log ( ), = = = og ( )

definiamo , , e riscriviamo

0 0

il modello come: ∗

∗ ∗ ∗

= + +

0 1

• non lineari: modelli di regressione per cui non esiste una trasformazione che li renda

lineari.

Modello di regressione lineare semplice

Tra i vari tipi di regressione il modello lineare ha un ruolo fondamentale, in quanto grazie

alla sua semplicità si adatta a descrivere la relazione tra variabili. Consideriamo ora il caso

in cui si ha una sola variabile esplicativa: modello di regressione lineare semplice.

= + +

0 1 1 con = 1,2, … ,

esempio altezze di madri e figlie:

L’idea è quella di capire se l’altezza della madre influenza l’altezza della figlia. Lo scopo è

quello di capire se c’è una relazione tra le due variabili.

Il primo strumento esplorativo è quello di visualizzare i dati con un diagramma di

dispersione.

Si può intravedere che la tendenza è che madri alte avranno figlie alte, e madri basse

avranno figlie basse.

Tuttavia ciò non è del tutto vero in quanto madri con altezza uguale possono avere figlie

con diversa altezza; questo è dovuto al fatto che altri fattori (come l’altezza del padre) non

vengono presi in considerazione.

La relazione che lo scatter-plot suggerisce è quella di una relazione lineare, in quanto i

punti si sviluppano attorno ad una linea retta.

Cerchiamo ora di quantificare questa possibile relazione lineare. Un possibile strumento è il

o .

COEFFICIENTE DI CORRELAZIONE INDICE DI CORRELAZIONE DI PEARSON

−1 ≤ = ≤1

Più il valore è vicino a uno si avrà una correlazione elevata,

al contrario quando sarà vicino a -1 sarà bassa.

:

LEGENDA

Dataset altezza:

= 0.885 correlazione positiva, ovvero che madri più alte tendono ad avere figlie più

alte. In più possiamo dire che i punti si distendono sulla linea retta in quanto abbiamo una

correlazione lineare molto alta.

Data la correlazione lineare positiva elevata è possibile formulare un modello di tipo lineare

per mettere in relazione le due variabili.

S PECIFICAZIONE DEL MODELLO

Perciò l’assunzione di non avere errori sistematici implica che si ha la proprietà di linearità

della media.

Otteniamo la proprietà di omoschedasticità sulle risposte.

Otteniamo la proprietà di Incorrelazione delle variabili risposta.

Consideriamo ora altre assunzioni:

S TIMA DEL MODELLO 2

, ,

Parametri coinvolti: 0 1 ,

Consideriamo la stima puntuale dei coefficienti di regressione . In altre parole

0 1

cerchiamo un modo che ci permetta di scegliere, sulla base delle osservazioni a disposizione,

,

due valori per i coefficienti . L’unica assunzione che utilizziamo è quella di linearità.

0 1

Formalizziamo ora le osservazioni:

1

1 1

2 2

2

… … …

osservazioni v. esplicativa v. risposta

In questo caso, anche la variabile risposta viene scritta

con la lettera minuscola, questo perché non viene considerata

la variabile aleatoria ma viene presa in considerazione

la realizzazione della variabile aleatoria.

Formalizziamo dicendo che le mie osservazioni sono un insieme di coppie

{( )

, ∶ = 1, … , }:

• ( )

,

ogni coppia di valori può essere pensata come un punto nel piano

• e = +

per ogni coppia di valori assegnati a , l’equazione è l’equazione

0 1 0 1

di una retta nel piano. è l’equazione che formalizza la relazione tra variabile

esplicativa e variabile risposta. e

Un modo per scegliere i valori da assegnare a è quello di scegliere quei valori

0 1

che generano la retta che più si avvicina ai dati osservati.

Consideriamo l’esempio delle madri e figlie considerando il relativo diagramma di

dispersione: =5+

= 5

0

= 1

1 = 30 + 0.8

= 30

0

= 0.8

1

Posso generalizzare il ragionamento pensando all’insieme di tutte le possibili rette

e

che otterrei considerando tutti i possibili i valori ammissibili per e scegliere

0 1

tra tutte le rette quella che più si avvicina ai punti del diagramma di dispersione.

Un approccio ragionevole è quello di valutare la distanza tra i valori osservati per la

variabile risposta e quelli assunti dalla retta per i valori assunti dalla variabile

esplicativa. In altre parole:

X

Per ogni valore preso dalla variabile esplicativa nel dataset, abbiamo il

Y

corrispondente valore osservato per , cioè .

e = + =

Fissati , possiamo valutare la retta in , quello che quindi

<
Anteprima
Vedrai una selezione di 21 pagine su 120
Analisi Statistica multivariata Pag. 1 Analisi Statistica multivariata Pag. 2
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 6
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 11
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 16
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 21
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 26
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 31
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 36
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 41
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 46
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 51
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 56
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 61
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 66
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 71
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 76
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 81
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 86
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 91
Anteprima di 21 pagg. su 120.
Scarica il documento per vederlo tutto.
Analisi Statistica multivariata Pag. 96
1 su 120
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher fede_poti di informazioni apprese con la frequenza delle lezioni di Analisi statistica multivariata e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Nipoti Bernardo.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community