vuoi
o PayPal
tutte le volte che vuoi
S R
Per conoscere la relazione tra e dobbiamo quanti care i parametri α e β.
Come possiamo conoscere il valore della spesa sanitaria per livelli di reddito pari a zero e di
vere grandezze
quanto aumenta la spesa quando il reddito aumenta di un’unità, cioè le dei
parametri α e β?
Possiamo procedere raccogliendo:
- campione casuale
un di osservazioni S e R;
- nel tempo;
una serie di osservazioni di S e R per una particolare famiglia
- osservazioni trasversali (cross-section) di S e R per diverse famiglie in un dato istante.
diagramma a
Dato un campione di osservazioni potremmo rappresentare i dati di S e R con un
dispersione (o scatter) come segue: 3
fi fi fi fl fi ff
Il diagramma a dispersione fa vedere come si distribuiscono sul piano le diverse coppie di S e R
suggerendo quindi la relazione e ettiva tra il reddito delle famiglie e la spesa sanitaria. Nel nostro
caso disponiamo di 8 osservazioni indicate dai pallini gialli e cogliamo una relazione crescente tra
reddito e spesa delle famiglie.
Tuttavia, il digramma a dispersione, pur essendo molto in formativo, non mostra automaticamente
una relazione lineare tra S e R a causa di:
- fattori omessi (il livello di spesa che osserviamo per un dato livello di reddito è anche il
risultato di altri fattori che non stiamo considerando);
- casualità nel comportamento economico;
- errori di misurazione.
Valore medio
valore medio
Il della spesa (µ) ci può fornire una misura del livello di spesa più probabile che si
veri ca in un grande numero di osservazioni. Tuttavia, non basta a de nire la nostra relazione del
diagramma a dispersione.
Deviazione standard dispersione dei valori della variabile attorno al valore
La varianza identi ca la (spesa sanitaria)
medio. La deviazione standard (o scarto quadratico medio) è data dalla radice quadrata della
varianza: 2
∑ (S − μ)
r
σ = n
Valore medio e deviazione standard ci danno un’idea della distribuzione dei nostri dati, ma non
bastano ad identi care la relazione lineare tra reddito e spesa sanitaria.
Retta di regressione
Per identi care la relazione lineare tra R e S possiamo cercare la retta che meglio si adatta ai
nostri dati.
retta di regressione meglio si adatta ai nostri dati
La è la retta che e viene ottenuta applicando
metodo dei minimi
un metodo di stima del valore di intercetta e pendenza, α e β, chiamato
quadrati (OLS), alle deviazioni (ε ) tra valori predetti della retta e valori reali.
i t)
Per trovare la migliori spiegazione dei dati (best adottiamo il metodo dei minimi quadrati
minimizzare la somma dei quadrati delle deviazioni ε
(OLS). Questo metodo ha lo scopo di ,
i
tra le osservazioni reali e quelle predette dalla retta aderente all’insieme delle osservazioni.
( ) ̂
2 2 2
̂
∑ ∑ ∑
ε = S − S = (S − α − βR )
Minimizzare r p r
i 4
fi fi fi fi ff fi fi
2
- ε - scarto al quadrato tra osservazioni reali e predette;
i
- S - osservazione reale della spesa sanitaria
r
- S - spesa predetta dalla retta di regressione stimata
p ̂
- ̂
α β
e - parametri stimati di intercetta e pendenza della retta
• pendenza.
stimare la retta di regressione signi ca determinare l’intercetta e la
• le grandezze di α e β
si stimano quindi che minimizzano la somma dei quadrati delle deviazioni
dalle osservazioni reali. Nel nostro caso, la stima dell’intercetta era 500 e la stima della
pendenza era 0,2.
• “migliore”
rispetto a tutte le altre possibili rette, la nostra retta di regressione rappresenta la
spiegazione dei dati.
Misurare la bontà della stima (goodness-of- t)
Disporre della stima migliore non signi ca avere una “buona” stima dei dati. coe ciente di
Per misurare la bontà (goodness-of-it) della nostra stima possiamo usare il
2
R
determinazione, spiegata
: indica la parte di variazione nella variabile dipendente che viene
dalla variabile indipendente (reddito) e varia tra 0 e 1:
- coe ciente di determinazione pari a 1: indica che tutta la variazione delle spesa viene spiegata
dalla variazione del reddito
- coe ciente pari a 0: ci dice che la variazione della spesa è completamente indipendente dalla
variazione del reddito.
Bontà delle stime dei parametri
La misurazione della bontà delle stime può essere applicata anche ai singoli parametri.
quanta deviazione ci aspettiamo attorno
L’a dabilità delle stime (medie) di α e di β dipende da
ai valori stimati.
Se la stima di un parametro è molto vicina allo zero e la sua variazione è piuttosto ampia corriamo
il rischio che il valore reale sia di fatto zero, dunque irrilevante a de ne la relazione tra reddito e
se i valori stimati dei parametri si possano
spesa. Abbiamo allora bisogno di capire
considerare sostanzialmente (signi cativamente in termini statistici) di erenti da zero.
quanta variazione c’è attorno al valore medio stimato dei parametri
Per calcolare del modello
t
distribuzione statistica
possiamo usare una di Student di una variabile stocastica e
confrontarci con dei valori critici.
t
La distribuzione di Student ci mostra come i valori di una stima si distribuiscano attorno al valore
medio nel caso di un numero elevato di rilevazioni. La parte centrale della distribuzione è
rappresentata da valori con elevata frequenza (nelle vicinanze del valore medio). Le code della
distribuzione rappresentano dei valori poco probabili, molto lontani dalla media. L'area delimitata
dalla funzione di distribuzione rappresenta il 100% delle osservazioni.
valore critico t
Se individuiamo un tale per cui tutti i valori di t che stanno a sinistra (a destra se
c
t t
negativi) di (-t ) rappresentano più del 90% (del 95% o del 99%) dei casi e il valore di che
c c la probabilità di
calcoliamo con la nostra stima è t > t (t < -t se negativo), possiamo dire che
c c
osservare un valore vicino allo zero, cioè minore (maggiore se negativo) di t (-t ) è inferiore
c c
al 10% (al 5% o all’1%). p-value:
Questa probabilità viene indicata con il inferiore a 0,1 (a 0,05 o a 0,01). Se dunque il
valore t calcolato con il nostro parametro stimato è superiore (inferiore se negativo) a t la
c
probabilità che questo valore sia dovuto solamente al caso o sia un errore è molto bassa e
la nostra stima è piuttosto a dabile.
possiamo ragionevolmente concludere che t
Per ogni parametro stimato, ad esempio β, calcoliamo quindi il valore del statistico. Lo facciamo
dividendo la stima per la deviazione standard (σ) del nostro campione di osservazioni.
Confrontiamo poi β/σ con il valore critico di riferimento (t ) e traiamo la nostra conclusione
c
sull’a dabilità della stima. I risultati delle stime fornite dai programmi di statistica forniscono
p-value
generalmente il valore del che viene quindi confrontato con un valore critico dello 0,1
(0,05 o 0,01) per de nire un livello di signi catività della stima del 90% (95% o 99%).
5
ffi ffi
ffi ffi fi fi fi fi fi fi fi ffi ff ffi costruire degli
Un modo alternativo di ragionare sull’a dabilità della nostra stima è quello di
intervalli di con denza attorno al valore ottenuto del nostro parametro. Per ottenere un intervallo
t
di con denza del 90% (95% o 99%) individuiamo l’intervallo di valori della distribuzione che
include il 90% (95% o 99%) di probabilità.
Pr [β < µ + t σ] = 90%.
Ad esempio, 0,1
Nell’ipotesi che il valore medio reale sia zero, cioè µ = 0, otteniamo Pr [β/σ < t ] = 90%.
0,05
concludiamo che
t
Se quindi calcoliamo un valore di t = β/σ che è superiore al critico, t ,
0,05
l’ipotesi di un valore medio pari a zero può essere rigettata con un livello di con denza del
90% la nostra stima
perché la nostra stima è al di fuori dell'intervallo di con denza. Diciamo che
è signi cativamente di erente da zero con un livello di signi catività del 10%.
Intervalli di con denza:
• t
se > 1,3 signi ca che il valore del parametro stimato è almeno 1,3 volte più grande della sua
deviazione media. 90%
—> in questo caso otteniamo un intervallo di con denza del del valore medio stimato per il
parametro.
—> possiamo rigettare l’ipotesi che il valore della nostra stima sia di fatto zero (ipotesi nulla) con
un livello di signi catività (possibilità di errore) pari al 10% o inferiore.
• 95%.
t
se > 1,7 l’intervallo di con denza è del
—> possiamo rigettare l’ipotesi nulla con un livello di signi catività del 5% o inferiore.
• 99%.
t
se > 2,4 l’intervallo di con denza è del
—> possiamo rigettare l’ipotesi nulla con un livello di signi catività del 1% o inferiore.
Analisi dei risultai della regressione
Proviamo ora ad interpretare i risultati della stima di un modello di regressione tra reddito e spesa
sanitaria. La nostra regressione si basa su 40 osservazioni (N=40) e fornisce i seguenti risultati (tra
t
parentesi abbiamo le stime del statistico per i diversi parametri):
S = 500 + 0,2R R = 0,51
2
N = 40
(2,49) (3,52)
Osserviamo che:
- il reddito spiega circa il 51% della variazione della spesa sanitaria
- la stima del parametro di intercetta α (500) corrisponde al livello di spesa sanitaria quando il
reddito è zero. Ha un intervallo di con denza del 95% circa.
- la stima del parametro sulla variabile di reddito β (0,2) ha un elevato grado di con denza. La
spesa sanitaria aumenta di 20 centesimi per ogni euro di aumento del reddito.
La regressione multipla
variabili indipendenti sono più di una
Se le (es. presso, reddito, gusti e preferenze) abbiamo una
regressione multipla. Applicando lo stesso metodo OLS usato per la regressione semplice
troviamo la retta migliore di regressione multipla che spiega i nostri dati.
Il coe ciente R misura ora la varianza (della spesa sanitaria) spiegata dall’insieme delle variabili
2
indipendenti. 6
ffi fi fi fi fi fi
fi ff fi
fi fi ffi fi fi
fi fi fi fi fi
t
Per ogni variabile indipendente viene stimato un parametro e un statistico:
S = 700 - 0,1P + 0,15R + 0,6E R = 0,80
2
N = 45
(2,37) (0,40) (3,13) (4,20)
- P è il prezzo dei servizi medici;
- R è il reddito
- E è l’eta media della famiglia e ri ette i gusti e le preferenze degli in