vuoi
o PayPal
tutte le volte che vuoi
Ipotesi alternativa: confronto di ipotesi, cosa è vero se la Errore del primo tipo: ipotesi nulla rifiutata, ma è vera; fissare
nulla viene rifiutata. Ovvero, nel caso si ipotizza solo che una probabilità di commettere questo errore, si dice fissare un
la media della popolazione non assuma quel valore livello minimo del test. Errore del secondo tipo: ipotesi nulla
specifico, si parla di ipotesi alternativa bilaterale. accettata, ma è falsa. La probabilità di rifiutare l’ipotesi nulla se
( ) vera l’alternativa (rifiuta corretto), è la potenza del test.
P-Value dei test (o livello di significatività Verifica del livello di ipotesi con un livello di
osservato) significatività prefissato
Anche avendo un ipotesi nulla valida, non possiamo Posso prefissare un p-value, ovvero una probabilità di
stabilire se il valore trovato corrisponda al valore reale commettere un errore del primo tipo (rifiutare l’ipotesi
della popolazione. Poiché c’è in gioco un incertezza di nulla quando è vera); quindi fisso un livello di
campionamento. significatività (livello minimo del test), trovo i valori critici
Il P-Value tiene conto di questa incertezza in termini che delimitano la mia regione di accettazione.
probabilistici: quanto è probabile ottenere una statistica Bilaterale
̅
che sia diversa da almeno quanto ? ̅)
( ) (
;
Se il P-Value è piccolo: la probabilità di estrarre una ̅ ̅
̅ ( )
1. Si calcola l’errore standard di :
campione che mi dia una statistica , che sia più vicino 2. Si calcola la statistica t
al valore ipotizzato è molto bassa. 3. Si calcola il valore-p;
Il P-Value è la probabilità, sotto l’ipotesi nulla, di ottenere
̅ ̅ 4. Si rifiuta l’ipotesi a livello di significatività del 5%:
un valore di distante da almeno quanto
̅ ̅
[| | | |] p-value<0,005
̅ | |>1,96
Standardizzo , il calcolo del P-Value sarà:
̅ ̅ Unilaterale
[| | | |] ̅)
( ) (
;
̅ ̅ ̅)
̅ (
{ }
| |)
( ̅ ̅
( )
1. Si calcola l’errore standard di :
̅
[qual è la probabilità di avere una distanza tra la media campionaria e il 2. Si calcola la statistica t (si rifiuta l’ipotesi nulla solo
valore ipotizzato maggiore della distanza tra il valore osservato e il quando il valore della statistica t è grande e
valore ipotizzato?] positivo);
̅ =valore che assume la media campionaria calcolata sui dati ( )
3. Si calcola il
disponibili; =probabilità calcolata ad ipotesi nulla valida. ( )
( ); ( )}
{
=funzione di ripartizione normale standard. Il valore-p è l’area nelle
code di una distribuzione normale standard al di fuori dell’intervallo [
Il valore-p è l’area sottostante la densità normale standard
̅
( ) ̅ ]
alla destra del valore osservato della statistica t
Calcolo dei P-Value con ignoto
̅ 4. Si rifiuta l’ipotesi a livello di significatività del 5%:
-------------------[Altri stimatori]--------------------
Varianza campionaria p-value<0,005
{ }
̅)
∑( Intervalli di confidenza per la media della popolazione
E’ possibile utilizzare i dati relativi ad un campione casuale
Da cui è possibile ottenere la deviazione standard per costruire un insieme di valori (regione di confidenza,
campionaria operando la radice quadrata. In con limiti definiti da un intervallo di confidenza) che
distribuzione di Bernoulli: p(1-p)/n. contiene la vera media della popolazione con una certa
( )
Errore standard campionario probabilità prefissata (livello di confidenza).
̅
È uno stimatore della deviazione standard di , indicato L’intervallo di confidenza è costruito in modo da
̅
con SE( ). contenere il valore vero della media della popolazione
̅
( ) ̂ √ nel X% di tutti i campioni possibili.
̅
In distribuzione di Bernoulli:
̅) ̅( ̅)
√
( .
------------------------------------------------------------------
̅
Si sostituisce con l’errore standard SE( ).
̅
Intervalli di confidenza per la media della ̅ ̅)
)(
∑(
popolazione
1. Intervallo di confidenza di livello 95% per ( )
Correlazione campionaria
̅ ̅)};
{ (
, tale che
2. Intervallo di confidenza di livello 90% per
̅ ̅
{ ( )};
, tale che Varia tra -1 e 1.
3. Intervallo di confidenza di livello 99% per Capitolo 4: Regressione lineare con singolo regressore
̅ ̅)};
{ (
, tale che Il modello di regressione lineare postula una relazione
lineare tra le variabili x e y, la pendenza della retta che
mette in relazione x e y è l’effetto di una variazione
Probabilità di copertura: è la probabilità che l’intervallo unitaria di x e y, ed è una caratteristica incognita come la
contenga la vera media della popolazione. media di y. La pendenza e l’intercetta possono essere
Confronto tra medie di popolazione diverse stimati attraverso un metodo chiamato Minimi Quadrati
Se confrontiamo: Ordinari (OLS, Ordinary Least Squares).
̅ ̅ A noi interessa stimare la variazione di y al variare di x
(pendenza; y=x0X; dX:dY), al fine di predire una relazione
Per il teorema centrale si distribuisce secondo una valida in media nella popolazione. Per fare questo è utile
( ) ( )].
[
normale incorporare nella relazione tutti quei fattori che possono
Tuttavia, e sono da stimare ricorrendo all’errore influenzare y. Al momento ci limiteremo ad un modello di
̅ ̅
standard di . regressione lineare con singolo regressore:
̅ ̅ , è il valore ipotizzato
1. CALCOLO DELL’ERRORE STANDARD: = retta di regressione della popolazione,
esprime la relazione esistente in media tra x e y.
̅ ̅ √
( ) è la variazione di y associata ad una variazione
unitaria di x. è valore della retta di regressione quando
2. COSTRUZIONE DELLA STATISTICA t: x=0. è l’errore o disturbo.
̅ ̅
( ) Lo stimatore OLS sceglie i coefficienti di regressione in
̅ ̅
( ) modo che la retta di regressione stimata sia il più possibile
3. TEST BILATERALE, rifiuto se: vicina ai dati osservati, dove la vicinanza è misurata dalla
( | |)
; somma dei quadrati degli errori che si commettono nel
| |
predire y data x. Quindi bisogna trovare quei coefficienti
4. TEST UNILATERALE, rifiuto se: che minimizzano:
( )
( ) ̂ ̂
∑ ( )]
[
̂ ̂
Dove e sono stimatori dei minimi quadrati ordinari
Un intervallo di confidenza al 95% sarà di B0 e B1(che minimizzano gli errori), da cui si costruisce
̅ ̅ ̅ ̅
( ) ̂
la retta di regressione OLS e quindi il valore predetto .
Utilizzo della statistica t quando il campione non è Tali coefficienti sono il risultato dell’operazione di
numeroso ̂
̂
minimizzazione. Il residuo sarà .
La distribuzione esatta della statistica t per verificare la Le formule di calcolo degli stimatori OLS della pendenza e
media di una singola popolazione è la distribuzione t di dell’intercetta sono:
Student con n-1 gradi di libertà, con i valori critici presi ̅ ̅)
∑ ( )(
̂
dalla tabella. DISTRIBUZIONE t DI STUDENT CON n-1 GR. ̅)
∑ (
LIB.: ̂ ̅ ̂ ̅
̂ ̂
e sono i valori predetti, che minimizzano gli errori
√ quadratici. Misure di bontà dell’adattamento
Con Z normale standardizzata:
̅ L’ e l’errore standard misurano quanto bene si adatta la
retta di regressione standard OLS ai dati.
√ L’ varia tra 0 e 1 e misura la frazione della varianza di
La statistica t: che è spiegata da .
̅ ̅) E’ il rapporto tra la somma dei quadrati spiegata e la
∑( somma dei quadrati totale.
√
Analizzare il legame tra due variabili ̂ ̅)
∑ (
Diagramma a nuvola di punti ̅)
∑ (
Covarianza campionaria ̂ ̂
1. Si calcola l’errore standard di , SE( );
La somma dei quadrati spiegata (ESS, Explained Sum of Squares) è la
̂ ̂
somma delle deviazioni quadratiche dei valori predetti dalla loro stimatore della deviazione standard campionaria di
media. ̂ ̂
( ) √ ;
̂
̂ ̅)
∑( ̂
varianza campionaria di
La somma dei quadrati totale (TSS, Total Sum of Squares) è la somma ̅)
∑ ( ̂
delle deviazioni quadratiche di Y dalla loro media. ̂ ̂
̅)
∑( ̅)
∑ (
[ ]
Quindi l’ , sarà: (varia tra 0 e 1) 2. Si calcola la statistica t; ;
L’ della regressione di Y sul singolo regressore è il
quadrato del coefficiente di correlazione tra Y e X. ̂ ̂
̂ ( )
̂
Dato che :
Avremo… 3. Si calcola il valore-p;
Il valore-p è il più basso livello di significatività al quale
l’ipotesi nulla si rifiuta (probabilità di osservare un valore
̅) ̂ ̅) ̂
∑( ∑( ∑ ̂ di diverso da almeno quanto la stima realmente
̂
ottenuta ) , basandosi sulla statistica t calcolata.
Se il valore –p è basso (p-value<0,005) c’è un evidenza
Errore standard della regressione (SER) ̂ sfavorevole all’ipotesi nulla, cioè… la probabilità di
L’errore standard della regressione misura la distanza ̂
ottenere il valore osservato di come risultato della pura
tipica di dal suo valore predetto (SER, Standard Error of variabilità campionaria è inferiore al 5%.
the Regression). E’ uno stimatore della deviazione
standard dell’errore di regressione ui, ovvero misura la ̂
̂
[| | | |]
dispersione delle osservazioni intorno alla retta di ̂
̂
regressione (stessa unità di misura della variabile (| | | |)
[| | | |]
̂ ̂
( ) ( )
dipendente). Per il test bilaterale:
Poiché gli errori di regressione non sono Dato che si distribuisce come una variabile casuale
osservati, il SER è calcolato usando le loro controparti normale standardizzata.
̂ ̂
campionarie, i residui OLS . (| | | |) ( | |)
̂ Dove è il valore della statistica t effettivamente
̅)
∑ (
∑ ̂ osservato e è la funzione di ripartizione normale
̂ standardizzata tabulata nella tabella 1.
Le assunzioni dei minimi quadrati Per il test unilaterale (coda sinistra):
Assunzioni sotto le quali gli OLS costituiscono uno
stimatore appropriato dei coefficienti di regressione ignoti (| | | |) ( )
B0 e B1.
Assunzione 1: la distribuzione condizionata di Ui data Xi ha Si rifiuta l’ipotesi a livello di significatività del 5%, se il
media nulla. valore-p è minore di 0,05 (o, equivalentemente, se
( | ) ( ) >1,645).<