vuoi
o PayPal
tutte le volte che vuoi
Analisi statistica
Nminimo 2● e∑ ii=1N 2minimo ︿● (y y )∑ −i ii=1N 2minimo● [y (b + b x )]∑ − *i 0 1 ii=1 n (x x)(y y)∑ − −i i COV (X,Y )i=1 =Stimatore del n V ar(X)2coe ciente (x x)−∑ ii=1︿angolare (ex )β nb→ 1 Stima della variazione di Y relativa a una variazioneunitaria di Xy b x− *1Intercetta (ex )︿αb→ Valore medio stimato di Y quando il valore di X è zero (se0 X = 0 è nell’intervallo di valori osservati per X)Proprietà stimatori OLS Gli stimatori b e b sono entrambi non distorti in quanto E(b )=β e E(b )=β0 1 0 0 1 1Gli stimatori sono i più e cienti tra gli stimatori lineari e non distorti di e ,β β0 1(le varianze di b e b , sono le più piccole se confrontate a quelle di altri)0 1Covarianza COV N(X,Y) 1 (x M ) × (y M )∑ − −x yi iN i=1 NM - (M × M ) M = 1→ (x × y )∑xy x y xy i iNMisura i=1l’associazione
Nlineare 1 (xM) × (yM) × n∑ − −xyi i ijN i=1N1 (xM) × (yM) × f∑ − −xyi i ijN i=1
[ ]Intervallo di confidenza per β n 2 n 2− −b t S ; b + t S1 − * *α α1 1− b 1 1− b1 12 2“Con un livello di confidenza del (%), possiamo affermareche l’effetto di X su Y è compreso fra (estremo inferiore) eVarianza non nota (estremo superiore), ovvero ogni X in più fa aumentare le Y(tavole Student) almeno di (estr. inf. - scenario peggiore) e non più di (estr.sup. - scenario migliore).”Se l’intervallo contiene lo 0, la variabile non èsignificativa.
y Valori osservati della variabile dipendente
i Valore previsto per Y in corrispondenza di un dato valore di x
iSST (SSR+SSE) Misura la variazione dei valori y rispetto alla loro media, Yi
SSR (SST-SSE) Spiega la variazione che può essere attribuita alla relazione lineare tra X e Y
SSE
(SST-SSR) Variazione attribuibile a fattori diversi dalla relazione lineare tra X e Y
Coefficente di Porzione della variazione totale della variabile dipendente che è spiegata dalla determinazione (R^2)
Variazione della variabile indipendente (deve essere 0 ≤ R ≤ 1)
R = 1 il 100% della variazione di Y è spiegata dalla variazione di X
→ 20 < R < 1 solo parte della variazione di Y è spiegata dalla variazione di X
→ R = 0 Il valore di Y non dipende da X (la variazione di Y non è spiegata per niente dalla variazione di X)
n ∑(y - Y)^2
SST = ∑(y - Y)^2
i=1
Somma dei quadrati della regressione
SSR = SST - SSE
∑(y - Y)^2
i=1
Dato che SST = SSR + SSE
SSER = 1 - SST/SSR
COV(x,y)[ρ] = [ ]
oppure (per regressione semplice)
(x,y) σ × σx y
Stima della varianza (generalmente non nota) del termine di errore
n ∑ SSE^2
Stimatore non distorto
∑(y - Y)^2
i=1
→ σ S i→ e i=1 n
2−(“n-2” perchè si usano due parametri b e b ) →0 1 n 2−Errore standard delle stime √ 2S = S eeMisura la variazione del valore osservato di Y usando la retta di regressione︿Conseguenze logiche sul b è lo stimatore OLS del coe ciente angolare della retta (ex )β1modello di regressione b è non distorto e b ~ N(β ,σ ²)1 1 1 1Lo stimatore ha tipicamente varianza non nota, stimata da2 2S S2S = =e eb 2 2Σ(x x) (n 1)S− −1 xiS è una misura della variazione del coe ciente angolare della retta dib1regressione per diversi possibili campioniTest T C’è una relazione lineare statisticamente significativa tra X e Y?Ipotesi H : = 0 H : ≠ 0β β0 1 1 1b β−T = 1 1S b1Distribuzione T di Student con n-2 gradi di libertàStatistica test b Coe ciente angolare della regressione1 Pendenza ipotizzata da H0β È pari a 01S Errore standard della pendenzab1 b
n 2−T = > t1 α1S −b 21Rifiuto H se0Decisione b n 2−T = <− t1 α1S −b 21Test F Il modello è significativo?Ipotesi H : il modello non è significativo H : il modello è significativo0 1 n 2︿(y Y )∑ −ii=1SSRM SR = = kkM SRF = M SE N 2︿(y y )∑ −i ii=1SSEM SE = = n k 1n k 1 − −− − n 2︿Statistica test (y Y )∑ −iSSR i=1Sostituendo k=1 F = =SSE N(regressione semplice) 2︿n 2− (y y )∑ −i ii=1 n 2−Distribuzione F:k gradi di libertà del numeratore (v1 sulle tavole F)● (n-k-1) gradi di libertà del denominatore (v2 sulle tavole F)●k = numero di variabili indipendenti nel modello di regressioneDecisione Rifiuto H a livello se F>F (valore sulle tavole)α v1,v2,α0Più il numeratore è alto rispetto al denominatore, più il modello è daCommento considerarsi “buono”Modello di
regressione lineare multipla
Scopo: Esaminare la relazione lineare tra una dipendente (Y) e due o più variabili indipendenti
I coefficienti del modello di regressione multipla sono stimati usando dati campionari
Grafico
Assunzioni: I termini ε sono numeri fissati, oppure sono realizzazioni delle variabili X che sono indipendenti dal termine di errore, εi
Il valore atteso della variabile Y è una funzione lineare delle variabili indipendenti Xj
I termini di errore sono variabili aleatorie con E(εi)=0 e E(εi)=σε
I termini aleatori di errore non sono correlati tra loro E(εiεj)=0 per i≠j
Non è possibile trovare un insieme di numeri, c1, c2,..., ck, tali che 0≠1c1+c2*x1+c3*x2+...+ck*xk=0
Pertanto, si verifica la proprietà di non-linearità delle Xj
Coefficiente di determinazione (R^2): Misura la proporzione di varianza totale di y spiegata da tutte le variabili Xj insieme
Il rapporto tra la varianza spiegata e la varianza totale campionaria è dato da:
2(y - Ȳ)∑(y - Ȳ) - ∑(y - ŷ)2
Dato che SST = SSR + SSE, possiamo calcolare SSR come:
SSR = 1 - SST
Il coefficiente di determinazione R2 non decresce mai quando una nuova variabile X è aggiunta al modello, anche se la nuova variabile non è un importante predittore. Questo può essere una limitazione quando si confrontano diversi modelli.
Aggiungendo una variabile a X, perdiamo un grado di libertà. L'aggiunta di una nuova variabile indipendente non rilevante riduce comunque la somma del quadrato degli errori, e quindi fa aumentare R2.
R2 aggiustato = 1 - SSE / SST (n - 1) - K = n° di variabili indipendenti
R2 aggiustato consente un miglior confronto tra modelli di regressione multipla con un numero diverso di variabili indipendenti.
variabili indipendenti. Penalizza l'uso di variabili indipendenti non importanti.
● 2Il suo valore è inferiore a quello dell'R
● n 2e∑ SSE2SStimatore non distorto i→e i=1 n K 1− −→n K 1− −Errore standard delle √S 2= Sstime eeLa varianza delle stime dei coe cienti b è influenzata da dimensione campionaria, dalla variabilità delle X ej jdalla correlazione tra le variabili indipendenti e i termini di errore.
Intervalli di confidenza n K 1− −b ± t S con (n-K-1) gradi di libertà (tavole T di Student)*αj 1 b−per β j2jVerifica di ipotesi Test T sui singoli coe cienti βjIpotesi H : = 0 H : ≠ 0β β0 1 1 1b 0−jT =Statistica test S bj b n k 1− −jT = > t α1S −b 2jDecisione Rifiuto H se b n k 1− −jT = <− t0 α1S −b 2jp-value < αTest F Il modello è significativo? Test su tutti i
coe cienti contemporaneamenteβjH : almeno un ≠ 0 (almeno unaβIpotesi H : = = … = = 0 1 iβ β β variabile indipendente influenza Y)0 1 2 K n 2︿(y Y )∑ −ii=1SSRM SR = = kkM SRF = M SE N 2︿(y y )∑ −Statistica test i ii=1SSEM SE = = n k 1n k 1 − −− −Distribuzione F:k gradi di libertà del numeratore (v1 sulle tavole F)● (n-k-1) gradi di libertà del denominatore (v2 sulle tavole F)● Rifiuto H a livello (il modello è quindi significativo)α0Decisione se F>F (valore sulle tavole)K, n-k-1, αDato il modello di regressione per la popolazione y = + *x + *x + … + *x +→ β β β β εi 0 1 1i 2 2i k ki iData una nuova osservazione (x , x , ... , x ), la migliore previsione lineare di1,n+1 2,n+1 K,n+1= b + b *x + b *x + … + b *x︿è y︿yPrevisione k k,n+1n+1 0 1 1,n+1 2 2,n+1n+1È rischioso prevedere nuovi valori X