Anteprima
Vedrai una selezione di 4 pagine su 11
Formulario - primo parziale Data Analytics - Prof Gigliarano Pag. 1 Formulario - primo parziale Data Analytics - Prof Gigliarano Pag. 2
Anteprima di 4 pagg. su 11.
Scarica il documento per vederlo tutto.
Formulario - primo parziale Data Analytics - Prof Gigliarano Pag. 6
Anteprima di 4 pagg. su 11.
Scarica il documento per vederlo tutto.
Formulario - primo parziale Data Analytics - Prof Gigliarano Pag. 11
1 su 11
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Analisi statistica

Nminimo 2● e∑ ii=1N 2minimo ︿● (y y )∑ −i ii=1N 2minimo● [y (b + b x )]∑ − *i 0 1 ii=1 n (x x)(y y)∑ − −i i COV (X,Y )i=1 =Stimatore del n V ar(X)2coe ciente (x x)−∑ ii=1︿angolare (ex )β nb→ 1 Stima della variazione di Y relativa a una variazioneunitaria di Xy b x− *1Intercetta (ex )︿αb→ Valore medio stimato di Y quando il valore di X è zero (se0 X = 0 è nell’intervallo di valori osservati per X)Proprietà stimatori OLS Gli stimatori b e b sono entrambi non distorti in quanto E(b )=β e E(b )=β0 1 0 0 1 1Gli stimatori sono i più e cienti tra gli stimatori lineari e non distorti di e ,β β0 1(le varianze di b e b , sono le più piccole se confrontate a quelle di altri)0 1Covarianza COV N(X,Y) 1 (x M ) × (y M )∑ − −x yi iN i=1 NM - (M × M ) M = 1→ (x × y )∑xy x y xy i iNMisura i=1l’associazione

Nlineare 1 (xM) × (yM) × n∑ − −xyi i ijN i=1N1 (xM) × (yM) × f∑ − −xyi i ijN i=1

[ ]Intervallo di confidenza per β n 2 n 2− −b t S ; b + t S1 − * *α α1 1− b 1 1− b1 12 2“Con un livello di confidenza del (%), possiamo affermareche l’effetto di X su Y è compreso fra (estremo inferiore) eVarianza non nota (estremo superiore), ovvero ogni X in più fa aumentare le Y(tavole Student) almeno di (estr. inf. - scenario peggiore) e non più di (estr.sup. - scenario migliore).”Se l’intervallo contiene lo 0, la variabile non èsignificativa.

y Valori osservati della variabile dipendente

i Valore previsto per Y in corrispondenza di un dato valore di x

iSST (SSR+SSE) Misura la variazione dei valori y rispetto alla loro media, Yi

SSR (SST-SSE) Spiega la variazione che può essere attribuita alla relazione lineare tra X e Y

SSE

(SST-SSR) Variazione attribuibile a fattori diversi dalla relazione lineare tra X e Y

Coefficente di Porzione della variazione totale della variabile dipendente che è spiegata dalla determinazione (R^2)

Variazione della variabile indipendente (deve essere 0 ≤ R ≤ 1)

R = 1 il 100% della variazione di Y è spiegata dalla variazione di X

→ 20 < R < 1 solo parte della variazione di Y è spiegata dalla variazione di X

→ R = 0 Il valore di Y non dipende da X (la variazione di Y non è spiegata per niente dalla variazione di X)

n ∑(y - Y)^2

SST = ∑(y - Y)^2

i=1

Somma dei quadrati della regressione

SSR = SST - SSE

∑(y - Y)^2

i=1

Dato che SST = SSR + SSE

SSER = 1 - SST/SSR

COV(x,y)[ρ] = [ ]

oppure (per regressione semplice)

(x,y) σ × σx y

Stima della varianza (generalmente non nota) del termine di errore

n ∑ SSE^2

Stimatore non distorto

∑(y - Y)^2

i=1

→ σ S i→ e i=1 n

2−(“n-2” perchè si usano due parametri b e b ) →0 1 n 2−Errore standard delle stime √ 2S = S eeMisura la variazione del valore osservato di Y usando la retta di regressione︿Conseguenze logiche sul b è lo stimatore OLS del coe ciente angolare della retta (ex )β1modello di regressione b è non distorto e b ~ N(β ,σ ²)1 1 1 1Lo stimatore ha tipicamente varianza non nota, stimata da2 2S S2S = =e eb 2 2Σ(x x) (n 1)S− −1 xiS è una misura della variazione del coe ciente angolare della retta dib1regressione per diversi possibili campioniTest T C’è una relazione lineare statisticamente significativa tra X e Y?Ipotesi H : = 0 H : ≠ 0β β0 1 1 1b β−T = 1 1S b1Distribuzione T di Student con n-2 gradi di libertàStatistica test b Coe ciente angolare della regressione1 Pendenza ipotizzata da H0β È pari a 01S Errore standard della pendenzab1 b

n 2−T = > t1 α1S −b 21Rifiuto H se0Decisione b n 2−T = <− t1 α1S −b 21Test F Il modello è significativo?Ipotesi H : il modello non è significativo H : il modello è significativo0 1 n 2︿(y Y )∑ −ii=1SSRM SR = = kkM SRF = M SE N 2︿(y y )∑ −i ii=1SSEM SE = = n k 1n k 1 − −− − n 2︿Statistica test (y Y )∑ −iSSR i=1Sostituendo k=1 F = =SSE N(regressione semplice) 2︿n 2− (y y )∑ −i ii=1 n 2−Distribuzione F:k gradi di libertà del numeratore (v1 sulle tavole F)● (n-k-1) gradi di libertà del denominatore (v2 sulle tavole F)●k = numero di variabili indipendenti nel modello di regressioneDecisione Rifiuto H a livello se F>F (valore sulle tavole)α v1,v2,α0Più il numeratore è alto rispetto al denominatore, più il modello è daCommento considerarsi “buono”Modello di

regressione lineare multipla

Scopo: Esaminare la relazione lineare tra una dipendente (Y) e due o più variabili indipendenti

I coefficienti del modello di regressione multipla sono stimati usando dati campionari

Grafico

Assunzioni: I termini ε sono numeri fissati, oppure sono realizzazioni delle variabili X che sono indipendenti dal termine di errore, εi

Il valore atteso della variabile Y è una funzione lineare delle variabili indipendenti Xj

I termini di errore sono variabili aleatorie con E(εi)=0 e E(εi)=σε

I termini aleatori di errore non sono correlati tra loro E(εiεj)=0 per i≠j

Non è possibile trovare un insieme di numeri, c1, c2,..., ck, tali che 0≠1c1+c2*x1+c3*x2+...+ck*xk=0

Pertanto, si verifica la proprietà di non-linearità delle Xj

Coefficiente di determinazione (R^2): Misura la proporzione di varianza totale di y spiegata da tutte le variabili Xj insieme

Il rapporto tra la varianza spiegata e la varianza totale campionaria è dato da:

2(y - Ȳ)∑(y - Ȳ) - ∑(y - ŷ)2

Dato che SST = SSR + SSE, possiamo calcolare SSR come:

SSR = 1 - SST

Il coefficiente di determinazione R2 non decresce mai quando una nuova variabile X è aggiunta al modello, anche se la nuova variabile non è un importante predittore. Questo può essere una limitazione quando si confrontano diversi modelli.

Aggiungendo una variabile a X, perdiamo un grado di libertà. L'aggiunta di una nuova variabile indipendente non rilevante riduce comunque la somma del quadrato degli errori, e quindi fa aumentare R2.

R2 aggiustato = 1 - SSE / SST (n - 1) - K = n° di variabili indipendenti

R2 aggiustato consente un miglior confronto tra modelli di regressione multipla con un numero diverso di variabili indipendenti.

variabili indipendenti. Penalizza l'uso di variabili indipendenti non importanti.

● 2Il suo valore è inferiore a quello dell'R

● n 2e∑ SSE2SStimatore non distorto i→e i=1 n K 1− −→n K 1− −Errore standard delle √S 2= Sstime eeLa varianza delle stime dei coe cienti b è influenzata da dimensione campionaria, dalla variabilità delle X ej jdalla correlazione tra le variabili indipendenti e i termini di errore.

Intervalli di confidenza n K 1− −b ± t S con (n-K-1) gradi di libertà (tavole T di Student)*αj 1 b−per β j2jVerifica di ipotesi Test T sui singoli coe cienti βjIpotesi H : = 0 H : ≠ 0β β0 1 1 1b 0−jT =Statistica test S bj b n k 1− −jT = > t α1S −b 2jDecisione Rifiuto H se b n k 1− −jT = <− t0 α1S −b 2jp-value < αTest F Il modello è significativo? Test su tutti i

coe cienti contemporaneamenteβjH : almeno un ≠ 0 (almeno unaβIpotesi H : = = … = = 0 1 iβ β β variabile indipendente influenza Y)0 1 2 K n 2︿(y Y )∑ −ii=1SSRM SR = = kkM SRF = M SE N 2︿(y y )∑ −Statistica test i ii=1SSEM SE = = n k 1n k 1 − −− −Distribuzione F:k gradi di libertà del numeratore (v1 sulle tavole F)● (n-k-1) gradi di libertà del denominatore (v2 sulle tavole F)● Rifiuto H a livello (il modello è quindi significativo)α0Decisione se F>F (valore sulle tavole)K, n-k-1, αDato il modello di regressione per la popolazione y = + *x + *x + … + *x +→ β β β β εi 0 1 1i 2 2i k ki iData una nuova osservazione (x , x , ... , x ), la migliore previsione lineare di1,n+1 2,n+1 K,n+1= b + b *x + b *x + … + b *x︿è y︿yPrevisione k k,n+1n+1 0 1 1,n+1 2 2,n+1n+1È rischioso prevedere nuovi valori X

Dettagli
A.A. 2020-2021
11 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher michelaxsegato di informazioni apprese con la frequenza delle lezioni di Fondamenti di Data Analytics e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi dell' Insubria o del prof Gigliarano Chiara.