Formulario - primo parziale Data Analytics - Prof Gigliarano

Formulario con basi teoriche di Fondamenti di Data Analytics basati su appunti personali del publisher presi alle lezioni della prof. Gigliarano, dell’università degli Studi dell'Insubria Como Varese - Uninsubria, facoltà di economia. Scarica il file in formato PDF!

Esame Fondamenti di Data Analytics

Facoltà Economia

Dal corso del Prof. Gigliarano Chiara

Università Università degli Studi dell' Insubria

Publisher michelaxsegato

A.A. 2020-2021

11 pagine

Appunto

Vota

Scarica

Estratto del documento

Analisi statistica

Nminimo 2● e∑ ii=1N 2minimo ︿● (y y )∑ −i ii=1N 2minimo● [y (b + b x )]∑ − *i 0 1 ii=1 n (x x)(y y)∑ − −i i COV (X,Y )i=1 =Stimatore del n V ar(X)2coe ciente (x x)−∑ ii=1︿angolare (ex )β nb→ 1 Stima della variazione di Y relativa a una variazioneunitaria di Xy b x− *1Intercetta (ex )︿αb→ Valore medio stimato di Y quando il valore di X è zero (se0 X = 0 è nell’intervallo di valori osservati per X)Proprietà stimatori OLS Gli stimatori b e b sono entrambi non distorti in quanto E(b )=β e E(b )=β0 1 0 0 1 1Gli stimatori sono i più e cienti tra gli stimatori lineari e non distorti di e ,β β0 1(le varianze di b e b , sono le più piccole se confrontate a quelle di altri)0 1Covarianza COV N(X,Y) 1 (x M ) × (y M )∑ − −x yi iN i=1 NM - (M × M ) M = 1→ (x × y )∑xy x y xy i iNMisura i=1l’associazione

Nlineare 1 (x_M) × (y_M) × n∑ − −x_yi i ijN i=1N1 (x_M) × (y_M) × f∑ − −x_yi i ijN i=1

[ ]Intervallo di conﬁdenza per β n 2 n 2− −b t S ; b + t S1 − * *α α1 1− b 1 1− b1 12 2“Con un livello di conﬁdenza del (%), possiamo affermareche l’effetto di X su Y è compreso fra (estremo inferiore) eVarianza non nota (estremo superiore), ovvero ogni X in più fa aumentare le Y(tavole Student) almeno di (estr. inf. - scenario peggiore) e non più di (estr.sup. - scenario migliore).”Se l’intervallo contiene lo 0, la variabile non èsigniﬁcativa.

y Valori osservati della variabile dipendente

i Valore previsto per Y in corrispondenza di un dato valore di x

iSST (SSR+SSE) Misura la variazione dei valori y rispetto alla loro media, Yi

SSR (SST-SSE) Spiega la variazione che può essere attribuita alla relazione lineare tra X e Y

SSE

(SST-SSR) Variazione attribuibile a fattori diversi dalla relazione lineare tra X e Y

Coefficente di Porzione della variazione totale della variabile dipendente che è spiegata dalla determinazione (R^2)

Variazione della variabile indipendente (deve essere 0 ≤ R ≤ 1)

R = 1 il 100% della variazione di Y è spiegata dalla variazione di X

→ 20 < R < 1 solo parte della variazione di Y è spiegata dalla variazione di X

→ R = 0 Il valore di Y non dipende da X (la variazione di Y non è spiegata per niente dalla variazione di X)

n ∑(y - Y)^2

SST = ∑(y - Y)^2

i=1

Somma dei quadrati della regressione

SSR = SST - SSE

∑(y - Y)^2

i=1

Dato che SST = SSR + SSE

SSER = 1 - SST/SSR

COV(x,y)[ρ] = [ ]

oppure (per regressione semplice)

(x,y) σ × σx y

Stima della varianza (generalmente non nota) del termine di errore

n ∑ SSE^2

Stimatore non distorto

∑(y - Y)^2

i=1

→ σ S i→ e i=1 n

2−(“n-2” perchè si usano due parametri b e b ) →0 1 n 2−Errore standard delle stime √ 2S = S eeMisura la variazione del valore osservato di Y usando la retta di regressione︿Conseguenze logiche sul b è lo stimatore OLS del coe ciente angolare della retta (ex )β1modello di regressione b è non distorto e b ~ N(β ,σ ²)1 1 1 1Lo stimatore ha tipicamente varianza non nota, stimata da2 2S S2S = =e eb 2 2Σ(x x) (n 1)S− −1 xiS è una misura della variazione del coe ciente angolare della retta dib1regressione per diversi possibili campioniTest T C’è una relazione lineare statisticamente signiﬁcativa tra X e Y?Ipotesi H : = 0 H : ≠ 0β β0 1 1 1b β−T = 1 1S b1Distribuzione T di Student con n-2 gradi di libertàStatistica test b Coe ciente angolare della regressione1 Pendenza ipotizzata da H0β È pari a 01S Errore standard della pendenzab1 b

n 2−T = > t1 α1S −b 21Riﬁuto H se0Decisione b n 2−T = <− t1 α1S −b 21Test F Il modello è signiﬁcativo?Ipotesi H : il modello non è signiﬁcativo H : il modello è signiﬁcativo0 1 n 2︿(y Y )∑ −ii=1SSRM SR = = kkM SRF = M SE N 2︿(y y )∑ −i ii=1SSEM SE = = n k 1n k 1 − −− − n 2︿Statistica test (y Y )∑ −iSSR i=1Sostituendo k=1 F = =SSE N(regressione semplice) 2︿n 2− (y y )∑ −i ii=1 n 2−Distribuzione F:k gradi di libertà del numeratore (v1 sulle tavole F)● (n-k-1) gradi di libertà del denominatore (v2 sulle tavole F)●k = numero di variabili indipendenti nel modello di regressioneDecisione Riﬁuto H a livello se F>F (valore sulle tavole)α v1,v2,α0Più il numeratore è alto rispetto al denominatore, più il modello è daCommento considerarsi “buono”Modello di

regressione lineare multipla

Scopo: Esaminare la relazione lineare tra una dipendente (Y) e due o più variabili indipendenti

I coefficienti del modello di regressione multipla sono stimati usando dati campionari

Grafico

Assunzioni: I termini ε sono numeri fissati, oppure sono realizzazioni delle variabili X che sono indipendenti dal termine di errore, εi

Il valore atteso della variabile Y è una funzione lineare delle variabili indipendenti Xj

I termini di errore sono variabili aleatorie con E(εi)=0 e E(εi)=σε

I termini aleatori di errore non sono correlati tra loro E(εiεj)=0 per i≠j

Non è possibile trovare un insieme di numeri, c1, c2,..., ck, tali che 0≠1c1+c2*x1+c3*x2+...+ck*xk=0

Pertanto, si verifica la proprietà di non-linearità delle Xj

Coefficiente di determinazione (R^2): Misura la proporzione di varianza totale di y spiegata da tutte le variabili Xj insieme

Il rapporto tra la varianza spiegata e la varianza totale campionaria è dato da:

2(y - Ȳ)∑(y - Ȳ) - ∑(y - ŷ)²

Dato che SST = SSR + SSE, possiamo calcolare SSR come:

SSR = 1 - SST

Il coefficiente di determinazione R² non decresce mai quando una nuova variabile X è aggiunta al modello, anche se la nuova variabile non è un importante predittore. Questo può essere una limitazione quando si confrontano diversi modelli.

Aggiungendo una variabile a X, perdiamo un grado di libertà. L'aggiunta di una nuova variabile indipendente non rilevante riduce comunque la somma del quadrato degli errori, e quindi fa aumentare R².

R² aggiustato = 1 - SSE / SST (n - 1) - K = n° di variabili indipendenti

R² aggiustato consente un miglior confronto tra modelli di regressione multipla con un numero diverso di variabili indipendenti.

variabili indipendenti. Penalizza l'uso di variabili indipendenti non importanti.

● 2Il suo valore è inferiore a quello dell'R

● n 2e∑ SSE2SStimatore non distorto i→e i=1 n K 1− −→n K 1− −Errore standard delle √S 2= Sstime eeLa varianza delle stime dei coe cienti b è inﬂuenzata da dimensione campionaria, dalla variabilità delle X ej jdalla correlazione tra le variabili indipendenti e i termini di errore.

Intervalli di conﬁdenza n K 1− −b ± t S con (n-K-1) gradi di libertà (tavole T di Student)*αj 1 b−per β j2jVeriﬁca di ipotesi Test T sui singoli coe cienti βjIpotesi H : = 0 H : ≠ 0β β0 1 1 1b 0−jT =Statistica test S bj b n k 1− −jT = > t α1S −b 2jDecisione Riﬁuto H se b n k 1− −jT = <− t0 α1S −b 2jp-value < αTest F Il modello è signiﬁcativo? Test su tutti i

coe cienti contemporaneamenteβjH : almeno un ≠ 0 (almeno unaβIpotesi H : = = … = = 0 1 iβ β β variabile indipendente inﬂuenza Y)0 1 2 K n 2︿(y Y )∑ −ii=1SSRM SR = = kkM SRF = M SE N 2︿(y y )∑ −Statistica test i ii=1SSEM SE = = n k 1n k 1 − −− −Distribuzione F:k gradi di libertà del numeratore (v1 sulle tavole F)● (n-k-1) gradi di libertà del denominatore (v2 sulle tavole F)● Riﬁuto H a livello (il modello è quindi signiﬁcativo)α0Decisione se F>F (valore sulle tavole)K, n-k-1, αDato il modello di regressione per la popolazione y = + *x + *x + … + *x +→ β β β β εi 0 1 1i 2 2i k ki iData una nuova osservazione (x , x , ... , x ), la migliore previsione lineare di1,n+1 2,n+1 K,n+1= b + b *x + b *x + … + b *x︿è y︿yPrevisione k k,n+1n+1 0 1 1,n+1 2 2,n+1n+1È rischioso prevedere nuovi valori X

Anteprima

Vedrai una selezione di 4 pagine su 11

Formulario - primo parziale Data Analytics - Prof Gigliarano Pag. 1

Formulario - primo parziale Data Analytics - Prof Gigliarano Pag. 2

Anteprima di 4 pagg. su 11.
Scarica il documento per vederlo tutto.

Scarica

Formulario - primo parziale Data Analytics - Prof Gigliarano Pag. 6

Anteprima di 4 pagg. su 11.
Scarica il documento per vederlo tutto.

Scarica

Formulario - primo parziale Data Analytics - Prof Gigliarano Pag. 11

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher michelaxsegato di informazioni apprese con la frequenza delle lezioni di Fondamenti di Data Analytics e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi dell' Insubria o del prof Gigliarano Chiara.

Appunti correlati

Invia appunti e guadagna

Recensioni

Ti è piaciuto questo appunto?

Formulario - primo parziale Data Analytics - Prof Gigliarano

Analisi statistica

Recensioni

Domande e risposte

I migliori insegnanti di Informatica

Salvatore F.

Andrea D.

Pietro S.