Anteprima
Vedrai una selezione di 3 pagine su 9
Parte 3 - IC, Test sulla varianza e regressione lineare (su R) - Statistica Pag. 1 Parte 3 - IC, Test sulla varianza e regressione lineare (su R) - Statistica Pag. 2
Anteprima di 3 pagg. su 9.
Scarica il documento per vederlo tutto.
Parte 3 - IC, Test sulla varianza e regressione lineare (su R) - Statistica Pag. 6
1 su 9
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

REGRESSIONE LINEARE

Regressione lineare con vettori

1. Scrivere i vettori

X=c(x1,x2,…,xn) #vettore della variabile indipendente

Y=c(y1,y2,…,yn) #vettore della variabile dipendente (Y è in funzione di X)

1. Creare un data frame di vettori

ds=data.frame(X,Y)

2. Creare un modello di regressione lineare

lm_fit=lm(Y~X, data=ds)

summary(lm_fit)

errore_residuo_standard <- 6.144 #al quadrato rappresenta la stima della varianza

#degli errori

REGRESSIONE LINEARE 1

3. Creare un intervallo di confidenza

stimavar=residual_standard_error^2 #sigma^2

IC=confint(lm_fit,level=0.95) #level=1-alfa

#oppure

T=qt(1-alfa/2, grado libertà) #grado libertà=n-(p+1)

IC=B0+c(-1,+1)*T*errore_std_B1 #errore_std_B1=4.4369 dalla tabella

4. Eseguire un test di ipotesi per verificare la significatività di X per Y; ci sono tre

possibilità:

a. Guardare il valore del p-value dalla funzione summary:

i. p-value>alfa → accettare ipotesi nulla H0 → X non è significativa

ii. p-value<alfa → rifiutare ipotesi nulla H0 → X è significativa

b. Se non conosco alfa e il p-value è approssimabile a 0 allora rifiuto l’ipotesi

nulla → X influenza significativamente Y

c. Controllare il t-value (dalla funzione summary) della variabile da studiare (nel

nostro esempio il t-value di X vale 6.031):

i. -T<t-value<T → accettare ipotesi nulla H0 → X non è significativa

ii. t-value>T oppure t-value<-T → rifiutare ipotesi nulla H0 → X è significativa

5. Calcolare la devianza residua SSE e la devianza di regressione SST=Syy

anova(lm_fit) #prendere i valori della colonna “Sum sq”: nella prima riga troviamo

#il valore di SST, nella seconda quello di SSE.

#stimavar=sigma^2="Mean sq", riga 2

REGRESSIONE LINEARE 2

6. Trovare il coefficiente di determinazione/coefficiente di determinazione

multiplo/coefficiente di determinazione lineare/Multiple R-squared/R^2 (più è

piccolo maggiore è la scarsità di adattamento (il massimo è 1 essendo una

percentuale) dalla funzione summary

7. Rappresentare un grafico a punti tramite la funzione plot(X,Y)

8. Trovare il coefficiente di correlazione campionario tramite la funzione cor(X,Y)

Regressione lineare senza vettori

1. Trascrivere i dati del problema (di solito x, y, x2, y2, xy)

2. Calcolare la media di x e y (se non fornita dal testo del problema)

mediax=x/n

mediay=y/n

3. Calcolare la devianza di x Sxx (=sommatoria((xi-mediax)^2))

Sxx=x2-(x^2)/n

4. Calcolare la devianza di y Syy (=sommatoria((yi-mediay)^2))

Syy=y2-(y^2)/n

5. Calcolare la codevianza Sxy

Sxy=xy-(x*y)/n

6. Calcolare B0 e B1 con la stima dei minimi quadrati

B1=Sxy/Sxx #oppure B1=(n*xy-x*y)/((n*x2)-(x)^2)

B0=mediay-B1*mediax

7. Calcolare l’intervallo di confidenza IC…

a. …per il parametro B0 (=intercetta)

REGRESSIONE LINEARE 3

alfa=0.05

T=qt(1-alfa/2,(n-2))

SST=Syy

SSE=SST-B1Sxy #calcolo SSE

stimavar=SSE/(n-(p+1))

radicando=stimavar((1/n)+((mediax^2)/Sxx))

radice=sqrt(radicando)

IC0=B0+c(-1,+1)*T*radice

#errore standard delle stime: sqrt(SSE/(n-2))

#SSE=DEVIANZA RESIDUA

#SST=SYY=DEVIANZA DI REGRESSIONE

#DEVIAZIONE=SSE+SST

b. …per il parametro B1 (=coefficiente angolare)

alfa=0.05

T=qt(1-alfa/2,(n-2))

SST=Syy

SSE=SST-B1Sxy #calcolo SSE

stimavar=SSE/(n-(p+1)) #stimavar=sigma^2=varianza residua,

#p=n° di variabili indipendenti

radicando=stimavar/Sxx

radice=sqrt(radicando)

IC0=B1+c(-1,+1)*T*radice

#N.B. I residui di un modello di regressione sono detti omoschedastici se sono

#costanti nel tempo, dunque le variabili aleatorie hanno la stessa varianza finita

8. Eseguire un test di ipotesi per verificare la significatività di X per Y: si rifiuta

l'ipotesi nulla H0 se |t0|>t(1-alfa/2,n-2)=T, dove t0=(B1-b1)/sqrt(stimavar/Sxx). Se

si rifiuta l'ipotesi nulla allora il parametro B1 è significativamente diverso da zero e

la sua presenza nel modello è giustificata

9. Calcolare il coefficiente di determinazione/indice di bontà di accostamento R^2

tramite la formula R^2=1-SSE/SST=1-SSE/Syy

Esercizi teorici sulla regressione lineare

1. Date le variabili casuali X, Y e Z=3Y-2 e sapendo che le stime dei parametri del

modello di regressione di Y da X sono B0=1 e B1=2 (quindi Y=1+2X+e),

determinare la stima del coefficiente angolare del modello di regressione in cui Z

viene spiegato da X.

dZ/dX=d(3Y-2)/dX=3d(Y)/dX=3d(1+2X+e)/dX=3*2=6

REGRESSIONE LINEARE 4

Dettagli
Publisher
A.A. 2023-2024
9 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher ilaria__0904 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Bergamo o del prof Fassò Alessandro.