vuoi
o PayPal
tutte le volte che vuoi
REGRESSIONE LINEARE
Regressione lineare con vettori
1. Scrivere i vettori
X=c(x1,x2,…,xn) #vettore della variabile indipendente
Y=c(y1,y2,…,yn) #vettore della variabile dipendente (Y è in funzione di X)
1. Creare un data frame di vettori
ds=data.frame(X,Y)
2. Creare un modello di regressione lineare
lm_fit=lm(Y~X, data=ds)
summary(lm_fit)
errore_residuo_standard <- 6.144 #al quadrato rappresenta la stima della varianza
#degli errori
REGRESSIONE LINEARE 1
3. Creare un intervallo di confidenza
stimavar=residual_standard_error^2 #sigma^2
IC=confint(lm_fit,level=0.95) #level=1-alfa
#oppure
T=qt(1-alfa/2, grado libertà) #grado libertà=n-(p+1)
IC=B0+c(-1,+1)*T*errore_std_B1 #errore_std_B1=4.4369 dalla tabella
4. Eseguire un test di ipotesi per verificare la significatività di X per Y; ci sono tre
possibilità:
a. Guardare il valore del p-value dalla funzione summary:
i. p-value>alfa → accettare ipotesi nulla H0 → X non è significativa
ii. p-value<alfa → rifiutare ipotesi nulla H0 → X è significativa
b. Se non conosco alfa e il p-value è approssimabile a 0 allora rifiuto l’ipotesi
nulla → X influenza significativamente Y
c. Controllare il t-value (dalla funzione summary) della variabile da studiare (nel
nostro esempio il t-value di X vale 6.031):
i. -T<t-value<T → accettare ipotesi nulla H0 → X non è significativa
ii. t-value>T oppure t-value<-T → rifiutare ipotesi nulla H0 → X è significativa
5. Calcolare la devianza residua SSE e la devianza di regressione SST=Syy
anova(lm_fit) #prendere i valori della colonna “Sum sq”: nella prima riga troviamo
#il valore di SST, nella seconda quello di SSE.
#stimavar=sigma^2="Mean sq", riga 2
REGRESSIONE LINEARE 2
6. Trovare il coefficiente di determinazione/coefficiente di determinazione
multiplo/coefficiente di determinazione lineare/Multiple R-squared/R^2 (più è
piccolo maggiore è la scarsità di adattamento (il massimo è 1 essendo una
percentuale) dalla funzione summary
7. Rappresentare un grafico a punti tramite la funzione plot(X,Y)
8. Trovare il coefficiente di correlazione campionario tramite la funzione cor(X,Y)
Regressione lineare senza vettori
1. Trascrivere i dati del problema (di solito x, y, x2, y2, xy)
2. Calcolare la media di x e y (se non fornita dal testo del problema)
mediax=x/n
mediay=y/n
3. Calcolare la devianza di x Sxx (=sommatoria((xi-mediax)^2))
Sxx=x2-(x^2)/n
4. Calcolare la devianza di y Syy (=sommatoria((yi-mediay)^2))
Syy=y2-(y^2)/n
5. Calcolare la codevianza Sxy
Sxy=xy-(x*y)/n
6. Calcolare B0 e B1 con la stima dei minimi quadrati
B1=Sxy/Sxx #oppure B1=(n*xy-x*y)/((n*x2)-(x)^2)
B0=mediay-B1*mediax
7. Calcolare l’intervallo di confidenza IC…
a. …per il parametro B0 (=intercetta)
REGRESSIONE LINEARE 3
alfa=0.05
T=qt(1-alfa/2,(n-2))
SST=Syy
SSE=SST-B1Sxy #calcolo SSE
stimavar=SSE/(n-(p+1))
radicando=stimavar((1/n)+((mediax^2)/Sxx))
radice=sqrt(radicando)
IC0=B0+c(-1,+1)*T*radice
#errore standard delle stime: sqrt(SSE/(n-2))
#SSE=DEVIANZA RESIDUA
#SST=SYY=DEVIANZA DI REGRESSIONE
#DEVIAZIONE=SSE+SST
b. …per il parametro B1 (=coefficiente angolare)
alfa=0.05
T=qt(1-alfa/2,(n-2))
SST=Syy
SSE=SST-B1Sxy #calcolo SSE
stimavar=SSE/(n-(p+1)) #stimavar=sigma^2=varianza residua,
#p=n° di variabili indipendenti
radicando=stimavar/Sxx
radice=sqrt(radicando)
IC0=B1+c(-1,+1)*T*radice
#N.B. I residui di un modello di regressione sono detti omoschedastici se sono
#costanti nel tempo, dunque le variabili aleatorie hanno la stessa varianza finita
8. Eseguire un test di ipotesi per verificare la significatività di X per Y: si rifiuta
l'ipotesi nulla H0 se |t0|>t(1-alfa/2,n-2)=T, dove t0=(B1-b1)/sqrt(stimavar/Sxx). Se
si rifiuta l'ipotesi nulla allora il parametro B1 è significativamente diverso da zero e
la sua presenza nel modello è giustificata
9. Calcolare il coefficiente di determinazione/indice di bontà di accostamento R^2
tramite la formula R^2=1-SSE/SST=1-SSE/Syy
Esercizi teorici sulla regressione lineare
1. Date le variabili casuali X, Y e Z=3Y-2 e sapendo che le stime dei parametri del
modello di regressione di Y da X sono B0=1 e B1=2 (quindi Y=1+2X+e),
determinare la stima del coefficiente angolare del modello di regressione in cui Z
viene spiegato da X.
dZ/dX=d(3Y-2)/dX=3d(Y)/dX=3d(1+2X+e)/dX=3*2=6
REGRESSIONE LINEARE 4