Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
AMBITO DI ASSOCIAZIONE TRA DUE VARIABILI
Una volta stabilito che c'è un'associazione, non vuol dire che una variabile causi l'altra.
Es: c'è un'associazione tra pillola e tumore, ma non significa che la pillola causi il tumore, ma
che c'è un legame indiretto (pillola>no preservativo> trasmissione virus)
L'associazione non va quindi confusa con un rapporto causa-effetto.
Correlazione > si usa per parlare di associazione tra due variabili, entrambe quantitative.
Ci si può chiedere se il voto per Le Pen e lo stipendio sono correlati e possiamo chiederci come
cambia il voto alla Le Pen in base allo stipendio.
Variabile indipendente > quella che uso per prevedere la risposta
In questo caso, uso quindi lo stipendio per prevedere il voto.
X > variabile indipendente
Y > risposta, variabile dipendente regressione
Il problema che va sotto il nome di si riferisce alla possibilità di fare previsioni,
una volta che osservo due variabili grazie al fatto che esiste una funzione f che lega x e y.
Regressione lineare > una retta
Regressione non lineare > una curva
Noi faremo la regressione lineare semplice, rappresentando in un grafico le due variabili dopo
aver deciso quale è variabile indipendente e quale è la risposta.
Regressione lineare semplice > c'è una sola variabile indipendente
MODELLO DI REGRESSIONE LINEARE
Problema di interpolazione > trovare la retta che passa tra i punti
Per fare bene le cose però non basta disegnare una retta che passa in mezzo ai punti e li
interpola ragionevolmente bene: bisogna creare un modello.
I nostri punti non sono tutti esattamente sopra la retta, ma sono sparsi un po’ sopra è un po’
sotto. C'è una componente di variabilità dei soggetti.
ε errore casuale,
> che mi permette di regolare la variabilità intorno alla previsione. Questo
i
ha una distribuzione normale. Qualunque sia il valore che scelgo per x, l'errore sarà sempre
una Gaussiana di media 0 e varianza sigma quadro.
Modello di regressione lineare semplice:
Per fare tutto questo bisogna partire dal grafico dei dati.
Bisogna prima di tutto fare il grafico di dispersione, cioè rappresentare i dati raccolti
congiuntamente.
Covarianza > dice come variano assieme x e y. Io ho preso congiuntamente x e y, quindi vedo
se x cresce, cresce anche y o y decresce? Fisso un valore di riferimento, centro dei dati o
centroide, con in ascissa la media dei dati x e in ordinata la media dei dati y.
Quando prendo un altro punto vado a calcolare il prodotto
Sommatoria(xi-x)(yi-y)> 0 covarianza positiva > la retta ha inclinazione positiva
Sommatoria(xi-x)(yi-y)< 0 covarianza negativa > la retta ha inclinazione negativa
L’ultima formula significa che la covarianza la posso anche calcolare come la media dei
prodotti meno il prodotto delle medie.
Quando la covarianza è 0, non possiamo fare una curva.
La covarianza mi dice se al crescere di x tendenzialmente anche y cresce, oppure che al
crescere di x, y decresce.
Bisogna fare attenzione alla covarianza uguale a 0. Potremmo avere, infatti, un andamento
non lineare, che ci permette comunque di disegnare una curva, ma dal quale risulta
covarianza uguale a 0. In una situazione del genere non avremo una correlazione lineare, ma
una correlazione quadratica.
Se invece voglio vedere se c'è una correlazione lineare, devo calcolare il coefficiente di
correlazione lineare, che indichiamo con (si dice rho).
ρ
La covarianza può variare solo tra deviazione standard dei dati x e deviazione standard dei
dati y e prodotto tra deviazione standard di x e deviazione standard di y.
La covarianza normalizzata sarà compresa tra -1 e +1 .
Quando è molto vicino a 1 significa che posso far passare dai dati una retta decrescente,
ρ
mentre quando è molto vicino a -1 significa che la retta è decrescente.
ρ
Attenzione! è indicatore solo di un andamento lineare .
ρ
ESEMPIO 1
Prima si fa il grafico, poi si calcola la covarianza e poi il coefficiente di variazione.
Devo definire in modo matematico cosa significa che la retta interpola bene i dati. Questo è il
Criterio dei minimi quadrati
criterio dei minimi quadrati. > è la retta che rende la somma
su tutti i punti gli scarti al quadrato tra dato e la sua previsione piccola.
Cerco i valori di intercetta e pendenza che rendono questa somma il più piccolo possibile.
Yi è il valore che io ho osservato, mentre y cappuccio i è quello che io ho previsto. La distanza
tra osservato e previsto la prendo al quadrato. Se voglio che la retta fornisca buone previsioni,
questa differenza deve essere piccola.
Il valore di a e b che minimizza la somma degli scarti al quadrato è dato da
Mi chiedo se la retta è attendibile o no e la risposta è attendibile solo se il modello si adatta
bene ai dati. La previsione usando la retta interpolatrice si può fare solo sul grafico, cioè per il
range dei valori di x definiti dai dati che ho raccolto.
13/06/18
Esempio
In un campione casuale di 5 unità sono state osservate due variabili
Rappresentare l'andamento congiunto di y in funzione di x mediante opportuno grafico: le due
variabili sono correlate? Come e quanto?
Bisogna rappresentare y in ordinate e x in ascissa. Bisogna quindi fare il grafico di
dispersione.
Le due variabili sono correlate? Come e quanto? Correlate per noi significa che sono correlate
linearmente ed effettivamente guardando il grafico potrebbe passarci una retta. Per capire se
sono correlate linearmente devo però calcolare la covarianza, che sarà positiva, è da lì trovo il
coefficiente di correlazione lineare.
Per calcolare la covarianza ho bisogno di media dei dati x e y e varianza dei dati x e y.
Ho calcolato la varianza come media dei dati al quadrato (somma di tutti i dati al quadrato
diviso n) meno la media al quadrato.
Calcolo la covarianza come media dei prodotti (sommo i prodotti xy e divido per il numero n)
meno il prodotto delle medie.
Il coefficiente di correlazione lineare nasce da covarianza diviso prodotto delle deviazioni
ρ
standard. Attenzione quindi a mettere le varianze sotto radice.
mi indica che la correlazione lineare è positiva.
Ρ
In mezzo ai punti può passare una retta con coefficienti a e b determinati con il criterio dei
minimi quadrati. Mi serve la pendenza della retta e l'intercetta, ma le formule mi dicono che
ho già tutto quello che mi serve per ricavare pendenza e intercetta. La pendenza è il rapporto
tra covarianza e varianza dei dati x. Una volta stimata la pendenza, l'intercetta viene dalla
formula y-bx, qui passa il baricentro dei dati.
Troviamo quindi una retta che passa per il baricentro dei dati, quindi quando media di x =
media di y. Poi scegliamo un altro punto, fissando il valore di x e trovando il suo valore sulla
retta. Trovo così la retta da disegnare
Notiamo che il grafico parte da 1, perché non è necessario prendere l'origine 0. In questo caso
metto quindi parte della retta che oltrepassa sulla sinistra l'asse verticale.
Sulla base del coefficiente di correlazione possiamo dire che la correlazione è molto alta, è
positiva e la retta dei minimi quadrati è quella che ha a cappuccio 1,4 e b cappuccio 0,4
In questo modo io posso anche previsione per valori che non ho osservato della x. Posso quindi
usare la retta per fornire la previsione. La previsione è attendibile? Solo se il modello si adatta
bene ai dati, cioè se la retta si adatta bene ai dati. Dobbiamo quindi stabilire se il modello
lineare si adatta bene ai dati che abbiamo a disposizione. Per fare questa valutazione facciamo
il grafico di dispersione, facciamo la covarianza e il coefficiente di correlazione lineare, che se è
abbastanza alto ci fa pensare che la retta sia adatta. Stimiamo i parametri della retta e poi
valutiamo se la bontà di adattamento del modello ai dati. Ma come lo calcoliamo?
Posso prendere i dati che ho, fare la previsione dei valori di y per i miei dati x e confrontare la
previsione che ottengo con quello che ho osservato nei dati. In pratica uso i dati che già ho per
verificare la capacità del modello di fare previsione. La previsione viene indicata con y
cappuccio, cioè come stima del valore di y.
I dati stanno dove stanno, le previsioni stanno sulla retta perché le ho calcolate partendo dalla
retta.
La media delle previsioni è uguale alla media dei dati y, cioè le previsioni hanno la stessa
media delle osservazioni. Se le previsioni sono vicine alle osservazioni, la varianza delle
osservazioni è approssimativamente uguale alla varianza delle previsioni.
Se invece le osservazioni sono lontane dalle loro previsioni, mi aspetto che varianza dei dati
delle previsioni non siano più vicine tra loro. In particolare, la varianza dei dati è sempre
maggiore della varianza delle previsioni, al massimo è uguale se i dati sono allineati sulla
retta.
Possiamo usare questi elementi per valutare la bontà delle previsioni. Guardando due grafici,
quello in cui la varianza dei dati è vicino alla varianza delle previsioni sarà quello che
rappresenta meglio.
R 2
Uso = rapporto tra varianza delle previsioni e varianza dei dati.
L'indice R è dato dal rapporto tra la varianza delle previsioni e la varianza delle osservazioni.
2
Se questo rapporto è quasi 1 significa che dati e previsioni sono vicini tra loro, se invece è
minore di 1 significa che previsioni e dati stanno lontani. Il rapporto è sempre positivo perché
nasce da due varianze.
Questa è l’ANALISI DELLA VARIANZA > sul libro si parla di scomposizione della varianza.
In quale grafico le previsioni e le osservazioni sono più vicine?
Nel primo caso abbiamo altissimo e R2 quasi uguale a 1, nell'altro grafico è 0,61 ed R2<1.
ρ ρ
coefficiente di determinazione
R2 si chiama ed è compreso tra 0 e 1 (positivo perché
rapporto tra varianze è minore di 1 perché la varianza delle previsioni è sempre minore della
varianza dei dati).
R2 è uguale al coefficiente di correlazione al quadrato . Tendenzialmente per capire se c'è un
ρ
buon adattamento del modello ai dati vediamo R2, se tendenzialmente è maggiore di 0,7 lo
accettiamo.
Io posso fare previsioni su y anche con tante x separatamente. In questo caso esistono tanti ρ
quante x, ma esiste comunque un solo R2.
coefficiente di correlazione lineare
si chiama e viene usato per capire se posso far
Ρ
passare una retta, quello di determinazione indica la misura di adattamento del modello ai
dati. Poi nel caso p