vuoi
o PayPal
tutte le volte che vuoi
Regressione
In matematica una variabile y si dice funzione di x se a ciascun valore di x corrispondono uno e un solo valore di y, valore che si determina tramite le operazioni algebriche specificate dalla relazione funzionale che lega y ad x. Ci sono due variabili: indipendente e dipendente; spesso per ogni variabile indipendente corrispondono molti valori e questa dipendenza si chiama relazione statistica.
Un modello statistico è uno schema teorico che descrive un fenomeno ipotizzando le caratteristiche strutturali più rilevanti ed è composto da due parti, la parte sistematica, o segnale, e da quella aleatoria o rumore necessaria per passare dalla teoria all'analisi dei dati.
Da qua in avanti ci concentriamo sul modello di regressione lineare che consiste nell'assumere che la funzione matematica f(x) sia l'equazione di una retta: y = β0 + β1x + ε dove i primi due parametri sono l'intercetta e la pendenza mentre il terzo è l'errore.
(indipendente da x). La regressione è un modello statistico in cui la parte sistematica (funzione lineare di x) è funzione di alcune variabili osservate, dunque è un metodo per studiare come una variabile di risposta (variabile dipendente) dipende da alcune variabili esplicative (regressori). La prima colonna è dedicata alla variabile di risposta, mentre le altre colonne sono per le variabili esplicative. La regressione si divide in:
- Semplice: una sola variabile esplicativa, si tratta di un metodo bivariato perché riguarda due sole variabili;
- Lineari: si assume che la relazione tra la variabile di risposta y e quella esplicativa x sia di tipo lineare, cioè una retta; si assume che la media aritmetica di y condizionata a x sia funzione lineare di x.
Come ipotesi fondamentale di tale modello, dobbiamo dire che la parte accidentale non dipende da x per cui la media dell'errore è 0 per ogni valore di x. Da ciò segue che la media di
y condizionata ax è una funzione lineare di x: μY|x=β0+β1x. Supponiamo che il regressore abbia come valore x* in corrispondenza del quale la media condizionata è μY|x*=β0+β1x*, supponiamo che il regressore aumenti di 1 e che assume x*+1 in corrispondenza della quale la media è μY|x*+1=β0+β1(x*+1) dalla quale si ottiene β1. In conclusione, β1 è la variazione della media condizionata di y conseguente all'aumento di 1 di x qualunque sia il valore x* di partenza. β1 dipende dall'unità di misura delle variabili prese in considerazione (y/x), se tale fattore è uguale a 2kg/m significa che ad ogni aumento di 1 m si associa un aumento medio del peso di 2kg.
Metodo dei minimi quadrati: con le lettere greche intendo la stima mentre con le latine la retta stimata. In termini geometrici dato un diagramma di dispersione si cerca di capire quale sia la retta che si adatta meglio ai punti, cioè
quella che mediamente è più vicina ai punti. Algebricamente parlando si calcolano b0 e b1 in modo che l'errore sia il più piccolo possibile. Occorre stabilire la distanza tra la retta e l'insieme dei punti considerando pure l'errore di previsione complessivo. I valori di x sono considerati quantità date per cui il problema della previsione riguarda i valori y tale che: yi è il valore osservato di y per l'unità i; ŷi=b0+b1xi è il valore previsto; ei=yi-ŷi è l'errore di previsione. Il criterio più usato per definire la distanza tra la retta e l'insieme dei punti è quello della somma dei quadrati degli errori. La retta che rende minimo l'errore di previsione quadratico è chiamata retta dei minimi quadrati. Le rette del piano sono infinite, ognuna individuata univocamente da una coppia di valori cioè, intercetta e pendenza. Determinare la retta dei minimi quadrati significadeterminare la coppia di valori per cui la soma dei quadrati degli errori è minima. Data una distribuzione doppia disaggregata, la minimizzazione è data dai valori di b1 e b0 dove μx e μy sono le medie aritmetiche di X e Y. La quantità al numeratore, indicata con CXY, si chiama codevianza; quella al denominatore, σXY, è la covarianza data dalla codevianza divisa per N; infine, DX è la devianza della distribuzione marginale di X. Una volta fatto il calcolo l'equazione ŷ=b0+b1x rappresenta la retta di regressione di Y su X detta retta interpolatrice dei minimi quadrati. Il significato da attribuire al coeff. Angolare della retta b1 è che poiché la retta rispecchia l'andamento medio dei valori osservati, b1 indica la variazione media che subisce Y quando X aumenta di 1 unità. La retta di regressione passa per il baricentro della distribuzione doppia, nel punto di coordinate (μX,μY); essendo b0=μy-b1μx la
sostituzione in ŷ=b0+b1x di μX da ŷ=μy. Proprietà:Retta passa per il baricentro, punto di coordinate x medio e y medio. Quando x=μxallora il valore previsto è ŷ=μy.Somma valori previsti=somma valori osservati. Nella dimostrazione spezzo la sommatoria, la prima parte con la media di y,nella seconda parte c’è tutto il resto.Nell’ultima parte, b1 è una costante e possoportarlo fuori, tale sommatoria è nulla perchéla somma degli scarti dalla media è nulla.Dato che la sommatoria della media di y è uguale alla somma dei valori di y possoconcludere nel modo illustrato in figura.Sommatoria dei residui è nulla.Traslazione: può accadere che si debbanooperare delle traslazioni per interpretare e raffigurare meglio il grafico. Considero unatraslazione a della x tale che x’=x+a, allora y=b0+b1x+e diventa b0+b1(x’-a)+e dacui si ottiene y=(b0-b1a)+b1x’+e dove il primo termineè la sua intercetta mentre la pendenza rimane invariata. In conclusione, dopo la traslazione la pendenza rimane invariata mentre l’intercetta è il valore previsto di y quando x=μx.
Cambiamento di scala: quando si cambia l’unità di misura sono necessari dei cambiamenti di scala. Se x’=dxX con dx che è il coefficiente di cambiamento e y’=dyY. Sapendo che y=b0+b1x+e posso dire che y’/dy=b0+b1(x’/dx)+e. l’espansione della scala y aumenta la pendenza, l’espansione di x la diminuisce. In conclusione, sia l’intercetta sia la pendenza saranno nuove.
Il termine “regressione” deriva da F. Galton dopo i suoi studi sull’ereditarietà. Qui sono riportati i valori di 1078 coppie di padri e figli dove con la X si indica l’altezza del padre e Y quella del figlio. La linea continua è una retta: y=89+0.5x. Poiché la retta ha coeff. Minore di 1 possiamo dire che i padri alti tendono ad
avere figli alti ma non come ipadri. L'altezza dei figli tende a regredire verso la media. Per ogni cm in più del padre il figlio aumenta di 0,5. Interpolazione: possiamo utilizzare la retta di regressione per prevedere il valore di Y per un dato intervallo di X non osservato, ma interno all'intervallo osservato di X. Un esempio, è usare la retta stimata per prevedere l'altezza di una sorella il cui fratello misura 172cm e noteremo che entrambi i risultati staranno all'interno di un intervallo. Estrapolazione: possiamo utilizzare la retta di regressione per prevedere il valore di Y per un dato valore di X esterno all'intervallo osservato di X. Se abbiamo un intervallo [170,180] e calcoliamo l'altezza di Y data X=190 cm vedremo che anche il risultato di Y sarà fuori da []. L'accuratezza dipende da quanto la retta si adatta ai dati e a quanto il valore x è lontano dai valori osservati. Si può fare con ogni valore di x ma.Spesso i valori non avranno senso, specie con x molto grandi o piccole. In ogni applicazione si può determinare a priori, indipendentemente dai dati rilevati, un intervallo di valori di x che ha senso prendere in considerazione; a posteriori alla luce dei dati effettivamente rilevati l'intervallo dovrebbe essere solo di poco più ampio dell'intervallo dei valori osservati di X. Ecco il pericolo dell'estrapolazione dove la retta rossa è una possibile relazione tra Y e X nella popolazione; quella nera è la retta di regressione determinata. Misure di variabilità nella regressione: introduciamo un indice che misura la bontà dell'adattamento della retta di regressione ai punti osservati, per la costruzione ci si avvale della scomposizione della devianza. Data una distribuzione doppia disaggregata la devianza della variabile Y diventa: DY=DSL+DRL, devianza totale di Y= devianza di Y spiegata della relazione lineare su X+ devianza di Y residua.
Rispetto alla regressione lineare su X. La regressione può essere vista come un metodo per spiegare la variabilità di un carattere (Y) tramite la relazione lineare con un'altra variabile (X). Data una distribuzione doppia disaggregata, una misura della bontà dell'adattamento della retta ai punti osservati denominata indice di determinazione, è data dal rapporto tra la devianza spiegata e la devianza totale: DSL DRL2 = 1 - r
. Poiché 0 <= DSL <= DY segue che l'indice sia tra [0,1] e misura la bontà di adattamento. Tale misura è cruciale per l'interpretazione e l'utilizzo dei risultati della regressione, quella che si adatta meglio è quella che minimizza l'errore complessivo ma se l'indice è piccolo l'adattamento è scarso.
Proprietà:
- Tra 0 e 1 (forte adattamento della retta);
- È uguale a 0 se e solo se DSL=0 cioè, i valori previsti sono uguali alla media e la
La pendenza è nulla; è uguale ad 1 se e solo se DRL=0, i punti osservati giacciono sulla retta.
Per calcolare r^2 occorre DY e uno dei termini della scomposizione della devianza. Per calcolare DSL devo per ogni osservazione prevedere ŷ tramite la retta stimata, tale via è molto utile per capire r^2. B1^2DX posso metterlo nella formula dell'r^2 dove arrivo al rapporto tra la codevianza e la devianza e quindi a questa formula (immagine) e questo è il quadrato del coefficiente di correlazione lineare. La radice quadrata della varianza residua è interpretabile come l'errore medio che si commette prevedendo Y tramite il modello di regressione lineare su X tale che σRL sarà la media quadratica degli errori di previsione, se divido per n ho l'errore quadratico medio e con la radice torno all'unità di misura originale. Le differenze