vuoi
o PayPal
tutte le volte che vuoi
Lo studio della regressione lineare non è altro che la ricerca della media, o meglio della funzione media, tra diversi fenomeni correlati.
In particolare, in quest'appunto ci occuperemo della regressione lineare semplice, cioè quella che studia la dipendenza tra una sola variabile indipendente ed una sola variabile dipendente. Essa è detta inoltre "lineare" in quanto la funzione regressione è in questo caso una retta, cioè la funzione più semplice possibile.

Evoluzione dell'argomento
Vediamo di chiarire meglio questi concetti attraverso un esempio.
Supponiamo di avere un piccolo laboratorio di coltelli. Quando vi è un solo operaio, egli produce 30 coltelli al mese. Quando gli operai sono 2, vengono prodotti 60 coltelli al mese. Quando gli operai sono 3, essi possono suddividere le varie fasi del procedimento di lavorazione ed essere più produttivi, ottenendo 150 coltelli al mese. Se gli operai sono 4, anche se sono in numero maggiore essi tendono ad intralciarsi, e la produttività cala. In un mese essi producono perciò soltanto 180 coltelli. Costruiamo dunque una tabella, nella quale riporteremo i risultati di tale fenomeno (Figura 1 in allegato).

Una volta costruita la tabella, potremo utilizzarla per realizzare un grafico cartesiano ortogonale, dove in ascissa avremo il numero di operai (variabile indipendente) e in ordinata il numero di coltelli prodotti (variabile dipendente). E' superfluo far notare come la variabile dipendente "y" sia unica, e dipenda dall'unica variabile indipendente "x" (Figura 2 in allegato).
Come si può notare dalla figura, se uniamo fra di loro i punti rappresentativi delle quattro differenti situazioni, non otterremo una linea retta, bensì una linea spezzata. Questo accade perché all'aumentare degli operai la produzione aumenta ma l'aumento degli operai nello stesso spazio aumenta anche l'intralcio tra gli stessi; cioè la produttività dell'azienda non aumenta in maniera direttamente proporzionale al numero degli operai.
Ora, su tale grafico procediamo a tracciare la retta della regressione lineare, che sarebbe la retta che meglio si adatta al valore medio dei dati (FIGURA 3 in allegato).
Per poterla disegnare correttamente, occorre determinare esattamente la sua equazione. Come tutte le rette, essa avrà la forma:
Tale equazione rappresenta una retta nel piano cartesiano, argomento di studio in geometria analitica.
Di questa equazione occorre individuare i valori da dare ai coefficienti a e b.
Con riferimento alla FIGURA 3, chiamiamo y1, y2, y3, y4 le ordinate dei punti certi del nostro diagramma. E con ym1, ym2, ym3, ym4 i corrispondenti valori che si trovano sulla retta:
dove la lettera "m" indica il miglior valore medio, che la curva di regressione rappresenta.
Per essere questa particolare retta la retta che meglio rappresenta la media del grafico tracciato nella FIGURA 3 occorre che la sommatoria delle distanze (y1-ym1), (y2-ym2)...ecc.sia la minore possibile. In formule:
Per approfondimenti sulla retta in geometria analitica, vedi anche qua
Metodo dei minimi quadrati
Esiste un metodo matematico, detto "dei minimi quadrati", che ci aiuta in tale operazione, e quindi che permette di trovare i valori dei coefficienti
Il metodo dei minimi quadrati permette di arrivare alle formule finali di determinazione di a e b. Vale quindi:
e:
La notazione impiegata è la seguente:
- xi e yi rappresentano i generici valori di x e di y nei punti esaminati.
- ∑(xiyi) è la sommatoria dei prodotti di ogni singolo valore x per il suo corrispondente valore y del nostro campionamento.
- n rappresenta il numero degli eventi/misurazioni effettuate.
- xm e ym sono i valori medi di tutti gli x e y misurati.
Torniamo al nostro precedente esempio.
Facendo riferimento alla tabella della FIGURA 1, costruiamo a partire da essa un'altra tabella (Figura 4 in allegato). Essa si basa sulla tabella della FIGURA 1, ma gli sono state aggiunte alcune righe e alcune colonne.
Il termine 2,5 presente al fondo della prima colonna rappresenta la x(media) del numero degli operai. Tale valore è stato ottenuto dalla media aritmetica dei valori x. Come si ricorderà essa è definita come il rapporto tra la somma di tutte le misurazioni eseguite ed il loro numero. In linguaggio matematico:
Il termine 105 presente al fondo della seconda colonna rappresenta la y(media) del numero dei coltelli prodotti. Tale valore è stato ottenuto dalla media aritmetica dei valori y:
Infine, sono state aggiunte due ulteriori colonne, calcolando rispettivamente i vari prodotti xiyi (terza colonna) e i rispettivi quadrati degli xi (quarta colonna).
I valori 1320 e 30 rappresentano, nel nostro esempio, la sommatoria delle quattro xiyi calcolate, e dei quadrati di xi calcolate.
A questo punto abbiamo tutti gli elementi per calcolare a e b utilizzando le due formule ottenute con il metodo dei minimo quadrati:
Trovo
e trovo
Per approfondimenti sul metodo dei minimi quadrati, vedi anche qua
Determinazione della retta di regressione lineare
Secondo quanto calcolato nei punti precedenti, la retta:
FIGURA 1
FIGURA 2