Ali Q di Ali Q
Mito 24444 punti
Questo appunto contiene un allegato
Regressione lineare scaricato 0 volte

Regressione lineare


Quello della regressione lineare è un argomento che appartiene alla matematica statistica.

Lo studio della regressione lineare non è altro che la ricerca della media, o meglio della funzione media, tra diversi fenomeni correlati.
In particolare, in quest'appunto ci occuperemo della regressione lineare semplice, cioè quella che studia la dipendenza tra una sola variabile indipendente ed una sola variabile dipendente. Essa è detta inoltre "lineare" in quanto la funzione regressione è in questo caso una retta, cioè la funzione più semplice possibile.

Evoluzione dell'argomento


Vediamo di chiarire meglio questi concetti attraverso un esempio.

Supponiamo di avere un piccolo laboratorio di coltelli. Quando vi è un solo operaio, egli produce 30 coltelli al mese. Quando gli operai sono 2, vengono prodotti 60 coltelli al mese. Quando gli operai sono 3, essi possono suddividere le varie fasi del procedimento di lavorazione ed essere più produttivi, ottenendo 150 coltelli al mese. Se gli operai sono 4, anche se sono in numero maggiore essi tendono ad intralciarsi, e la produttività cala. In un mese essi producono perciò soltanto 180 coltelli. Costruiamo dunque una tabella, nella quale riporteremo i risultati di tale fenomeno (Figura 1 in allegato).

Una volta costruita la tabella, potremo utilizzarla per realizzare un grafico cartesiano ortogonale, dove in ascissa avremo il numero di operai (variabile indipendente) e in ordinata il numero di coltelli prodotti (variabile dipendente). E' superfluo far notare come la variabile dipendente "y" sia unica, e dipenda dall'unica variabile indipendente "x" (Figura 2 in allegato).

Come si può notare dalla figura, se uniamo fra di loro i punti rappresentativi delle quattro differenti situazioni, non otterremo una linea retta, bensì una linea spezzata. Questo perchè all'aumentare degli operai la produzione aumenta ma l'aumento degli operai nello stesso spazio aumenta anche l'intralcio tra gli stessi.

Ora, su tale grafico procediamo a tracciare la retta della regressione lineare, che sarebbe la retta che meglio si adatta al valore medio dei dati (FIGURA 3 in allegato).

Per poterla disegnare correttamente, occorre determinare esattamente la sua equazione. Come tutte le rette, essa avrà la forma:

[math]y = ax + b[/math]

... e di questa equazione occorre individuare i valori da dare ai coefficienti a e b.

Con riferimento alla FIGURA 3, chiamiamo y1, y2, y3, y4 le ordinate dei punti certi del nostro diagramma. E con ym1, ym2, ym3, ym4 i corrispondenti valori che si trovano sulla retta:

[math]y = ax + b[/math]

...dove la lettera "m" indica il miglior valore medio, che la curva di regressione rappresenta.

Per essere questa particolare retta la retta che meglio rappresenta la media del grafico tracciato nella FIGURA 3 occorre che la sommatoria delle distanze (y1-ym1), (y2-ym2)...ecc.sia la minore possibile. In linguaggio matematico:

[math]\sum_{i=1}^n (y_i-ax_i - b)^2 = S (min)[/math]

Esiste un metodo matematico, detto "dei minimi quadrati", che ci aiuta in tale operazione, e quindi che permette di trovare i valori dei coefficienti a e b. Poichè tale argomento richiederebbe un appunto a parte, esso non verrà trattato nel presente appunto e verrà quindi dato per scontato. Se l'argomento non fosse noto, si consiglia di consultare gli appunti ad esso relativi.

Il metodo dei minimi quadrati permette di arrivare alle formule finali di determinazione di a e b:

[math]a = \frac{\sum_{i=1}^n (y_i \cdot x_i - n\cdot x_m \cdot y_m)}{ \sum_{i=1}^n x_i^2 - nx_m^2}[/math]


[math]b = y_m - a \cdot x_m[/math]

Dove:
1) xi e yi rappresentano i generici valori di x e di y nei punti esaminati.
2) ∑(xiyi) è la sommatoria dei prodotti di ogni singolo valore x per il suo corrispondente valore y del nostro campionamento.
3) "n" rappresenta il numero degli eventi/misurazioni effettuate.

4) xm e ym sono i valori medi di tutti gli x e y misurati.

Torniamo al nostro precedente esempio.
Facendo riferimento alla tabella della FIGURA 1, costruiamo a partire da essa un'altra tabella (Figura 4 in allegato). Essa si basa sulla tabella della FIGURA 1, ma gli sono state aggiunte alcune righe e alcune colonne.

Il termine 2,5 presente al fondo della prima colonna rappresenta la x(media) del numero degli operai. Tale valore è stato ottenuto dalla media aritmetica dei valori x. Come si ricorderà essa è definita come il rapporto tra la somma di tutte le misurazioni eseguite ed il loro numero. In linguaggio matematico:

[math]xm = \frac{x1 + x2 + x3 +x4}{n} = \frac{∑xi}{n} = \frac{1 + 2 + 3 +4}{4} = \frac{10}{4}= 2,5[/math]

Il termine 105 presente al fondo della seconda colonna rappresenta la y(media) del numero dei coltelli prodotti. Tale valore è stato ottenuto dalla media aritmetica dei valori y:

[math]ym = \frac{y1 + y2 + y3 +y4}{n} = \frac{∑yi}{n} = \frac{30 + 60 +150 + 180}{4} = \frac{420}{4}= 105[/math]

Infine, sono state aggiunte due ulteriori colonne, calcolando rispettivamente i vari prodotti xiyi (terza colonna) e i rispettivi xi² (quarta colonna).

I valori 1320 e 30 rappresentano, nel nostro esempio, la sommatoria delle quattro xiyi calcolate, e delle xi² calcolate.
A questo punto abbiamo tutti gli elementi per calcolare a e b utilizzando le due formule ottenute con il metodo dei minimo quadrati:

[math]a = \frac{1320 -4 \cdot 2,5 \cdot 105}{30 - 4 \cdot 2,5^2} = 54[/math]

E:

[math]b = 105 - 54 \cdot 2,5 = - 30[/math]

La retta:

[math]y = 54 x - 30 [/math]

...rappresenta dunque la retta di regressione lineare semplice del diagramma utilizzato nel nostro esempio.

Hai bisogno di aiuto in Statistica e probabilità?
Trova il tuo insegnante su Skuola.net | Ripetizioni
Potrebbe Interessarti
Registrati via email