Anteprima
Vedrai una selezione di 1 pagina su 2
Regressione lineare Pag. 1
1 su 2
Disdici quando vuoi 162x117
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Sintesi
Nel seguente appunto affronteremo un argomento noto trattato in statistica: la regressione lineare. Si tratta infatti di un metodo utilizzato in statistica per studiare la relazione esistente tra due variabili. Viene per esempio utilizzata in chimica, quando devono essere elaborati dei dati derivanti dalla lettura allo spettrofotometro delle assorbanze di determinate sostanze; e in tanti altri ambiti.
Lo studio della regressione lineare non è altro che la ricerca della media, o meglio della funzione media, tra diversi fenomeni correlati.
In particolare, in quest'appunto ci occuperemo della regressione lineare semplice, cioè quella che studia la dipendenza tra una sola variabile indipendente ed una sola variabile dipendente. Essa è detta inoltre "lineare" in quanto la funzione regressione è in questo caso una retta, cioè la funzione più semplice possibile.



Evoluzione dell'argomento


Vediamo di chiarire meglio questi concetti attraverso un esempio.
Supponiamo di avere un piccolo laboratorio di coltelli. Quando vi è un solo operaio, egli produce 30 coltelli al mese. Quando gli operai sono 2, vengono prodotti 60 coltelli al mese. Quando gli operai sono 3, essi possono suddividere le varie fasi del procedimento di lavorazione ed essere più produttivi, ottenendo 150 coltelli al mese. Se gli operai sono 4, anche se sono in numero maggiore essi tendono ad intralciarsi, e la produttività cala. In un mese essi producono perciò soltanto 180 coltelli. Costruiamo dunque una tabella, nella quale riporteremo i risultati di tale fenomeno (Figura 1 in allegato).



Una volta costruita la tabella, potremo utilizzarla per realizzare un grafico cartesiano ortogonale, dove in ascissa avremo il numero di operai (variabile indipendente) e in ordinata il numero di coltelli prodotti (variabile dipendente). E' superfluo far notare come la variabile dipendente "y" sia unica, e dipenda dall'unica variabile indipendente "x" (Figura 2 in allegato).
Come si può notare dalla figura, se uniamo fra di loro i punti rappresentativi delle quattro differenti situazioni, non otterremo una linea retta, bensì una linea spezzata. Questo accade perché all'aumentare degli operai la produzione aumenta ma l'aumento degli operai nello stesso spazio aumenta anche l'intralcio tra gli stessi; cioè la produttività dell'azienda non aumenta in maniera direttamente proporzionale al numero degli operai.
Ora, su tale grafico procediamo a tracciare la retta della regressione lineare, che sarebbe la retta che meglio si adatta al valore medio dei dati (FIGURA 3 in allegato).
Per poterla disegnare correttamente, occorre determinare esattamente la sua equazione. Come tutte le rette, essa avrà la forma:
[math]y = ax + b[/math]

Tale equazione rappresenta una retta nel piano cartesiano, argomento di studio in geometria analitica.
Di questa equazione occorre individuare i valori da dare ai coefficienti a e b.
Con riferimento alla FIGURA 3, chiamiamo y1, y2, y3, y4 le ordinate dei punti certi del nostro diagramma. E con ym1, ym2, ym3, ym4 i corrispondenti valori che si trovano sulla retta:
[math]y = ax + b[/math]

dove la lettera "m" indica il miglior valore medio, che la curva di regressione rappresenta.
Per essere questa particolare retta la retta che meglio rappresenta la media del grafico tracciato nella FIGURA 3 occorre che la sommatoria delle distanze (y1-ym1), (y2-ym2)...ecc.sia la minore possibile. In formule:
[math]\sum_{i=1}^n (y_i-ax_i - b)^2 = S (min)[/math]


Per approfondimenti sulla retta in geometria analitica, vedi anche qua


Metodo dei minimi quadrati


Esiste un metodo matematico, detto "dei minimi quadrati", che ci aiuta in tale operazione, e quindi che permette di trovare i valori dei coefficienti
[math] a, b [/math]
. Poiché tale argomento richiederebbe un appunto a parte, esso non verrà trattato nel presente appunto e verrà quindi dato per scontato. Se l'argomento non fosse noto, si consiglia di consultare gli appunti ad esso relativi.
Il metodo dei minimi quadrati permette di arrivare alle formule finali di determinazione di a e b. Vale quindi:
[math]a = \frac{\sum_{i=1}^n (y_i \cdot x_i - n\cdot x_m \cdot y_m)}{ \sum_{i=1}^n x_i^2 - nx_m^2}[/math]

e:
[math]b = y_m - a \cdot x_m[/math]

La notazione impiegata è la seguente:

  • xi e yi rappresentano i generici valori di x e di y nei punti esaminati.

  • ∑(xiyi) è la sommatoria dei prodotti di ogni singolo valore x per il suo corrispondente valore y del nostro campionamento.

  • n rappresenta il numero degli eventi/misurazioni effettuate.

  • xm e ym sono i valori medi di tutti gli x e y misurati.




Torniamo al nostro precedente esempio.
Facendo riferimento alla tabella della FIGURA 1, costruiamo a partire da essa un'altra tabella (Figura 4 in allegato). Essa si basa sulla tabella della FIGURA 1, ma gli sono state aggiunte alcune righe e alcune colonne.
Il termine 2,5 presente al fondo della prima colonna rappresenta la x(media) del numero degli operai. Tale valore è stato ottenuto dalla media aritmetica dei valori x. Come si ricorderà essa è definita come il rapporto tra la somma di tutte le misurazioni eseguite ed il loro numero. In linguaggio matematico:
[math]xm = \frac{x1 + x2 + x3 +x4}{n} = \frac{∑xi}{n} = \frac{1 + 2 + 3 +4}{4} = \frac{10}{4}= 2,5[/math]

Il termine 105 presente al fondo della seconda colonna rappresenta la y(media) del numero dei coltelli prodotti. Tale valore è stato ottenuto dalla media aritmetica dei valori y:
[math]ym = \frac{y1 + y2 + y3 +y4}{n} = \frac{∑yi}{n} = \frac{30 + 60 +150 + 180}{4} = \frac{420}{4}= 105[/math]

Infine, sono state aggiunte due ulteriori colonne, calcolando rispettivamente i vari prodotti xiyi (terza colonna) e i rispettivi quadrati degli xi (quarta colonna).
I valori 1320 e 30 rappresentano, nel nostro esempio, la sommatoria delle quattro xiyi calcolate, e dei quadrati di xi calcolate.
A questo punto abbiamo tutti gli elementi per calcolare a e b utilizzando le due formule ottenute con il metodo dei minimo quadrati:
Trovo
[math] a [/math]
:
[math]a = \frac{1320 -4 \cdot 2,5 \cdot 105}{30 - 4 \cdot 2,5^2} = 54[/math]

e trovo
[math] b [/math]
:
[math]b = 105 - 54 \cdot 2,5 = - 30[/math]


Per approfondimenti sul metodo dei minimi quadrati, vedi anche qua


Determinazione della retta di regressione lineare


Secondo quanto calcolato nei punti precedenti, la retta:
[math]y = 54 x - 30 [/math]
rappresenta dunque la retta di regressione lineare semplice del diagramma utilizzato nel nostro esempio. In sintesi, potremmo dire che la retta di regressione è quella retta che minimizza i "distacchi" tra i valori attesi e quelli effettivi, derivanti da sperimentazioni.
Estratto del documento

FIGURA 1

FIGURA 2

Dettagli
Publisher
2 pagine
63 download