_stan
Ominide
6 min. di lettura
Vota

Nel caso in cui siano oggetto di studio due distribuzioni statistiche (X e Y), possibile attribuire alle distribuzioni punti del piano cartesiano, ed possibile inoltre interpolare tali punti, cioè individuare nuovi punti del piano nell'ipotesi che tutti questi possano riferirsi ad una funzione nota di variabile reale.

Se la funzione interpolante una retta di equazione

[math]y = mx + q[/math]
, è possibile determinare i coefficienti di tale retta; notiamo che per un insieme di punti possono passare infinite rette, ma quella di regressione quella che minimizza la somma dei quadrati degli scarti tra i valori di una distribuzione e i corrispondenti valori dell'altra.

I coefficienti della retta cercata si possono determinare grazie al metodo dei minimi quadrati.

Metodo dei minimi quadrati

Chiamiamo

[math]m_x[/math]
e
[math]m_y[/math]
le medie dei due insiemi di grandezze
[math]x_i[/math]
e
[math]y_i[/math]
, con
[math]i[/math]
che varia da
[math]1[/math]
a
[math]n[/math]
; si ha quindi:

[math] m_x = \frac{\sum x_I}{n} \mbox{ , } m_y = \frac{\sum y_i}{n} [/math]

Ricordiamo che la varianza di una distribuzione si calcola sommando le differenze tra ciascun valore della distribuzione con il valore medio, e dividendo tale somma per il numero dei dati; calcoliamo, quindi, le varianze per il nostro caso:

[math] \mbox{var}_1 = \frac{\sum (x_i-m_x)^2}{n} \mbox{ , } \mbox{var}_2 = \frac{\sum(y_i-m_y)^2}{m} [/math]

Definiamo una nuova quantità, detta covarianza, espressa dalla seguente scrittura:

[math] \mbox{var}_{1,2} = \frac{\sum (x_i-m_x)(y_i-m_y)}{n} [/math]

La retta interpolante che stiamo cercando avrà equazione:

[math] y = m_y + r_{y,x} (x-m_x) [/math]

dove il termine

[math]r[/math]
, cioè il coefficiente angolare della retta, è dato dal rapporto tra la covarianza e la varianza della distribuzione
[math]x[/math]
:

[math] r_{y,x} = \frac{\mbox{var}_{1,2}}{\mbox{var}_1} [/math]

Questo coefficiente angolare viene definito coefficiente di regressione di

[math]y[/math]
su
[math]x[/math]
; la retta ottenuta viene quindi definita retta di regressione di
[math]y[/math]
su
[math]x[/math]
.

Allo stesso modo, possiamo notare che se la retta avesse equazione

[math] x = m_x + r_{x,y} (y-m_y) [/math]

Il coefficiente angolare sarebbe dato dal rapporto tra la covarianza e la varianza della distribuzione

[math]y[/math]
, e verrebbe definito coefficiente di regressione di
[math]x[/math]
su
[math]y[/math]
; allo stesso modo, la retta ottenuta verrebbe definita retta di regressione di
[math]x[/math]
su
[math]y[/math]
.

La differenza tra le due rette sta nella dipendenza di una delle due variabili dallaltra.

Infatti, nel caso in cui si suppone una dipendenza di

[math]y[/math]
da
[math]x[/math]
, si determina la retta di regressione di
[math]y[/math]
su
[math]x[/math]
; se invece, si suppone una dipendenza di
[math]x[/math]
da
[math]y[/math]
, si determina la retta di regressione di
[math]x[/math]
su
[math]y[/math]
.

In genere queste due rette non sono coincidenti, ma si intersecano nel punto

[math](m_x, m_y)[/math]
.

I coefficienti di regressione indicano che esistono variazioni di una variabile rispetto all'altra. Essi, inoltre, hanno lo stesso segno. In particolare, se sono entrambi positivi, al crescere dei valori di una variabile crescono anche i valori dell'altra; altrimenti, se sono entrambe negative, se i valori di una crescono, i valori dell'altra decrescono.

Le rette, inoltre, formano un angolo che dipende dalla loro approssimazione rispetto alla distribuzione reale: tale angolo sar tanto minore quanto l'approssimazione accurata.

Se i coefficienti di correlazione sono nulli, le rette sono perpendicolari tra loro, quindi possiamo affermare che non si ha una dipendenza lineare tra le variabili, ma si avrà una dipendenza di tipo parabolico, esponenziale, ecc

Bontà di adattamento della retta

Nel processo di raccolta dei dati, possono influire fattori esterni che influenzano la relazione tre le due variabili delle distribuzioni; in questo caso, si deve considerare la retta interpolante con l'aggiunta dell'errore commesso.

In particolare, si scompone la variabilità di

[math]y[/math]
in due componenti:
  • La devianza spiegata: somma delle differenze al quadrato tra i valori teorici della retta e la media della distribuzione Y;
  • La devianza residua: la somma degli scarti al quadrato tra i valori osservati e quelli teorici di Y.
Attraverso questi due valori, è possibile ottenere un indice che valuti la bontà di adattamento della retta con la distribuzione di punti. L'indice di bontà di adattamento (
[math]R^2[/math]
) ottenuto dividendo la devianza spiegata e la devianza totale.

Maggiori sono i valori di tale indice, migliore l'adattamento della retta alla distribuzione; al contrario, valori prossimo allo zero di

[math]R^2[/math]
indicano una scarsa bontà di adattamento della retta alla vera relazione tra le distribuzioni
[math]X[/math]
e
[math]Y[/math]
.

Potrebbero interessarti

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community