Questa è un'anteprima a titolo informativo.
vuoi
o PayPal
tutte le volte che vuoi
Covarianza, correlazione e retta di regressione
La rappresentazione grafica della distribuzione unitaria doppia di due variabili quantitative X e Y si chiama diagramma a dispersione (o scatterplot) e associa ad ogni profilo riga (x, y) un punto di ascissa x e ordinata y. La covarianza tra X e Y, indicata con σXY, misura il grado di dipendenza lineare tra le due variabili. Si ha che: - σ ≤ 0 quando i punti del diagramma a dispersione giacciono su una retta con pendenza negativa - σ ≥ 0 quando i punti del diagramma a dispersione giacciono su una retta con pendenza positiva Standardizzando la covarianza si trova l'indice di correlazione lineare di Bravais-Pearson r: r = σXY / (σX * σY) È sempre possibileinterpolare una distribuzione unitaria con una rettay = a + bx
che minimizza la somma della differenza (residuo) al quadrato tra ipunti (x , y)
osservati e le loro proiezioni sulla retta (x , a + bx)
:
∑ (yi - a - bxi)2 = ei
Tale retta, detta di regressione o dei minimi quadrati, è univocamente individuata dai coefficienti:
b̂ = σXY / σX2
â = ȳ - b̂x̄
Dall’espressione di â
si scopre che la retta di regressione passa per il baricentro (x̄, ȳ
) della nuvola dei punti. Inoltre, poichè:
∑ ei = 0
allora:
∑ ei2 = σ2
è la varianza dei residui dalla retta di regressione. Poichè:
σ2 = σr2 + σe2
si ottiene che:
- la bontà di adattamento dei punti alla retta di regressione può essere facilmente calcolata come:
∑ (1 - r2) = nσe2
- la varianza totale di Y può essere rappresentata come:
σ2 = σY2
come somma2σ XY22 += σσ eY 2σX2della varianza dei residui (anche detta varianza residua) e la varianzadelle proiezioni dei punti osservati sulla retta2σ XY2 2σ = σ = 2Ŷ â+b̂x σXanche detta varianza spiegata dalla retta di regressione.
Nel caso i dati siano disponibili attraverso una distribuzione di fre-quenze assolute si ha:∑ ∑ ∑ ∑H K H K1 1− − −σ = (x x̄)(y ȳ)n = x y n x̄ȳXY h k hk h k hkn nh=1 k=1 h=1 k=1
2 Esercizi
1. Data la seguente distribuzione doppia
X Y
8 -9.5
11 0.446
-6.29 -5.579
-7.607 -8.542
-0.505 -4.523
-3.35 10
-10.56
Dopo aver disegnato il diagramma a dispersione dei punti, calco-lare
(a) la covarianza tra X e Y
(b) la correlazione tra X e Y
(c) intercetta e coefficiente angolare della retta di regressione y =a + bx
(d) la proiezione di Y corrispondente a x = 4.1
(e) la somma dei residui al quadrato e la varianza dei residui
(f) la varianza spiegata dalla retta di regressione
(g)
Per formattare il testo utilizzando tag HTML, puoi utilizzare il tag per indicare un nuovo paragrafo e il tag per evidenziare il testo in grassetto. Ecco come potrebbe apparire il testo formattato:
Verificare la decomposizione della varianza totale di y nella somma di varianza dei residui e varianza spiegata.