vuoi
o PayPal
tutte le volte che vuoi
R
della media. La bontà del modello si evince calcolando indice di determinazione
SQ −SQ
y e
2
R = SQ y
è
L’ Indice di determinazione sempre compreso tra -1 e +1, in particolare se
SQ
2
R e
-Indice = 1 e = 0 la retta passa per tutti i punti osservati ( retta bisettrice di
à
quadrante) massima qualit di regressione
SQ
2
R e
-Indice =0 e = max la retta e i punti osservati non si incontrano (retta orizzontale)
0
2
R 0
-Indice = (zero su zero) forma indeterminata (retta orizzontale che tocca tutti i punti)
SQ SQ
è e y
Normalmente una regressione migliore tanto più < SQ
è y
-Se non potessimo utilizzare la retta di regressione possibile utilizzare i valori di ( che
rappresenta la pendenza totale)
2 2
R R
è
- Il complemento a 1 d i 1- , viene anche chiamato indice di Terminazione o
à
Alienazione e rappresenta la variabilit della Y non spiegata dalla regressione
2
R
Un’ altro modo di spiegare l’ indice è definirlo come indicatore di varianza condivisa fra la
variabile dipendente e l’ indipendente. Ciò si comprende ricordando che la regressione è in grado
di spiegare la variabilità se una parte del punteggio della variabile dipendente varia al punteggio
della variabile indipendente. Dunque una parte della variabilità della variabile dipendente coincide
2
R
con quella indipendente. indica la proporzione di varianza condivisa tra le due variabili
Calcolare i coefficienti della retta di regressione
x , y , x
Negli esercizi a volte capita di avere solamente i valori di X e Y ( ….ecc) e di
1 1 2
dover scrivere la retta di regressione con tanto di coefficienti. Procediamo per passaggi
1) Si scrive la retta esplicitando la variabile dipendente, quindi y = a + bx 5
x y
́ ́
2) Si calcola la media delle X ossia e quella delle Y ossia x
́
3) Si calcola un’ altra media moltiplicando la media delle X per quella delle Y ossia ∙
y
́ x y x
4) Si moltiplicano tutti i valori delle X per i corrispettivi delle Y ( ∙ + ∙
1 1 2
y xy
́
…ecc ) poi con i valori ottenuti si calcola un’ altra media chiamata
2
5) Si elevano al quadrato tutti i valori della variabile indipendente (X in questo caso) e vi si fa
́ 2
x
una nuova media che prende il nome di
Calcolati questi valori è possibile ricavare il valore di b, coefficiente della x (coefficiente di
regressione) nella formula della retta di regressione 2
x
́ ¿
́
2
x −¿
b = xy x ∙ y
́ ́ ́
−
¿
altra formula è
2
X x
́
− ¿ Cov X , Y
( )
¿
b = =
∑ x y
́ ́ var X)
(X − )∙(Y − ) (
¿
Mentre la a (intercetta) si calcola: y x
a = - b ∙
́ ́
2
R
Per calcolare partendo dalle stesse premesse occorre procedere cosi 6
̂
Y
1) È necessario ricavarsi tutti i valori osservati di Y, ossia quei valori indicati con ^ ( ) e
per calcolarli basta sostituire all’ equazione y = a + bx progressivamente i valori di x,
tenendo presente che i coefficienti a e b li abbiamo calcolati con le pretendenti formule, e
quindi li abbiamo disponibili da inserire.
̂
Y
( Y - )
2) Si esegue il passaggio ossia si sottrae progressivamente a ogni valore delle y i
y
̂ ( Y -
corrispettivi delle , dopo di che questi valori ricavati si elevano al quadrato
̂ 2
Y ¿ dopo questo passaggio è sufficiente sommare i singoli valori ottenuti per
SQ
calcolare la devianza residua e
́
Y
3) Si esegue il passaggio ( Y - ) ossia si sottrae progressivamente a ogni valore delle y il
y
́
valore della media delle y ossia . Si prosegue elevando al quadrato i valori risultanti
́
Y 2
¿
( Y- dopo questo passaggio si sommano i singoli risultati ottenuti e si ottiene la
SQ
devianza totale y
2
R
4) Si calcola con l’ opportuna formula
Capitolo 3: la regressione multipla
Si definisce regressione multipla una regressione con più di due variabili. In presenza di più di una
variabile indipendente lo scatterplot diventa multidimensionale, con una dimensione per ogni
variabile del modello. È possibile visualizzare lo scatterplot solo quando le dimensioni sono 3,
ossia quando abbiamo una variabile dipendente e 2 indipendenti (con più variabili sarebbe troppo
complesso da rappresentare).
La regressione multipla non è più definita da una retta, bensì da un piano, essendo lo scatterplot a
3 dimensioni. Tale piano si presenta sotto forma dell’ equazione
y b x b w
∙ + ∙
= a +
i x i w i
Oppure la si può scrivere come a lezione
b b
Z = a + ∙ X + ∙ Y
x y
Per semplicità utilizzeremo quest’ ultima notazione 7
Il coefficiente costante o intercetta, a , indica il valore atteso della variabile dipendete quando le
variabili indipendenti sono uguali a 0. Geometricamente è il punto in cui il piano di regressione
interseca l’ asse delle Z (variabile dipendente)
b x
Il coefficiente associato ad una variabile indipendente X nel contesto della regressione
multipla si interpreta come il cambiamento atteso nella variabile dipendete Z per ogni unita della
variabile indipendente X tenendo costanti le altre variabili indipendenti. In altre parole esso indica
quando cambia in media il valore della variabile dipendente aumentando il punteggio della
variabile indipendente di una unità. Sulla base di queste nozioni i coefficienti di regressione
multipla sono detti effetti o coefficienti parziali. ( praticamente indica il cambiamento atteso
nella variabile dipendente Z, per ogni unità in più della variabile indipendente X, calcolato
fissando a 0 il valore dell’ altra variabile indipendente Y).
b x
Inoltre il coefficiente indica quanto il piano appare inclinato ponendoci davanti all’ asse
definito da quella variabile.
Il coefficiente standardizzato: si ottiene se si compie una regressione multipla dopo aver
standardizzato tutte le variabili, cioè dopo aver calcolato i punteggi z di tutte le variabili.
Se le altre variabili sono tenute costanti, esse non possono avere effetto sulla dipendente.
Ma per tenere costante una variabile dobbiamo rimuovere dai calcoli la sua variabilità, tale
rimozione è detta Parzializzazione. Ossia si studia in che modo due variabili siano correlate
una volta rimossa l’ influenza della terza.
Il procedimento è il seguente, se per esempio si vogliono rimuovere gli effetti della variabile
indipendente X:
1) Residui della regressione di Z su X (parte di Z che non dipende da X )
̂
Y ∙
2) Regressione di Y su X ossia = c + d X
3) Residui della regressione di Z su Y (parte di Z che non dipende da Y )
̂
Z ∙
4) regressione di Z su X ossia = e + f X
5) Correlazione tra residui di Z con X e quelli di Y con X
Di solito negli esercizi viene direttamente dato il valore delle correlazioni tra le diverse variabili
La correlazione tra: r zx
Z e X si indica con r zy
Z e Y si indica con r xy
X e Y si indica con
Ora andrà calcolato il coefficiente di parzializzazione o coefficiente di correlazione parziale
tramite questa formula 8
r ∙ r
−(r )
zx zy xy
r =
zx . y √ √
2 2
1−r ∙ 1−r
zy xy
Il coefficiente di correlazione parziale va confrontato con il valore di correlazione di Z con X.
r r
• zx zx.y
Se è maggiore, uguale o simile a la variabile Y non influisce
significativamente sul legame tra X e Z
r r
• zx.y zx
Se è significativamente maggiore di la variabile Y influenza la forza del
legame tra X e Z
Risultati: se il valore della correlazione parziale tra X e Y è molto più piccolo di quello iniziale
significa che il legame tra X e Y dipende da Z
Il coefficiente di correlazione parziale al quadrato esprime il contributo unico della variabile
indipendente come rapporto tra la variabilità spiegata unicamente dalla variabile indipendente e la
variabilità non spiegata dalle altre variabili indipendenti (contributo unico di una variabile alla
)
varianza non spiegata dai contributi delle altre
Vi è un’ altra applicazione della parzializzazione che viene chiamata semi-parzializzazione
Essa punta a rimuovere gli effetti di una variabile indipendente dall’ altra variabile indipendente.
r z(x.y ) questa nomenclatura indica la semiparzializzazione in questo caso si rimuove l’ effetto
della y dalla x. 2
2 2 r
R r
= + z(x.y
z .xy zy )
2 2 2
r R −r
z z.xy zy
(x.y )
2
r = =
zx.y 2
2 1−r
1−r zx
zx
La formula diventa la seguente 2 2
R −r
z . xy zy
2
r =
zx.y 2
1−r zx 9
√
2 2 r
r r zx . y
zx.y
Ovviamente va fatta la radice di ossia per calcolare che andrà
zx.y
r zx
poi confrontato con
Altra formula nella semi-parzializzazione è la seguente, da usare a seconda dei valori a
disposizione r r ∙ r
−( )
zx zy xy
r =
zx.y √ 2
1−r xy
Capitolo 5: la moderazione
Nei modelli di relazioni multiple visti finora, abbiamo notato che l’ effetto di una variabile
indipendente è sempre calcolato tenendo costanti le altre variabili. Il valore numerico a cui le altre
variabili indipendenti sono tenute costanti è ininfluente, in quanto assumiamo che l’ effetto sia
uguale per qualsiasi livello delle altre variabili indipendenti. In molte situazioni di ricerca, tuttavia,
questi modelli non sono sufficienti a spiegare le reazioni multiple tra variabili. Il motivo è che l’
assunzione che l’ effetto di una variabile indipendente sia costante a tutti i livelli può risultare
insostenibile. Quindi si entra in una situazione in cui la variabile indipendente Y influenza il modo in
cui l’ altra variabile indipendente X influenza la variabile dipendente Z. Diremo quindi che Y
modera l’ effetto di X su Z, ossia è la moderatrice tra X e Z. Se una variabile indipendente
modera l’ effetto di un’ altra variabile indipendente, l’ interpretazione pratica degli effetti cambia.
Quando l’ effetto di una variabile indipendente varia al variare dei livelli di un’ altra variabile siamo
in presenza di un interazione fra variabili indipendenti. Il modello che lo studia si chiama
regressione moderata b b b
∙ ∙ ∙ ∙
x y i
Z = a + X + Y + X Y
Questo modello è in grado di stimare qu