Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
CONCLUSIONE
Dopo questa analisi è possibile notare che in Italia tra il 2000 e il 2009 c’è stato un decremento lineare nel
numero dei matrimoni (col procedere degli anni il numero dei matrimoni diminuisce progressivamente, ossia le
due variabili sono correlate inversamente). Come postulato da questa relazione quindi il numero dei matrimoni
è correlato con lo scorrere degli anni e probabilmente ciò è anche determinato da una cambiamento sociale che
prevede percorsi di studi più lunghi, maggiori possibilità di carriera soprattutto per le donne e media di
lunghezza della vita più alta, senza contare che molte coppie optano per un’unione di fatto invece di scegliere la
via matrimoniale. Per tutte queste ragioni probabilmente le persone tendono a posticipare negli anni la
decisione di sposarsi e costruire una famiglia o addirittura decide di rinunciarvi.
Essendo il coefficiente di correlazione vicino ad 1 possiamo vedere che questo legame tra variabili è forte, tesi
confermata anche dal test di significatività, ben maggiore del valore critico.
SEPARAZIONI:
Diagramma di Dispersione
Numero di separazioni nei dieci anni tra il 2000 e il 2009 sono variati in modo lineare?
x 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
y 71969 75890 79642 81744 83179 82291 80407 81359 84165 85945
! 9
90000
85000
80000
75000
70000 0 1 2 3 4
! La variabile indipendente X che rappresenta gli anni è stata descritta con dei numeri naturali da 1 a 10.
Retta di Regressione
Quando stimiamo la relazione lineare fra una variabile dipendente Y e una variabile indipendente X,
regrediamo Y rispetto ad X, producendo una relazione lineare bivariata o una regressione bivariata, in termini
algebrici: Y= a+bX
Dove Y (ordinata) coincide alla somma di una costante a (che corrisponde al punto in cui la retta intercetta
l’asse verticale, ovvero il valore di Y quando X=0) più il valore di b (il gradiente, cioè l’inclinazione della retta)
moltiplicato per X.
I ricercatori sociali di norma presuppongono che le variabili siano correlate in modo lineare a meno che non sia
evidente l’esistenza do una correlazione non lineare, come nel caso di una curva gaussiana o logaritmica.
Il punto di partenza è un’equazione predittiva, nella quale ad ogni valore di X (v. indipendente) ne corrisponde
una di Y (v. dipendente):
= a +
Tuttavia i dati analizzati dai ricercatori sociali non sono mai delle perfette relazioni lineari, bisogna perciò
valutare l’esistenza di un errore (detto anche residuo), che misura la discrepanza fra i valori osservati di Y e
quelli attesi in base all’equazione di regressione lineare.
L’errore è detto “residuo” in quanto rappresenta la quantità che rimane dopo aver sottratto l’equazione
predittiva dal modello di regressione lineare:
- = [a + + ] – [a + ] =
Coefficiente di Regressione ! 10
L’analisi di regressione stima i valori di a e b utilizzando i dati osservati. Compito del modello è minimizzare i
residui.
Il criterio dei minimi quadrati:
Esso permette di stimare l’equazione; secondo questo criterio (OLS → stima dei minimi quadrati comuni) la
somma delle differenze al quadrato deve essere minima.
La stima dei minimi quadrati per il coefficiente di regressione bivariata è calcolata come:
L’intercetta si può ricavare dall’equazione predittiva dopo aver trovato : a = -
Per poter effettuare tutti i calcoli si può costruire una tabella, come quella che segue, che contiene tutte lòe
informazioni necessarie per calcolare e a. X = 5,5 Y = 80659,10
( - M(x)) ( - M(y)) ( - M(x)) ( - M(y)) ( - M(x) ( - M(y)
-4,5 -8690,10 39105,45 20,25 74116602,81
-3,5 -4769,10 16691,85 12,25 22744314,81
-2,5 -1017,10 2542,75 6,25 1034492,41
-1,5 1084,90 -1627,35 2,25 1177008,01
-0,5 2519,90 -1259,95 0,25 6349896,01
0,5 1631,90 815,95 0,25 2663097,61
1,5 -252,10 -378,15 2,25 63554,41
2,5 699,90 1749,75 6,25 489860,01
3,5 3505,90 12270,65 12,25 12291334,81
4,5 5285,90 23786,55 20,25 27940738,81
93697,50 ( - M(y) = 148870899,70
= 82,50
Nel nostro caso:
= = 1135,73 [INCLINAZIONE DELLA RETTA DI REGRESSIONE]
a = 80659,10 – (1135,73 * 5,5) = 80659,10 – 6246,52 = 74412,58
[PUNTO IN CUI LA RETTA DI REGRESSIONE TOCCA L’ASSE Y CON X = 0]
! 11
Inoltre:
Il numeratore di diviso per N-1 determina la covarianza indicata come :
= = = = 10410,83
Il denominatore di diviso per N-1 determina la varianza di X, indicata come :
= = = = 9,16
Dato che N-1 appare nel denominatore di covarianza e varianza campionaria questo viene eliminato nel
rapporto tra le due il quale risulta uguale a . Dunque lo stimatore può anche essere espresso come:
Per determinare la forza della covariazione scomponiamo gli effetti:
Dove:
= Esprime la differenza tra osservazione e valore atteso:
= Esprime la parte di valore osservato attribuibile alla relazione lineare tra Y e X.
COEFFICIENTE DI DETERMINAZIONE
Un modo per determinare la forza della covariazione tra due variabili è misurare la vicinanza tra i valori
osservati e quelli prodotti dalla retta di regressione stimata.
La variazione di Y è dovuta sia all’effetto esercitato da X sia dall’errore causale; possiamo dividere la somma
dei quadrati totale in una componente sistematica ed in una casuale.
Se vogliamo conoscere la quota di variazione attribuibile al modello di regressione:
= =
Quindi →
Nel nostro caso:
= = = 16541211,08 ! 12
= = 0,72
Possiamo dunque affermare che la variabile Y è influenzata per l’72% dalla variabile X, quindi l’72% della
variazione osservata nel numero delle separazioni è data dallo scorrere del tempo.
COEFFICIENTE DI CORRELAZIONE DI PEARSON
È la radice quadrata del coefficiente di determinazione .
= = 0,84
Se è -1 rappresenta una relazione inversa perfetta tra le variabili, se è uguale a zero indica l’inesistenza di
relazioni e se è uguale a 1 abbiamo una relazione diretta perfetta.
In questo caso abbiamo una relazione diretta non totalmente perfetta; le due variabili hanno una relazione
direttamente proporzionale.
TEST DI SIGNIFICATIVITA’ PER I COEFFICIENTI DI REGRESSIONE
Il test di significatività del coefficiente di determinazione consente di trarre inferenze sulla popolazione a
partire dai dati campionari.
Il test di significatività statistica per fa ricorso alla distribuzione F. La somma dei quadrati della regressione,
essendo stimata a partire da possiede solo un grado di libertà. La somma dei gradi di libertà può essere
suddivisa in due come la somma dei quadrati totali, perciò:
N-1 = 1 + → = N-2
Nel nostro caso:
= 10-2 = 8
= * * (N-1) = 0,72 * 16541211,08 * 9 = 107187047,80
* (N-1) = 16541211,08 * 9 = 148870899,70
[= * = 0,72* 148870899,70 = 107187047,80]
- 148870899,70 – 107187047,80 = 41683851,90
= = 5210481,49
= = = 20,57
Poniamo α = 0,01, in quanto un α “piccolo” riduce le possibilità di errore.
! 13
Il valore critico è 11,26. Essendo F superiore a questo valore il test di significatività può dirsi convalidato.
CONCLUSIONE
Dopo questa analisi è possibile notare che in Italia tra il 2000 e il 2009 c’è stato un incremento lineare nel
numero delle separazioni (col procedere degli anni il numero delle separazioni aumenta, ossia le due variabili
sono correlate inversamente). Come postulato da questa relazione quindi il numero delle separazioni è correlato
con lo scorrere degli anni.
Essendo il coefficiente di correlazione vicino ad 1 possiamo vedere che questo legame tra variabili è forte, tesi
confermata anche dal test di significatività, ben maggiore del valore critico.
DIVORZI:
Diagramma di Dispersione ! 14
Numero di divorzi nei dieci anni tra il 2000 e il 2009 sono variati in modo lineare?
x 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
y 37573 40051 41835 43856 45097 47036 49534 50669 54351 54456
60000
45000
30000
15000
0 0 1 2 3 4
! La variabile indipendente X che rappresenta gli anni è stata descritta con dei numeri naturali da 1 a 10.
Retta di Regressione
Quando stimiamo la relazione lineare fra una variabile dipendente Y e una variabile indipendente X,
regrediamo Y rispetto ad X, producendo una relazione lineare bivariata o una regressione bivariata, in termini
algebrici: Y= a+bX
Dove Y (ordinata) coincide alla somma di una costante a (che corrisponde al punto in cui la retta intercetta
l’asse verticale, ovvero il valore di Y quando X=0) più il valore di b (il gradiente, cioè l’inclinazione della retta)
moltiplicato per X.
I ricercatori sociali di norma presuppongono che le variabili siano correlate in modo lineare a meno che non sia
evidente l’esistenza do una correlazione non lineare, come nel caso di una curva gaussiana o logaritmica.
Il punto di partenza è un’equazione predittiva, nella quale ad ogni valore di X (v. indipendente) ne corrisponde
una di Y (v. dipendente):
= a +
Tuttavia i dati analizzati dai ricercatori sociali non sono mai delle perfette relazioni lineari, bisogna perciò
valutare l’esistenza di un errore (detto anche residuo), che misura la discrepanza fra i valori osservati di Y e
quelli attesi in base all’equazione di regressione lineare.
L’errore è detto “residuo” in quanto rappresenta la quantità che rimane dopo aver sottratto l’equazione
predittiva dal modello di regressione lineare: ! 15
- = [a + + ] – [a + ] =
Coefficiente di Regressione
L’analisi di regressione stima i valori di a e b utilizzando i dati osservati. Compito del modello è minimizzare i
residui.
Il criterio dei minimi quadrati:
Esso permette di stimare l’equazione; secondo questo criterio (OLS → stima dei minimi quadrati comuni) la
somma delle differenze al quadrato deve essere minima.
La stima dei minimi quadrati per il coefficiente di regressione bivariata è calcolata come:
L’intercetta si può ricavare dall’equazione predittiva dopo aver trovato : a = -
Per poter effettuare tutti i calcoli si può costruire una tabella, come quella che segue, che contiene tutte lòe
informazioni necessarie per calcolare e a. X = 5,5 Y = 46445,8
( - M(x)) ( - M(y)) ( - M(x)) ( - M(y)) ( - M(x) ( - M(y)
-4,5 -8872,80 39105,45 20,25 78726579,84
-3,5 -6394,80 16691,85 12,25 40893467,04
-2,5 -4610,80 2542,75 6,25 21259476,64
-1,5 -2589,80 -1627,35 2,25 6707064,04
-0,5 -1348,80 -1259,95 0,25 1819261,44
0,5 590,20 815,95 0,25 348336,04
1,5 3088,20 -378,15 2,25 9536979,24
2,5 4223,20 1749,75