Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
TOTALE
quadrato di ciascun valore dalla media generale di tutti i gruppi Y. La Somma dei Quadrati totale prevede
due tipologie di calcolo : la Somma dei Quadrati Intergruppo, ovvero la somma delle deviazioni al quadrato
di ciascuna media di gruppo dalla media generale dei gruppi, e la Somma dei Quadrati Intragruppo, ovvero
la somma delle deviazioni al quadrato delle osservazioni di ciascun gruppo dalla media di quel gruppo. La
Somma dei Quadrati nei gruppi, SQ , esprime l’influenza di fattori non misurati, mentre la Somma
INTRAGRUPPO
dei Quadrati tra i gruppi, SQ , esprime l’effetto complessivo esercitato sulla variabile dipendente
INTERGRUPPO
continua dalla variabile indipendente discreta.
SQ = SQ + SQ
TOTALE INTRAGRUPPO INTERGRUPPO
– “Analisi statistiche relative al tasso di disoccupazione in Italia”
Vavassori Denise 13
2 2 2
7 (5,59 – 8,55) + 7 (7,23 – 8,55) + 6 (13,53 – 8,55) = 61,75 + 12,19 + 148,80 = 222,74
2 2 2 2 2 2 2
(4,4-5,59) + (7,6-5,59) +(5,6-5,59) +(3,5-5,59) +(5,8-5,59) +(5,7-5,59) +(6,5-5,59) +
2 2 2 2 2 2 2
(5,7-7,23) +(6,1-7,23) +(6,6-7,23) +(5,7-7,23) +(9,3-7,23) +(8,8-7,23) +(8,4-7,23) +
2 2 2 2 2 2
(14-13,53) +(13,5-13,53) +(13-13,53) +(11,9-13,53) +(14,7-13,53) +(14,1-13,53)
= 10,70+14,47+4,85 = 30,02
SQ = 222,74 + 30,02 = 252,76
TOTALE
Se SQ = SQ tutta la variazione nei tassi di disoccupazione sarebbe dovuta ad “errore”, cioè a
TOTALE INTRAGRUPPO
fattori casuali; mentre se SQ = SQ tutta la variazione osservata nei tassi di disoccupazione
TOTALE INTERGRUPPO
sarebbe attribuibile all’area geografica. Nessuna singola variabile indipendente può essere in grado di
spiegare tutta la variazione osservata in una variabile dipendente.
Il passo successivo nell’analisi della varianza prevede il calcolo dei quadrati medi corrispondenti a
SQ e SQ , entrambi rappresentano la stima di una varianza, rispettivamente attribuibile
INTERGRUPPO INTRAGRUPPO
agli effetti del gruppo e attribuibile all’errore.
QM viene calcolato dividendo SQ per l’appropriato numero di gradi di libertà, pari a J-1.
INTERGRUPPO INTERGRUPPO =
I risultati evidenziano la netta superiorità del QM rispetto al QM , questo testimonia
INTERGRUPPO INTRAGRUPPO
l’esistenza di un effetto di gruppo significati. J-1 e N-J rappresentano i gradi di libertà, cioè il numero di
valori liberi di variare. L’ultima parte dell’analisi della varianza prevede di ricavare il valore della statistica F,
ricordando che viene calcolata come rapporto tra i due quadrati medi, determinando in tal modo quanto
maggiore deve essere il QM rispetto al QM affinché l’ipotesi nulla possa essere rifiutata.
INTERGRUPPO INTRAGRUPPO
F – 1; N – J = F – 1 ; N – J > α
J J
Se il quoziente ottenuto è maggiore del valore critico associato ad un dato livello α, rifiuterò l’ipotesi nulla e
concluderò che la variabile indipendente influenza la variabile dipendente in modo significativo.
F = = 63,2784090909 = 63,28
2;17
Il quoziente F ottenuto è maggiore del valore critico associato al livello di probabilità 0,01 = 6,11; pertanto
si rifiuta l’ipotesi nulla. 2
Una volta rifiutata l’ipotesi nulla si deve calcolare il Quoziente di correlazione, o eta-quadrato, o η , per
stimare la forza della relazione tra le variabili oggetto di analisi. Il valore di eta-quadrato è sempre
compreso tra 0 e 1, maggiore è la differenza complessiva tra le medie, minori sono le varianze campionarie,
2
maggiore è la somma dei quadrati tra i gruppi, più il valore di η sarà vicino a 1.
– “Analisi statistiche relative al tasso di disoccupazione in Italia”
Vavassori Denise 14
L’88% della varianza osservata sul tasso di disoccupazione in Italia relativo all’anno 2010 è spiegato dalla
regione di appartenenza. A questo punto verrà inserita la tavola ANOVA relativa al tasso di disoccupazione
in Italia nel 2010. F
Fonte SQ gl QM
Fra i gruppi 222,74 2 111,37 63,28 0,88 88,12 %
Nei gruppi 30,02 17 1,76
Totale 252,76
– “Analisi statistiche relative al tasso di disoccupazione in Italia”
Vavassori Denise 15
Capitolo 4 : L’analisi dei dati categoriali - Il livello di istruzione influisce sulla
disoccupazione?
Una tavola di contingenza bivariata rappresenta il modo in cui due variabili discrete si manifestano
congiuntamente in un certo insieme di osservazioni; la tavola è formata da 7 colonne e 20 righe. Avendo a
nostra disposizione i tassi di istruzione secondaria e terziaria, in percentuale, e la popolazione considerata,
espressa in migliaia, abbiamo calcolato le frequenze.
Regioni T. D. 2010 Popolazione Istruzione Frequenza ist. Istruzione Frequenza ist.
Secondaria secondaria terziaria terziaria
109 49,7
Valle d’Aosta 4,4 54,173 15,8 17,222
Piemonte 7,6 3844 43,4 1668,296 20,1 772,644
Lombardia 5,6 8395 42,4 3559,480 22,8 1914,06
Trentino Alto Adige 3,5 855 41,4 353,970 22,1 188,955
4178 42,8
Veneto 5,8 1788,184 18,6 777,108
Friuli Venezia Giulia 5,7 1069 41,3 441,497 19,6 209,524
1420 37,1
Liguria 6,5 526,820 24,8 352,16
3778 40,3
Emilia Romagna 5,7 1522,534 20,8 785,824
3243 45,4
Toscana 6,1 1472,322 20,8 674,544
781 35,9
Umbria 6,6 280,379 25,6 199,936
1362 42,7
Marche 5,7 581,574 25 340,5
4844 35,1
Lazio 9,3 1700,244 26,2 1269,128
1161 41,5
Abruzzo 8,8 481,815 20,9 242,649
Molise 8,4 279 47,0 131,130 24,4 68,076
4849 54,1
Campania 14 2623,309 12,9 625,521
3464 55,9
Puglia 13,5 1936,376 15,4 533,456
507 46,9
Basilicata 13 237,783 19,8 100,386
1716 49,5
Calabria 11,9 849,420 19,2 329,472
4256 53,9
Sicilia 14,7 2293,984 14,6 621,376
1460 54,9
Sardegna 14,1 801,540 16,8 245,28
51571 23250,657 10267,821
Difficilmente una tavola di contingenza sarà utile a stabilire se due variabili covariano, e, in caso positivo, in quale
modo, infatti quando le due variabili che formano la tavola sono caratterizzate da distribuzioni di frequenze
diverse, è complicato confrontare direttamente le celle tra loro. È quindi necessario standardizzare la tavola di
contingenza tramite un denominatore comune, in modo da rendere visibile la forma della covariazione
Dalle percentuali regionali delle frequenze si calcolano le frequenze percentuali di colonna per poter confrontare
direttamente le varie celle, si standardizza la tavola delle frequenze utilizzando un denominatore comune.
REGIONI Istruzione Istruzione TOTALE Percentuali ist. Percentuali ist. TOTALE
secondaria terziaria secondaria terziaria
Valle d’Aosta 54,173 17,222 71,395 0,232 0,168 0,213
Piemonte 1668,296 772,644 2440,940 7,159 7,525 7,271
Lombardia 3559,480 1914,060 5473,540 15,274 18,641 16,304
Trentino Alto Adige 353,970 188,955 542,925 1,519 1,840 1,617
Veneto 1788,184 777,108 2565,292 7,673 7,568 7,641
Friuli Venezia Giulia 441,497 209,524 651,021 1,894 2,041 1,939
Liguria 526,820 352,160 878,980 2,261 3,430 2,618
Emilia Romagna 1522,534 785,824 2308,358 6,533 7,653 6,876
Toscana 1472,322 674,544 2146,866 6,318 6,569 6,395
– “Analisi statistiche relative al tasso di disoccupazione in Italia”
Vavassori Denise 16
Umbria 280,379 199,936 480,315 1,203 1,947 1,431
Marche 581,574 340,500 922,074 2,496 3,316 2,747
Lazio 1700,244 1269,128 2969,372 7,296 12,360 8,845
Abruzzo 481,815 242,649 724,464 2,067 2,363 2,158
Molise 131,130 68,076 199,206 0,563 0,663 0,593
Campania 2623,309 625,521 3248,830 11,257 6,092 9,677
Puglia 1936,376 533,456 2469,832 8,309 5,195 7,357
Basilicata 237,783 100,386 338,169 1,020 0,978 1,007
Calabria 849,420 329,472 1178,892 3,645 3,209 3,511
Sicilia 2293,984 621,376 2915,360 9,843 6,052 8,684
Sardegna 801,540 245,280 1046,820 3,439 2,389 3,118
TOTALE 23304,830 10267,821 33572,651 100 100 100
Per verificare la covariazione e che essa sia vera, bisogna effettuare il test chi quadrato di significatività statistica
per verificare se le due variabili sono indipendenti dalla popolazione di riferimento. L’ipotesi nulla afferma che
nella popolazione non esista covariazione tra le variabili prese in considerazione; l’ipotesi alternativa, invece,
sostiene che le due variabili sono correlate nella popolazione come lo sono nel campione. Il test chi-quadrato
confronta le frequenze di cella osservate con quelle attese in base all’ipotesi nulla.
Per calcolare le frequenze attese in base all’ipotesi nulla bisogna utilizzare i marginali di riga i, i marginali di
colonna j e la numerosità del campione N. ˆ =
f
REGIONI Frequenze Frequenze TOTALE Percentuali Percentuali Percentuali Percentuali TOTALE
Assolute Assolute colonna colonna riga colonna
istruzione istruzione istruzione istruzione istruzione istruzione
secondaria terziaria secondaria terziaria secondaria terziaria
Valle d’Aosta 49,559 21,835 71,395 0,21 0,21 69,42 3058 100,00
Piemonte 1694,397 746,534 2440,931 7,27 7,27 69,42 30,58 100,00
Lombardia 3799,500 1674,021 5473,521 16,30 16,30 69,42 30,58 100,00
Trentino Alto Adige 376,876 166,048 542,923 1,62 1,62 69,42 30,58 100,00
Veneto 1780,717 784,566 2565,283 7,64 7,64 69,42 30,58 100,00
Friuli Venezia Giulia 451,911 199,108 651,019 1,94 1,94 69,42 30,58 100,00
Liguria 610,151 268,826 878,977 2,62 2,62 69,42 30,58 100,00
Emilia Romagna 1602,364 705,986 2308,350 6,88 6,88 69,42 30,58 100,00
Toscana 1490,263 656,595 2146,858 6,39 6,39 69,42 30,58 100,00
Umbria 333,414 146,899 480,313 1,43 1,43 69,42 30,58 100,00
Marche 640,065 282,006 922,071 2,75 2,75 69,42 30,58 100,00
Lazio 2061,212 908,149 2969,362 8,84 8,84 69,42 30,58 100,00
Abruzzo 502,892 221,569 724,461 2,16 2,16 69,42 30,58 100,00
Molise 138,280 60,925 199,205 0,59 0,59 69,42 30,58 100,00
Campania 2255,200 993,618 3248,819 9,68 9,68 69,42 30,58 100,00
Puglia 1714,453 755,371 2469,823 7,36 7,36 69,42 30,58 100,00
Basilicata 234,743 103,425 338,168 1,01 1,01 69,42 30,58 100,00
Calabria 818,337 360,551 1178,888 3,51 3,51 69,42 30,58 100,00
Sicilia 2023,719 891,630 2915,350 8,68 8,68 69,42 30,58 100,00
Sardegna 726,658 320,158 1046,816 3,12 3,12 69,42 30,58 100,00
TOTALE 23304,712 10267,821 33572,533 100,00 100,00
2
La statistica X riassume le differenze tra le frequenze osservate e le frequenze attese in tutte le celle che formano
la tavola di contingenza. Maggiore è il valore della componente della statistica, maggiore è la differenza relativa tra
– “Analisi statistiche relative al tasso di disoccupazione in Italia”
Vavassori Denise 17
2
la frequenza attesa e quella osservata nella cella corrispondente. La statistica X viene calcolata :
ˆ
f
ˆ
f
2
Ad esempio il X relativo all’istruzione secondaria in Valle d’Aosta viene calcolato com