Che materia stai cercando?

Riassunti statistica Appunti scolastici Premium

è un riassunto di statistica con appunti presi durante le lezioni.tutto teorico, con formule. Gli argomenti sono: concetti teorici (cosa sono le modalità, la frequenza ecc), curva, indagini, popolazione e concetti demografici. Università degli Studi di Bari - Uniba. Scarica il file in formato PDF!

Esame di Elementi di statistica sociale e demografia docente Prof. M. Carella

Anteprima

ESTRATTO DOCUMENTO

 La sommatoria arriva fino a N-1 perché pi=qi=1;

Per trasformare questo indice in un indice di concentrazione relativo, variabile tra 0 e 1, basta

dividerlo per il suo valore massimo cioè: N-1

∑ pi

I=1

Rapporto di concentrazione di Gini

N-1

∑ (pi-qi) 0≤R≤1

I=1 N-1

∑ pi

I=1 0

R=0 → pi=qi → R= N-1

∑ pi

I=1

N-1i

∑ pi

I=1

R=1→qi=0→ R= N-1

∑ pi

I=1

MODULO PER IL CALCOLO

Xi I Pi= i/N Ai Qi=Ai/A (pi-qi)

N

X1 1 1/N A1=x1 A1/ A (p1-q1)

N

X2 2 2/N A2=x1+x2 A2/ A (p2-q2)

N

X3 3 3/N A3=x1+x2+x3 A3/ A (p3-q3)

N

…. … … ….. …. …

Xi I i/N Ai Ai/ A (pi-qi)

N

… … … …. …. ….

X N-1 N-1/N A A A (p q

N-1 N-1 N-1/ N N-1- N-1)

X N N/N A A A 0

N N N/ N

Esercizio CONCENTRAZIONE INTERMEDIA

xi Ni Frazioni Frazioni

cumulate cumulate

redditieri reddito

Reddito Redditieri i Ai=cumxi Pi=i/N Qi=Ai/A Pi-qi

N

100 A 1 100 ¼=0,25 100/1000=0,10 0,25-0,10=

0,15

200 B 2 300 2/4=0,50 300/1000=0,30 0,20

300 C 3 600 ¾=0,75 600/1000=0,60 0,15

400 D 4 1000 (A ) (4/4=1) (1000/1000=1) 0

N

1000 N=4 ∑pi= 1,5 ∑ 0,50

N-1

R=∑(pi-qi) =0,50 =0,33

I=1 1,5

N-1

R=∑pi

I=1

CONCENTRAZIONE NULLA (E QUIDISTRIBUZIONE)

xi Ni Frazioni Frazioni

cumulate cumulate

redditieri reddito

Reddito Redditieri i Ai=cumxi Pi=i/N Qi=Ai/A Pi-qi

N

0

R=∑pi

I=1

CONCENTRAZIONE MASSIMA

xi ni Frazioni Frazioni

cumulate cumulate

redditieri reddito

Reddito Redditieri i Ai=cumxi Pi=i/N Qi=Ai/A Pi-qi

N

0 A 1 0 ¼=0,25 0/1000=0 0,25-0=

0,25

0 B 2 0 2/4=0,50 0/1000=0 0,50

0 C 3 0 ¾=0,75 0/1000=0 0,75

1000 D 4 1000 (A ) (4/4=1) (1000/1000=1) 0

N

1000 N=4 ∑pi= 1,50 ∑ 1,50

N-1

R=∑(pi-qi) =1,50 =1

I=1 1,50

N-1

R=∑pi

I=1

LA CURVA DI CONCENTRAZIONE

Rappresentando graficamente i valori di pi (ascisse) e qi (ordinate) e congiungendo i punti otteniamo una

spezzata che prende il nome di curva di concentrazione o curva di Lorenz.

curva di concentrazione

1,2

1

0,8

0,6

0,4

0,2

0 0 0 0 1000

pi

Nel grafico si riporta anche la retta di equidistribuzione che è il segmento che congiunge il punto (0,0) al

punto (1,1).

La curva di concentrazione cambia la sua forma:

 Più è vicina alla retta di equidistribuzione e più l’ammontare totale del carattere è equidistribuito

fra le unità;

 Più è vicina all’asse delle ascisse e maggiore è la concentrazione del carattere.

Le distanze verticali tra la curva di concentrazione e la retta di equidistribuzione sono date dalle differenze

pi-qi, che prende il nome di area di concentrazione.

L’area del triangolo si calcola sottraendo all’area del triangolo OAB la somma delle aree degli n trapezi

rettangoli sotto la curva delineati dai punti pi e qi.

AREA DEL TRIANGOLO OAB= OB*BA/2 = 1*1/2 =1/2

OB= base maggiore

BA=base minore o altezza

AREA DI CONCENTRAZIONE DI UN GENERICO TRAPEZIO:

(base maggiore+base minore)*altezza/2

Base maggiore=qi

Base minore=q i-1

Altezza=pi-p

i-1

Avendo detto che l’area di concentrazione= area del triangolo OAB- somma delle aree dei trapezi e

dividendo tutto per il valore assunto da tale area nel caso di concentrazione massima cioè dividendo per

OAB si ottiene:

R= area del triangolo OAB – somma aree dei trapezi

Area del triangolo OAB

R= ½ - ½ ∑ (p -p )(q +qi )

i i-1 i -1

½

Con qualche passaggio algebrico si ottiene:

1-∑ (p -p )(q +qi )

i i-1 i -1

2 =

½

1-∑ (p -p )(q +qi ) * 2 =

i i-1 i -1

2

R=1-∑ (p -p )(q +qi )

i i-1 i -1

0≤R≤1

SLIDES 7

GLI INDICI DI FORMA sono indici sintetici utilizzati per trovare particolarità nella forma della distribuzione a

partire dallo studio della curva di frequenza.

ci sono due tipologie:

1. Indice di asimmetria

2. Curtosi

La curva di frequenza è una linea che congiunge i punti della rappresentazione grafica di un fenomeno.

Una distribuzione statistica è simmetrica quando la sua curva di frequenza presenta un’asse di simmetria.

L’asse di simmetria è determinato dal valore mediano che bipartisce la distribuzione in parti contenenti lo

stesso numero di osservazioni.

In una distribuzione simmetrica, la media, mediana e moda coincidono.

La distribuzione è asimmetrica quando non presenta nessun asse di simmetria e media, mediana e moda

non coincidono.

Si ha un’asimmetria positiva detta asimmetria destra quando il ramo destro della curva è più lungo di

quello sinistro.

La moda quindi sarà inferiore della mediana che sarà a sua volta inferiore della media.

(moda˂mediana˂media)

Si ha un’asimmetria negativa detta asimmetria sinistra quando il ramo sinistro della curva è più lungo di

quello destro.

La media quindi sarà inferiore della mediana che a sua volta sarà inferiore della moda.

(media˂mediana˂moda)

Per verificare la simmetria e misurare l’asimmetria si utilizzano alcuni indici:

1. Nel caso di curve simmetriche ᶙ=Me=Mo → si usa la differenza ᶙ-Me oppure ᶙ-Mo

2. Indice di asimmetria → S ᶙ - Mo → asimmetria = media aritmetica - moda

k= σ scarto quadratico medio

S =0 CURVA SIMMETRICA

K

S >0 (valori positivi) ASIMMETRIA POSITIVA (media>Moda)

K

S <0 (valori negativi) ASIMMETRIA NEGATIVA (media<Moda)

K

Per distribuzioni non molto asimmetriche vale la relazione:

ᶙ-Mo≡3(ᶙ-Me)

Indice di asimmetria= 3(media aritmetica-mediana)

Scarto quadratico medio -3≤S ≤+3

S =3(ᶙ-Me) K

k σ

coefficiente di asimmetria:

y =∑ (x - ᶙ)ᶟ (caso semplice)

1 i

Nσᶟ

y =∑ (x - ᶙ)ᶟ*n (caso ponderato)

1 i i

Nσᶟ

LA CURVA NORMALE è la curva continua che rappresenta le distribuzioni.

La distribuzione empirica che si incontra più frequentemente è quella in cui i valori estremi sono i più rari e

quelli centrali sono i più numerosi. Man mano che si passa dai valori più lontani ai valori più vicini a quelli

centrali, la frequenza di questi valori va crescendo.

La curva normale o curva degli errori accidentali fu proposta da Gauss e per questo viene chiamata

Gaussiana.

L’espressione algebrica della curva di Gauss è:

-(x-ᶙ)²

y= N e 2σ²

σ √2∏

dove:

e=2,71828 costante matematica( base dei logaritmi)

∏= costante matematica approssimata 3,14

σ=scarto quadratico medio della popolazione

(x-ᶙ)²=scarto dalla media della distribuzione al quadrato.

Caratteristiche della curva:

1. La curva presenta una forma simmetrica e campanulare

2. La curva è perfettamente simmetrica all’ordinata massima e rispetto al valore medio

3. Il valore di xi=ᶙ coincide anche con la mediana e la moda

4. La curva è asintotica all’asse delle ascisse da entrambi i lati

5. La curva è crescente per i valori della X che vanno da -8 (meno infinito) a ᶙ; è decrescente per i

valori che vanno da ᶙ a +8 (più infinito)

6. Presenta due punti di flesso in corrispondenza di ᶙ+σ e ᶙ-σ

La forma e la posizione della curva normale cambia al variare dei parametri:

- Se varia N: si hanno diverse curve normali sovrapposte

- Se varia ᶙ: varia la posizione dell’asse di simmetria sull’asse delle ascisse

- Se varia σ: varia la distanza tra asse di simmetria e punti di flesso della curva normale.

Se σ è piccolo, la curva è stretta ed allungata, se è grande, la curva si abbassa e si allarga.

CURVA NORMALE STANDARDIZZATA

Al variare di N, ᶙ e σ le curve subiscono dei cambiamenti e per questo si ricorre alla curva normale

standardizzata.

Nel passaggio dalla curva normale a quella standardizzata:

- Si utilizzano le frequenze relative per cui N=1,

- Si utilizzano gli scarti standardizzati → Zi= xi- ᶙ

σ

La distribuzione standardizzata Z ha il valore medio nullo (ᶙ=0) e lo scarto quadratico medio pari a 1 (σ=1).

L’equazione della curva normale standardizzata diviene pertanto:

-z²/2

y= 1 e

√ 2 ∏

La curva normale standardizzata, quindi, presenta le stesse caratteristiche della curva normale, ciò che le

distingue è che la curva normale standardizzata è rappresentata da una sola curva (perché la media

aritmetica=0 e lo scarto quadratico medio=1), mentre quella normale è costituita da infinite curve.

Non tutte le curve simmetriche sono normali.

Occorre quindi considerare le frequenze relative, standardizzare la distribuzione e confrontarla con la curva

normale standardizzata.

In caso di coincidenza la distribuzione è normale; in caso di non coincidenza ci possono essere due forme:

1. La curva iponormale: la curva è più schiacciata;

2. La curva ipernormale: la curva è più appuntita.

SLIDES 8

Condurre un’analisi bivariata significa tener conto contemporaneamente di due variabili per ciascuna unità

studiata.

La tavola di contingenza permette di esaminare congiuntamente due o più variabili.

Si tratta di una tabella a doppia entrata in cui è collocata una variabile in riga (variabile di riga) e l’altra in

colonna (variabile di colonna), mentre nelle celle definite dall’incrocio fra le righe e le colonne troviamo il

numero dei casi che presentano le corrispondenti modalità delle due variabili (frequenze congiunte).

Esempio ORIGINE

SOCIALE

Alta Media Bassa Totale

Conoscenza

inglese 61 79 34 174

Alta 18 189 55 262

Media 8 81 347 436

Bassa 87 349 436 872

Totale

Ultima riga= Totali delle frequenze delle colonne

Ultima colonna= Totali delle frequenze delle righe

All’interno della tabella= le frequenze delle coppie di modalità.

Per studiare la relazione tra due variabili si ricorre alle percentuali, che possono essere:

 Percentuali sul totale

 Percentuali di colonna

 Percentuali di riga.

PERCENTUALI DI COLONNA: ORIGINE

SOCIALE

Alta Media Bassa Totale

Conoscenza

inglese 61 = 70% 79 =23% 34 =8% 174 =20%

Alta 18 =21% 189 =54% 55 = 13% 262 =30%

Media 8 = 9% 81 =23% 347 =79% 436 =50%

Bassa 87 =100% 349 =100% 436 =100% 872 =100%

Totale

PERCENTUALI DI RIGA: ORIGINE

SOCIALE

Alta Media Bassa Totale

Conoscenza

inglese 61 = 35% 79 =45% 34 =20% 174 =100%

Alta 18 =7% 189 =72% 55 = 21% 262 =100%

Media 8 = 2% 81 =19% 347 =79% 436 =100%

Bassa 87 =10% 349 =40% 436 =50% 872 =100%

Totale

Si sceglie la percentuale di colonna quando si vuole analizzare l’influenza che la variabile posta in colonna

ha su quella riga.

Si sceglie la percentuale di riga quando si vuole analizzare l’influenza che la variabile posta in riga ha su

quella di colonna.

Ovvero, si definisce qual è la variabile indipendente e si percentualizza all’interno delle sue modalità.

PERCENTUALI SU TOTALE: ORIGINE

SOCIALE

Alta Media Bassa Totale

Conoscenza

inglese 61 =7% 79 =9% 34 =4% 174 =20%

Alta 18 =2% 189 =22% 55 = 6% 262 =30%

Media 8 =1% 81 =9% 347 =40% 436 =50%

Bassa 87 =10% 349 =40% 436 =50% 872 =100%

Totale

SLIDES 9

In una variabile statistica doppia si possono avere tre tipi di relazione tra X e Y: INDIPENDENZA,

DIPENDENZA, INTERDIPENDENZA.

Quando la Y non dipende dalla X, essa rimane costante al variare dei valori assunti da X. Nel caso contrario

la Y dipende ed è funzione di X.

Y è indipendente da x e quindi: n /n =n /N

ih oh io

X è indipendente da y e quindi: n / n n /N

ih io= oh

Nelle tabelle a doppia entrata perché ci sia indipendenza si deve verificare:

n / n n /N

ih io= oh

cioè

n n n

ih= io* oh

N

Per tutte le caselle della tabella.

L’INDIPENDENZA è RECIPROCA.

Se tutte le distribuzioni condizionate sono uguali (per riga e per colonna) allora il presentarsi di una

particolare modalità di un fenomeno, non è influenzato dal presentarsi dell’altro.

INDIPENDENZA IN MEDIA:

ᶙ =∑x n

h i ih

n

oh

h=1,2,…t

se ᶙ = ᶙ =… ᶙ

1 2 z

si ha INDIPENDENZA IN MEDIA di X da Y.

X Y TOTALI MEDIE

1 2 3 4

1 1 3 3 1 8 2,5

2 2 2 2 2 8 2,5

3 3 1 1 3 8 2,5

TOTALI 6 6 6 6 24 2,5

Medie Xh 2,33 1,67 1,67 2,33 2,00

Y1= (1*1)+(2*3)+(3*3)+(4*1)/8=2,5

Y2= (1*2)+(2*2)+(3*2)+(4*2)/8=2,5

Y3= (1*3)+(2*1)+(3*1)+(4*3)/8=2,5

X1=(1*1)+(2*2)+(3*3)/6=2,33

X2=(1*3)+(2*2)+(3*1)/6=1,67

X3=(1*3)+(2*2)+(3*1)/6=1,67

X4=(1*1)+(2*2)+(3*3)/6=2,33

MEDIA TOTALE Y= (1*8)+(2*8)+(3*8)/24=2

MEDIA TOTALE X= (1*6)+(2*6)+(3*6)+(4*6)/24=2,5

La dipendenza si ha quando la relazione è unidirezionale e uno dei due caratteri può essere considerato

antecedente e l’altro come conseguente; l’interdipendenza si ha quando i caratteri si influenzano

reciprocamente e non si può stabilire quale sia antecedente e quale conseguente.

Per lo studio della dipendenza utilizziamo la regressione che misura di quanto varia il carattere dipendente

al variare del carattere indipendente.

Lo studio della regressione consiste nella determinazione di una funzione matematica che esprima il

legame tra X ed Y.

La funzione scelta è quasi sempre quella della retta per cui: y= a+bx.

Se calcoliamo i valori di a e b, questa funzione può essere usata per prevedere il valore della variabile

dipendente Y a partire da qualsiasi valore della variabile indipendente X.

La retta rende minima la distanza tra la retta stessa e i punti dello scatter. Lo scatter è l’insieme di N punti,

ciascuno rappresentato dalla coppia di valori Xi e Yi e mette alla luce la relazione y=f(x).

La più adatta è la retta di regressione → y*=a+bx

Se esiste una relazione lineare i punti si distribuiscono vicino ad una retta, se invece non c’è alcuna

relazione i punti sono molto dispersi.

∑(y *-y )²=minimo

i i

∑(a+bx -y )²=minimo

i i

Mediante il metodo dei minimi quadrati, si determinano i due parametri:

b=∑(x -x)(y -y)

i i

∑(x -x)²

i

a=y-bx

a è il valore di y quando x=0 (è il punto in cui la retta di regression attraversa l’asse delle y)

b è il coefficiente angolare che misura l’inclinazione della retta.

IL COEFFICIENTE DI REGRESSIONE:

Nel caso di y dipendente da x, b esprime di quanto varia in media il carattere y al variare di una unità del

carattere x:

b=∑(x -x)(y -y)

i i

∑(x -x)²

i

Varia tra meno infinito e più infinito.

b= è la variazione della y per una variazione unitaria della x;

- se per esempio b valesse 10, al crescere di una unità di x, la y crescerebbe di 10 unità.

Quindi il coefficiente di regressione b indica di quanto varia la y al variare di una unità di x e se y è crescente

o decrescente:

1. b>0 (positivo) y cresce all’aumentare di x

2. b<0 (negativo) y diminuisce all’aumentare di x

3. b=0 (nullo) la retta è orizzontale ed il carattere y è indipendente in media dal carattere x.

b si può anche scrivere come:

b=Codev (X,Y)

Dev (X)

La codevianza è la somma dei prodotti degli scarti di due caratteri ed esprime il tipo di relazione esistente

tra due variabili:

codev(X,Y)=∑(X -x)(y -y)

i i

la devianza è la somma del quadrato degli scarti ed è sempre positive:

∑(X -x)²

Dev(X)= i

∑(y -y) ²

Dev(Y)= i

Ora vediamo come varia il carattere di x al variare del carattere y.

In questo caso l’espressione sarà:

x*=a +b y

1 1

∑(X -x)(y -y) = Codev(X,Y)

b = i i

1 ∑(y -y) ² Dev(Y)

i

b e b divergono (cambiano) solo per il denominatore e poiché questo è sempre positivo il segno di b e b

1 1

dipende solo dal numeratore ed è lo stesso per entrambe. Quindi le rette di regressione sono entrambe

crescenti o decrescenti.

Esercizio:

Donne 1 2 3 4 5 6 7 8 9 10 11

X 36 38 42 47 49 55 56 60 63 68 72

Età

Y 118 115 140 128 145 150 147 155 149 152 160

Pressione

sanguigna

Determina la retta di regressione di y in funzione di x.

∑(X -x)(y -y)

= i i

Formula= ∑(X -x)²

i

X Y X -x y -y (X -x)² (X -x)(y -y)

i i i i i

età Pressione

sanguigna

36 118 36-53,27= - 118-141,73= (-17,27)²= (-17,27)( -23,73)

17,27 -23,73 298,25 = 409,82

38 115 38-53,27= - 115-141,73= (-15,27)²= (-15,27)(-26,73)

15,27 -26,73 233,17 =408,17

42 140 42-53,27= - 140-141,73= (-11,27)²= (-11,27)(-1,73)

11,27 -1,73 127,01 =19,50

47 128 47-53,27= - 128-141,73= (-6,27)²= (-6,27)(-13,73)

6,27 -13,73 39,31 =86,08

49 145 49-53,27= - 145-141,73= (-4,27)²= (-4,27)(3,27)

4,27 3,27 18,23 =-13,96

55 150 55-53,27= 1,73 150-141,73= (1,73)²= (1,73)(8,27)

8,27 2,99 =14,30

56 147 56-53,27= 2,73 147-141,73= (2,73)²= (2,73)(5,27)

5,27 7,45 =14,39

60 155 60-53,27= 6,73 155-141,73= (6,73)²= (6,73)(13,27)

13,27 45,29 =89,30

63 149 63-53,27= 9,73 149-141,73= (9,73)²= (9,73)(7,27)

7,27 94,67 =70,73

68 152 68-53,27= 152-141,73= (14,73)²= (14,73)(10,27)

14,73 10,27 216,97 =151,28

72 160 72-53,27= 160-141,73= (18,73)²= (18,73)(18,27)

18,73 18,27 350,81 =342,20

Media =53,27 Media =141,73 0 0 ∑= 1434,15 ∑1591,81

Retta di regressione: y*=a+bx→ a=Ym-b*Xm; b= (X -x)(y -y)

i i

∑(X -x)²

i

Y*= 82,6+1,11x

La varianza di regressione consente di studiare la dispersione dei valori osservati intorno alla retta di

regressione.

Una dispersione elevata dei punti intorno alla retta comporta una limitata rappresentatività del fenomeno

mediante la retta di regressione. (previsioni non attendibili).

Una dispersione bassa= buona rappresentatività del fenomeno mediante la retta di regressione.

Per misurare la bontà di adattamento della retta di regressione, la devianza può essere scomposta in una

parte che il modello di regressione riesce a spiegare e in una parte che invece il modello non riesce a

cogliere, cioè la devianza dei residui di regressione (devianza dell’errore).

Indicando con y*=a+bx il valore della retta di regressione avremo:

∑(Yi-Ym)

Dev(X) DEVIANZA TOTALE ²

∑(Yi*-Ym)

Dev (R) DEVIANZA DI REGRESSIONE ²

∑(Yi-Yi*)

Dev (E) DEVIANZA DELL’ERRORE O RESIDUA ²

Dev(Y)=Dev (R)+Dev(E)

Rapportando la devianza di regressione Dev(R) alla devianza totale Dev(Y) individueremo quanta parte della

devianza totale è determinata o spiegata dalla retta di regressione.

Tale rapporto viene definito come INDICE DI DETERMINAZIONE

R²= Dev(R) =1- Dev(E)

Dev(Y) Dev(Y)

Questo indice di determinazione misura quanta parte della devianza totale di Y il modello di regressione

riesce a spiegare: 0≤R²≤1

Se R vale 0 significa che la devianza di regressione è nulla; la devianza dei residui coincide con la devianza

2

di y: NESSUN ADATTAMENTO.

Se R vale 1 significa che la devianza dei residui è 0. La devianza spiegata dal modello di regressione

2

coincide con la devianza di Y. Tutti i punti giacciono sulla retta: ADATTAMENTO PERFETTO.

Con l’INTERDIPENDENZA è difficile stabilire qual è il carattere antecedente e quale quello conseguente.

Le due variabili X e Y sono dipendenti una dall’altra.

Si caratterizza per due aspetti:

1. Concordanza= nel caso di concordanza a scarti positivi di X corrisponderanno scarti positivi di Y e a

scarti negativi di X corrispondono scarti negativi di Y, quindi prodotti positivi.

2. Discordanza= la situazione è contraria.

Coefficiente di correlazione lineare:

r= ∑(Xi-Xm)(Yi-Ym) = Codev(X,Y)

√∑(Xi-Xm)²*∑(Yi-Ym)² √Dev(X)*Dev(Y)

Il coefficient di correlazione lineare varia in questo modo:

r= +1 massima concordanza; correlazione positiva perfetta (tutti i punti si trovano su una retta)

r tra 0 e 1 correlazione positiva imperfetta

r= 0 non c’è alcuna associazione di tipo lineare tra le due variabili

r tra o e -1 correlazione negativa imperfetta

r= -1 massima discordanza, correlazione negativa perfetta (tutti i punti si trovano su una retta).

Il coefficiente di correlazione è anche la media geometrica dei coefficienti angolari di regressione:

r=√b*b .

1

La cograduazione serve per calcolare la correlazione tra caratteri ordinati secondo una scala a ranghi.

Nel caso di caratteri che non si possono quantificare (intelligenza, profitto scolastico) i valori delle singole

modalità vengono sostituite da una graduatoria.

Si sostituiscono ai valori x e y i numeri r e s che sono i posti o i ranghi occupati nelle graduatorie ordinate

i i i i

in senso crescente.

Esempio:

i x Y r s S *

i i i i i

1 132 278 1 2 4

2 203 277 5 1 5

3 137 371 3 5 1

4 179 348 4 4 2

5 143 315 3 3 3

S *=N+1- S *

i i

Posto occupato in graduatoria in ordine decrescente

INDICI DI COGRADUAZIONE:

1. INDICE DI COGRADUAZIONE DI SPEARMAN

6∑( r s )²

i- i

P=1- N(N²-1)

p=+1 COGRADUAZIONE (massima concordanza)

p=-1 CONTROCOGRADUAZIONE (massima discordanza)

2. INDICE DI COGRADUAZIONE DI GINI

G=∑ǀ r s ’ǀ-∑ǀ r s ǀ

i- i i- i

N²/2

G= +1 COGRADUAZIONE (massima concordanza)

G= -1 CONTROCOGRADUAZIONE (massima discordanza).

Slides 10

La ricerca applicata si articola in 4 fasi:

 FASE 1→ PROGRAMMAZIONE

 FASE 2→RILEVAZIONE

 FASE 3→ELABORAZIONE

 FASE 4→INTERPRETAZIONE DEI DATI.

La fase 1, ovvero la PROGRAMMAZIONE è la fase in cui si predispone il piano di rilevazione; si procede così

alla:

1. DEFINIZIONE DELLE UNITÀ DI RILEVAZIONE (Collettivo statistico, unità e caratteri);

2. SCELTA DELLE TECNICHE DI RILEVAZIONE DELLE UNITÀ STATISTICHE (Rilevazione totale o

campionaria).

Per quanto riguarda la rilevazione totale, la rilevazione delle informazioni è eseguita su tutte le unità che

compongono la popolazione oggetto di studio.

Per le rilevazioni campionarie, la rilevazione delle informazioni è eseguita solo su una parte delle unità che

compongono la popolazione.

Le rilevazioni campionarie raccolgono dati provenienti solo delle unità della popolazione che vengono

selezionate.

I vantaggi rispetto alle rilevazioni totali sono:

 Riduzione dei costi;

 Riduzione dei tempi;

 Riduzione del carico organizzativo.

Gli svantaggi, invece, sono:

 La base di campionamento non è sempre disponibile o facile da conoscere.

La rilevazione campionaria può essere compiuta per scelta obbligata (casi in cui non si conosce la

numerosità della popolazione di riferimento).

La rilevazione campionaria non sempre può sostituire l’indagine completa. (esempio le rilevazioni

riguardanti la natalità e mortalità).

La popolazione (universo) è l’insieme di N unità statistiche che costituiscono l’oggetto di studio. (N=

ampiezza della popolazione);

Il campione è l’insieme di n unità campionarie (casi) selezionati tra le N unità che compongono la

popolazione (n= ampiezza del campione);

Il campionamento è il procedimento attraverso il quale si estraggono le n unità campionarie (ovvero un

numero ridotto di casi) dalle N unità della popolazione.

Operando su un insieme ridotto n (casi) invece che su un’intera popolazione:

 La rilevazione campionaria fornisce solo la stima di un valore caratteristico che si vuole conoscere;

 La rilevazione totale ne fornisce, invece, il valore esatto.

I metodi di campionamento si distinguono in:

1. Campionamenti probabilistici: dove la probabilità che ogni unità della popolazione ha di essere

estratta è nota;

2. Campionamenti non probabilistici: dove la probabilità che ogni unità della popolazione ha di

essere estratta non è nota.

I campioni possono formarsi per:

1. Scelta casuale: (campionamento probabilistico) le unità della popolazione avranno tutti la stessa

probabilità di essere inclusi nel campione con processo di selezione casuale;

2. Scelta ragionata: (campionamento non probabilistico) le unità campionarie vengono individuate

con procedimento razionale ma non del tutto casuale.

I campioni probabilistici si dividono in:

 Campione casuale semplice, può essere con ripetizione o senza;

 Campione sistematico;

 Campione stratificato;

 Campione a due o più strati;

 Campione a grappoli;

 Campione per aree

Nel campionamento casuale semplice con ripetizione, per formare il campione basta numerare tutti gli N

elementi della popolazione ed estrarre dall’urna n elementi con l’accortezza di rimette ogni volta il numero

estratto nell’urna.

Nel campionamento casuale senza ripetizione, l’unità che entra a far parte del campione viene esclusa

dalle successive estrazioni, quindi la probabilità di estrazione dei numeri successivi cambia perché cambia la

composizione dell’urna.

Nel campionamento casuale in blocco, gli n elementi vengono estratti in blocco dall’urna e non esiste,

quindi, l’ordine di estrazione.

I vantaggi di un campionamento casuale sono: il campione è statisticamente rappresentativo; nessuna unità

o gruppo di unità è favorito; è un metodo molto semplice; ha un basso costo operativo; i difetti sono: è

necessaria una lista completa delle unità della popolazione; la selezione è completamente affidata al caso.

Il campionamento sistematico è equivalente a quella del campionamento casuale semplice, dal quale

cambia solo la tecnica di estrazione. Le unità campionarie non vengono più estratte con sorteggio ma

selezionate sistematicamente una ogni intervallo. Esempio: N=8235 unità si vuole estrarre un campione di

n=500, quindi si sceglierà una unità ogni 16 (k=8235/500=16,7); si comincia con un numero estratto a caso

tra 1 e 16; se questo è 12 i soggetti scelti saranno il 12°, il 28°, il 44°, il 60°, ecc.

Questo metodo semplifica l’operazione di estrazione e permette di ottenere campioni casuali nel caso in

cui manca una lista della popolazione; ma risente molto di più del campionamento casuale del grado di

accuratezza della lista di campionamento.

Il campionamento stratificato è utile quando la numerosità della popolazione è molto elevata, per cui è

difficile numerare tutti gli elementi e si rischia di non inserire nel campione gli elementi interessati.

Si articola in 3 fasi:

1. Si suddividono le unità della popolazione di riferimento in gruppi (chiamati STRATI);

2. Si estrae un campione da ogni strato con il campionamento casuale semplice;

3. Si uniscono i campioni provenienti dai singoli strati per ottenere il campione complessivo.

I campioni stratificati si distinguono in:

 Campione stratificato proporzionale

 Campione stratificato non proporzionale.

Questo metodo è utile perché raggruppando la popolazione in strati omogenei si migliora la precisione con

cui si stima la grandezza che si vuole rilevare (è molto preciso); ma necessità di una lista completa delle

unità della popolazione e richiede un considerevole lavoro affinché gli strati siano al loro interno il più

possibile omogenei.

Il campionamento a stadi è utilizzato quando la popolazione risulta molto elevata; la popolazione viene

suddivisa su più livelli gerarchicamente ordinate.

Questo metodo è utile perché c’è un risparmio di tempo e di costo operativo ed è necessaria la sola lista

delle unità appartenenti ai stadi di interesse; ma non assicura la stessa rappresentatività del

campionamento stratificato e richiede un considerevole lavoro affinché si individuino le unità primarie e le

unità di stadio successivo.

Il campionamento a grappoli è utilizzato quando si estraggono non gli elementi di una popolazione, ma

l’insieme delle unità (classi scolastiche, famiglie, ecc).

Questo metodo di campionamento è utile perché si risparmia tempo e costo operativo; ma è poco preciso.

Il campionamento di area è l’insieme delle unità territoriali scelto in maniera casuale, è utilizzato quando la

lista degli elementi della popolazione è assente o incompleta.

I campioni non probabilistici, invece, si distinguono in:

 Campione a scelta ragionata;

 Campione accidentale;

 Campione per quote;

 Campione a valanga.

Nel campionamento a scelta ragionata, le unità campionarie si ottengono non in base a criteri di casualità,

ma su una selezione soggettivamente impostata.

Nel campionamento accidentale, il ricercatore sceglie le prime persone che capitano come soggetti su cui

indagare e c’è un risparmio di tempo e denaro, ma si perde l’accuratezza del campionamento.

Nel campionamento per quote, si suddivide la popolazione in strati secondo alcune variabili (età, sesso,

ecc), ciascuno strato deve essere rappresentato nel campione da una quota; stabilite le quote (cioè il

numero di interviste da effettuare), il rilevatore è libero di scegliere i soggetti da intervistare purché si

attenga alle quote.

Questo metodo è molto simili a quello stratificato ma la differenza sta nel fatto che nel campionamento per

quote il rilevatore sceglie chi intervistare attenendosi alle quote. È utile perché c’è un risparmio di tempo e

denaro, ma il rilevatore sceglie gli individui più reperibili.


PAGINE

45

PESO

817.12 KB

AUTORE

berta12

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea in scienze del servizio sociale
SSD:
Università: Bari - Uniba
A.A.: 2015-2016

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher berta12 di informazioni apprese con la frequenza delle lezioni di Elementi di statistica sociale e demografia e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Bari - Uniba o del prof Carella Maria.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!