Che materia stai cercando?

Supporto all’esame di Statistica

Appunti di Statistica della prof.ssa Fraire sul supporto all’esame di Statistica: il calcolo delle probabilità, l'inferenza statistica, il campionamento, i test e le risposte, gli appunti con riepilogo degli argomenti, delle definizioni e degli algoritmi.

Esame di Statistica docente Prof. M. Fraire

Anteprima

ESTRATTO DOCUMENTO

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 4

1. soggettivista: la probabilità di un evento è il grado di aspettativa del verificarsi

dell’evento (se diciamo che la probabilità di uscita della faccia testa nel lancio di una

moneta è il 50% (1/2) gli attribuiamo un grado di fiducia maggiore di quello che

attribuiremmo all’uscita del numero 3 nel lancio di un dado a cui diamo probabilità

del 16,6% (1/6). Pertanto visto che la probabilità di un evento impossibile è zero e

quella di un evento certo è 1, per il generico evento E si può scrivere:

0 Pr(E) 1

≤ ≤

2. classica: la probabilità di un evento è il rapporto tra il numero dei casi favorevoli ed

il numero dei casi possibili, purché tutti i casi siano ugualmente possibili; a titolo di

esempio:

a. l’uscita di doppia testa nel lancio di due monete in successione è pari ad 1/4

essendo TT uno dei 4 casi possibili (TT, TC, CT,CC);

b. l’uscita di una carta di bastoni da un mazzo di carte napoletane è pari ad

10/40 essendo 10 il numero dei bastoni presenti nel mazzo di 40 carte;

c. l’estrazione di una pallina bianca da un’urna contenente 5 palline rosse, 12

bianche e 8 nere è pari a 12/25 essendo 12 il numero dei casi favorevoli e 25

quelli possibili.

3. frequentista: la probabilità di un evento è il limite a cui tende la frequenza relativa

di un evento (riscontrata in precedenti situazioni) al crescere del numero delle

prove; si ricorda che la frequenza relativa è il rapporto tra il numero delle prove in

cui si è manifestato l’evento e tutte le prove fatte.

4. assiomatica: la probabilità di un evento è quel numero reale p tale che:

a. 0 p 1;

≤ ≤

b. se l’evento è certo p(E)=1 e se l’evento è impossibile p(E)=0;

c. se due eventi E ed E sono incompatibili allora p(E o E ) = p(E ) + p(E ).

1 2 1 2 1 2

Teoremi

Quando si parla di eventi dipendenti debbono essere analizzate le probabilità subordinate,

cioè la probabilità che il secondo evento si verifichi subordinatamente al verificarsi del

primo evento; ad esempio se si volesse calcolare la probabilità di estrarre una carte di

spade da un mazzo napoletano si avrebbe 10/40, qualora tuttavia la carta estratta fosse

una seconda carta la sua probabilità risulterebbe diversa sapendo che la prima carta è

stata il 3 di bastoni (probabilità=10/39) oppure il 5 di coppe (probabilità=10/39) oppure il

2 di spade (probabilità=9/39) e cosi via). La probabilità del verificarsi dell’evento E

2

subordinatamente all’evento E si indica con p(E / E ). E’ evidente che nel caso di eventi

1 2 1

indipendenti si avrebbe p(E / E )= p(E )

2 2 2

I teoremi fondamentali sulle probabilità possono sintetizzarsi in:

1. probabilità composte: la probabilità del verificarsi di un evento che risulta dal

concorso di due eventi è data dal prodotto delle probabilità del primo evento e del

secondo subordinatamente al primo:

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 5

• eventi dipendenti - p(E e E ) = p(E ) * p(E / E )

1 2 1 2 1

• eventi indipendenti - p(E e E ) = p(E ) * p(E )

1 2 1 2

2. probabilità totali: la probabilità che si verifichi uno dei due eventi E o E è data dalla

1 2

somma delle probabilità dei due eventi diminuita della probabilità che si verifichino

entrambi:

• eventi compatibili - p(E o E ) = p(E ) + p(E ) - p(E e E )

1 2 1 2 1 2

• eventi incompatibili - p(E o E ) = p(E ) + p(E ) (la probabilità che si

1 2 1 2

verifichino entrambi è ovviamente nulla).

Richiami di calcolo combinatorio

Per le applicazioni di calcolo delle probabilità è necessario conoscere alcune nozioni di

calcolo combinatorio che possono essere sintetizzate nelle seguenti:

Permutazioni

Si dicono permutazioni di N elementi tutti quei gruppi che si possono formare con gli N

elementi cambiando l’ordine degli elementi stessi; ad esempio avendo le prime tre lettere

dell’alfabeto a, b, c, è possibile ottenere i seguenti gruppi: abc, acb, bac, bca, cab, cba.

Il numero dei gruppi che si possono formare risulta pari a

( ) ( ) ( )

= ⋅ − ⋅ − ⋅ − ⋅ ⋅ ⋅ ⋅ =

P N N 1 N 2 N 3 .......... . 3 2 1 N !

N

Il simbolo N! si legge N fattoriale e sta ad indicare il prodotto di N termini crescenti da 1

fino ad N.

Disposizioni

Si dicono disposizioni di N elementi di classe k tutti quei gruppi che si possono formare

prendendo ogni volta k degli N elementi e cambiando ogni volta un elemento o l’ordine

degli elementi stessi.

Le disposizioni possono essere:

• senza ripetizione: quando ogni elemento deve comparire una sola volta in ciascun

gruppo e risultano pari a (il numero dei termini del prodotto è pari a k):

( ) ( ) ( ) ( ) N !

= ⋅ − ⋅ − ⋅ − ⋅ ⋅ − + =

D N N 1 N 2 N 3 .......... . N k 1 ( )

N , k −

N k !

ad esempio avendo le prime quattro lettere dell’alfabeto a, b, c, d, prendendole a due a

due è possibile ottenere i seguenti gruppi: ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc; il

( ) 4

!

= ⋅ − = =

D 4 4 1 12

numero dei gruppi risulta ( )

4 ,

2 −

4 2 !

• con ripetizione: quando ogni elemento può comparire più volte in ciascun gruppo e

=

r k

D N

risultano pari a: N , k

ad esempio avendo le prime quattro lettere dell’alfabeto a, b, c, d, prendendole a due a

due è possibile ottenere i seguenti gruppi: aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd,

= =

r 2

D 4 16

da, db, dc, dd; il numero dei gruppi risulta 4 ,

2

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 6

Combinazioni

Si dicono combinazioni di N elementi di classe k tutti quei gruppi che si possono formare

prendendo ogni volta k degli N elementi e cambiando ogni volta un elemento e non

l’ordine degli elementi stessi.

Le combinazioni possono essere:

• senza ripetizione: quando ogni elemento deve comparire una sola volta in ciascun

gruppo e risultano pari a:

( ) ( ) ( ) ( )

⋅ − ⋅ − ⋅ − ⋅ ⋅ − +  

N

N N 1 N 2 N 3 .......... . N k 1 N !

= = ≡  

C  

N , k ⋅ −  

k ! k ! ( N k )! k

ad esempio avendo le prime cinque lettere dell’alfabeto a, b, c, d, e, prendendole a due

a due è possibile ottenere i seguenti gruppi: ab, ac, ad, ae, bc, bd, be, cd, ce, de; il

( )

⋅ −

5 5 1 5

!

= = =

C 10

numero dei gruppi risulta ( )

4 2

, ⋅ ⋅ −

2 1 2

! 5 2 !

• con ripetizione: quando ogni elemento può comparire più volte in ciascun gruppo e

risultano pari a: + −

 

N k 1

( )

+ −  

N k !

1

== ≡

r C  

N , k ⋅ −  

k ! ( N )! k

1 L

 

ad esempio avendo le prime cinque lettere dell’alfabeto a, b, c, d, e, prendendole a due

a due è possibile ottenere i seguenti gruppi: aa, ab, ac, ad, ae, bb, bc, bd, be, cc, cd, ce,

( )

+ −

5 2 1 !

= =

r C 15

dd, de, ee; il numero dei gruppi risulta ( )

5 2

, ⋅ −

2

! 5 1 !

Legge empirica del caso

Sottoponendo un evento con probabilità p(E) ad una serie n di prove indipendenti ed

effettuate nelle medesime condizioni, questo presenterà una frequenza assoluta k

(numero delle volte in cui si è manifestato l’evento) ed una frequenza relativa f=k/n.

La legge empirica del caso, denominata anche legge dei grandi numeri, afferma che al

crescere del numero delle prove la frequenza relativa f tende alla probabilità p(E); si

deve precisare che la legge è molto generica: non vengono precisati i concetti di crescita

del numero delle prove che non è comunque quella del limite nel senso di analisi

matematica ed inoltre molto spesso è impossibile sottoporre un evento ad un numero

molto grande di prove (basta pensare ad un esperimento scientifico).

In ogni modo, nei casi in cui la quantità delle informazioni è molto elevata, il fenomeno è

assimilabile ai giochi d’azzardo (lancio di una moneta, estrazione di una carta) e quindi

l’approccio frequentista può coincidere con quello soggettivista.

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 7

Teorema di Bayes

Riprendiamo il teorema delle probabilità composte ed il concetto delle probabilità

subordinate e quindi quello di eventi dipendenti; per il teorema sugli eventi dipendenti si

può scrivere:

p(E e E ) = p(E ) * p(E / E ) oppure p(E e E ) = p(E ) * p(E / E )

1 2 1 2 1 2 1 2 1 2

e visto che le due probabilità p(E e E ) e p(E e E ) sono uguali si può scrivere:

1 2 2 1

p(E ) * p(E / E ) = p(E ) * p(E / E ) da cui

1 2 1 2 1 2 ( )

( ) p ( E ) p E / E

= 1 2 1

p E / E ( )

1 2 p E 2

Le diverse probabilità che appaiono nell’ultima relazione che rappresenta il teorema di

Bayes possono essere interpretate come:

p(E / E ) probabilità a posteriori, cioè la probabilità che avendo osservato l’evento E

1 2 1

questo sia stato generato dalla causa E ;

2

p(E ) probabilità a priori;

1

p(E ) probabilità dell’evento E indipendentemente dall’altro evento;

2 2

p(E / E ) verosimiglianza cioè la probabilità dell’evento E subordinatamente all’evento

2 1 2

E .

1

Il teorema di Bayes consente di utilizzare tutta una serie di informazioni, disponibili da

altre indagini statistiche relative agli eventi interessati (ad esempio la probabilità a priori

e la verosimiglianza) in modo da poter ottenere una serie di convinzioni tradotte in

distribuzioni a priori di probabilità.

Teorema delle prove ripetute

Considerando un evento E, estrazione di una pallina da un’urna contenente palline

bianche e nere, con probabilità p e probabilità contraria q (pari a 1 – p), se si eseguono n

estrazioni reinserendo ogni volta la pallina nell’urna, si vuole calcolare la probabilità che

si presentino h palline bianche. La probabilità di estrarre le prime h palline bianche e le

successive nere è data da (teorema delle probabilità composte):

= ⋅

h n h

P p q

Considerando tutti i modi possibile di uscita nelle n prove (cioè alternando uscite bianche

e nere) delle h palline bianche (combinazioni senza ripetizione di n elementi di classe h) si

avrà che la probabilità cercata è pari a:

 

n −

= ⋅

h n h

 

P p q

 

h  

h

Distribuzioni di probabilità

Si definisce distribuzione di probabilità il valore delle probabilità associate a tutti gli

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 8

eventi possibili connessi ad un certo numero di prove dello schema generale di estrazione

di una pallina da un’urna.

Le più usuali distribuzioni di probabilità utilizzate nella statistica inferenziale sono

rappresentate da:

1. distribuzione bernoullina o binomiale: è una distribuzione discreta la cui espressione è

quella generale indicata nel problema delle prove ripetute; tale distribuzione gode

delle seguenti proprietà:

• la distribuzione è simmetrica indipendentemente dal numero delle prove

purché p=q=1/2;

• la somma delle probabilità della distribuzione è uguale ad uno;

• la probabilità del singolo evento è relativamente bassa; n

=

• h

la massima probabilità si ha in corrispondenza dell’evento se n è pari e

2

+

   

1

n n

=

h oppure se n è dispari (la parentesi quadra individua la

   

   

2 2

parte intera del quoziente);

• la media della distribuzione è np e la sua varianza è npq;

• per n sufficientemente grande (normalmente maggiore di 30) la distribuzione

è approssimata dalla distribuzione normale o di Gauss.

La funzione di ripartizione della distribuzione è tabulata per vari valori di n e di p

n  

n −

∑ k n k

  p q (essendo k

in modo da poter determinare i valori dell’espressione  

 

k

=

i k

il numero dei casi favorevoli).

distribuzione normale o di Gauss: è una distribuzione continua la cui curva ha equazione

2

 

1 x m

−  

1 σ 2

σ

=  

2 in cui la media è m=np e la varianza è =npq; la curva è definita in tutto

y e

σ π

2 ±

l’intervallo delle x (± ) e presenta le seguenti caratteristiche:

• approssima la distribuzione binomiale al crescere del numero delle prove;

• è simmetrica rispetto alla media nel senso che la probabilità di un valore

superiore alla media di un intervallo prefissato è uguale alla probabilità di un

valore inferiore alla media dello stesso intervallo;

• l’area al di sotto della curva è pari ad 1;

• approssima molte distribuzioni empiriche nel campo sociale, fisico,

economico, ecc.;

• approssima la distribuzione degli errori accidentali (quelli che si commettono

quando si misura più volte la stessa grandezza fisica);

• rappresenta la distribuzione di un fenomeno influenzato da infinite cause,

nessuna delle quali preponderante.

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 9

La distribuzione normale viene utilizzata, nelle applicazioni pratiche, dopo essere

stata standardizzata, cioè avendo sostituito la modalità X con quella Z data da

X m

= ; tale distribuzione è tabulata solo con riferimento ai valori positivi di z (da

Z σ

0 a 3,99 il secondo decimale si legge sulle diverse colonne) e cioè per un’area pari a

0,5.

La tavola consente di calcolare la probabilità (area) racchiusa in determinate

ordinate riferite a prefissati valori di z (ascisse della curva) oppure di calcolare

valori di z avendo a disposizione le probabilità corrispondenti; si rammenta che per

valori di z con un numero di decimali maggiore di due o per aree non esattamente

lette sulle tavole è necessario effettuare l’interpolazione dei valori con la formula:

− ( )

x x

= + ⋅ −

2 1 in cui x è il valore da calcolare, x ed x sono i valori in cui è

x x y y 1 2

1 1

y y

2 1 ed y sono i valori corrispondenti (le ascisse se

compreso il valore incognito, y 1 2

stiamo cercando l’area oppure le aree se stiamo cercando un ascissa) ed y è il valore

dato (ascissa oppure area); a titolo di esempio si potranno calcolare i seguenti

valori:

Pr(z<2,375) - sarà sufficiente cercare le ascisse z = 2,37 e 2,38 e fare

o l’interpolazione delle probabilità che appaiono nella tavola

cioè 0,49111+(0,49134-0,49111)*(2,375-2,37)/(2,38-2,37) =

0,49123; inoltre visto che l’area calcolata è solo quella dei

valori positivi di z, bisognerà aggiungere tutta l’area prima

dello zero che vale 0,5, quindi l’area sarà 0,5+0,49123 =

0,99123;

Pr(z<0,837) - sarà sufficiente cercare le ascisse z = 0,83 e 0,84 e fare

o l’interpolazione delle probabilità che appaiono nella tavola

cioè 0,29673+(0,29955-0,29673)*(0,837-0,83)/(0,84-0,83) =

0,29870; inoltre visto che l’area calcolata è solo quella dei

valori positivi di z, bisognerà aggiungere tutta l’area prima

dello zero che vale 0,5, quindi l’area sarà 0,5+0,29868 =

0,79870;

Pr(1,31<z<2,97) - tale area è ottenuta dalla differenza tra quella relativa

o all’ascissa 2,97 (che sulle tavole corrisponde a 0,5+0,49851)

e quella dell’ascissa 1,31 (che sulle tavole corrisponde a

0,5+0,40490), cioè 0,99851-0,90490 = 0,09361;

Pr(z>3) - tale area, essendo quella a destra dell’ascissa 3, può essere

o ottenuta dalla differenza tra 1 e l’area inferiore all’ascissa

3, cioè 1 - Pr(z<3); per cui visto che sulle tavole Pr(z<3)

corrisponde a 0,5+0,49865 si avrà 1 – 0,99865 = 0,00135;

Pr(z<–1,55) - tale area è quella a sinistra di –1,55 ed essendo la curva

o

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 10

simmetrica corrisponde a quella a destra dell’ascissa 1,55,

cioè (come indicato all’esempio precedente) 1 –

(0,5+0,43943) = 0,06057;

Pr(z<z*) = 0,89617 - sarà sufficiente cercare, all’interno della tavola, l’area pari

o a 0,89617 - 0,5=0,39617 che corrisponde ad una ascissa 1,26,

cioè z*=1,26;

Pr(z>z*) = 0,14007 - tale area essendo quella a destra dell’ascissa z*, è ottenuta

o dalla differenza tra 1 e l’area inferiore all’ascissa z*, cioè 1

- Pr(z<z*), per cui quest’ultima sarà uguale a 1 – 0,14007 =

0,85993; pertanto per tutto quello già indicato sarà

sufficiente cercare all’interno della tavola l’area 0,85993-

0,5=0,35993 che corrisponde ad una ascissa 1,08, cioè

z*=1,08; x

λ λ

=

2. distribuzione di Poisson: è una distribuzione discreta la cui equazione è P ( x ) e

x !

che può ottenersi dalla binomiale quando p è piccolissimo, n molto grande e la media

np tenda ad una costante; le caratteristiche della distribuzione sono:

• rappresenta la distribuzione di eventi rari (p è piccolissimo);

• λ

la media della distribuzione è che è anche la varianza;

• λ

il massimi della distribuzione si ha in corrispondenza di se questo non è

λ λ

intero oppure in corrispondenza di e -1 se questo non è intero.

3. altre distribuzioni: oltre le precedenti distribuzioni, per le analisi statistiche sono

χ

2 t F

importanti le distribuzioni del , della di Student e della di Fisher-Snedecor

le cui espressioni analitiche risultano complesse e non necessarie per il loro utilizzo

nella parte dell’inferenza statistica oggetto dello studio del presente corso e delle

quali è invece necessario l’utilizzo nelle applicazioni pratiche: α

• χ 2

la distribuzione del è tabulata e dipende dall’aliquota (livello di rischio)

e g (gradi di libertà) che verranno entrambi studiati nel capitolo

dell’inferenza; α

• t

la distribuzione della di Student è tabulata e dipende dall’aliquota

(livello di rischio) e n (gradi di libertà = numerosità campionaria) che

verranno entrambi studiati nel capitolo dell’inferenza;

• F

la distribuzione della di Fisher-Snedecor è tabulata e dipende

α

dall’aliquota (livello di rischio) e da due gradi di libertà g1 e g2 che

verranno entrambi studiati nel capitolo dell’inferenza.

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 11

Inferenza statistica

Vista la pratica impossibilità di esaminare uno o più caratteri di un intera popolazione

(tempi e costi relativi all’impiego di ingenti risorse) si tende ad osservare tali caratteri in

una parte della popolazione e ad estendere, con opportuni procedimenti, le conclusioni

ricavate dal campione all’intera popolazione.

L’inferenza statistica è il procedimento induttivo che, avvalendosi del calcolo delle

probabilità, consente appunto di estendere all’intera popolazione le informazioni fornite

dal campione.

Popolazione e campione

Il campione è un parte della popolazione sulle cui unità si vogliono effettuare le rilevazioni

per l’individuazione dei valori caratteristici della popolazione.

Si definiscono parametri i valori caratteristici della popolazione da stimare; ad esempio la

media, un indice di variabilità, la probabilità di un evento, ecc..

Si definiscono statistiche le funzioni delle osservazioni campionarie ottenute dalla

rilevazione (quindi dipendenti dagli elementi del campione); ad esempio la media, la

frequenza di un evento, ecc.

Negli algoritmi gli elementi

• del campione vengono indicati con: n la numerosità, m l a media, s lo scarto

quadratico medio, f la frequenza relativa, ecc.. µ σ

• della popolazione sono rappresentati da: N numerosità, la media, lo scarto

quadratico medio, ecc., in generale con una lettera greca corrispondente alla lettera

dell’elemento campionario.

Il modo più comune per poter scegliere le unità da inserire nel campione è quello di

estrarle a caso da un’urna contenente tutte le unità della popolazione. Tale tipo di

campione viene appunto detto campione casuale. Nella teoria dei campioni si distinguono:

grandi campioni e piccoli campioni; normalmente sono definiti piccoli campioni quelli in

cui n è minore di 30 (campioni riferiti a ricerche sperimentali in cui sono presenti

difficoltà di attuazione) .

L’estrazione casuale può essere effettuata:

• una dopo l’altra sia con ripetizione (quando l’unità estratta viene reinserita nell’urna)

che senza ripetizione;

• in blocco cioè tutte assieme in un’unica estrazione.

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 12

Nel caso di estrazione con ripetizione, la popolazione da cui estrarre le unità è

sempre la stessa e la probabilità di estrazione non risulta subordinata dalle

precedenti estrazioni; pertanto il numero dei possibili campioni estraibili dalla

popolazione sarà rappresentato dalle disposizioni con ripetizione di N elementi di

n

classe n, cioè , mentre la probabilità di estrarre una n-upla prefissata (x , x , x ,

N 1 2 3

……, x ) sarà pari a (si rammenta che si applicherà il teorema delle probabilità

n

composte per eventi indipendenti):

( ) ( ) ( )

( ) ( )

= ⋅ ⋅ ⋅ ⋅

= = = =

P x , x , x ,......., x P X x P X x P X x ........ P X x

1 2 3 n 1 1 2 2 3 3 n n

Nel caso di estrazione senza ripetizione, la popolazione da cui estrarre le unità si

modifica e la probabilità di estrazione risulta subordinata dalle precedenti

estrazioni; pertanto il numero dei possibili campioni estraibili dalla popolazione

sarà rappresentato dalle disposizioni senza ripetizione di N elementi presi ad n ad n

N !

cioè , mentre la probabilità di estrarre una n-upla prefissata sarà pari a (si

( )

N k !

rammenta che si applicherà il teorema delle probabilità composte per eventi

dipendenti quindi probabilità subordinate):

( ) ( )

( ) ( )

= ⋅ = = ⋅ ⋅

= = = =

P x , x , x ,......., x P X x P X x / X x P X x / X x , X x ........

1 2 3 n 1 1 2 2 1 1 3 3 1 1 2 2

( )

⋅ = = = = =

P X x / X x , X x , X x ,......., X x

− −

n n 1 1 2 2 3 3 n 1 n 1

Nel caso di estrazione in blocco, ogni unità della popolazione non può presentarsi

più di una volta ed inoltre, visto che manca un ordine di estrazione, due campioni

debbono differire per almeno un elemento; pertanto il numero dei possibili

campioni estraibili dalla popolazione sarà rappresentato dalle combinazioni senza

 

N

N ! ≡  

ripetizione di N elementi presi ad n ad n cioè , mentre la

 

⋅ −  

k ! ( N k )! k

probabilità di estrarre una n-upla prefissata sarà pari a quella indicata per

l’estrazione senza ripetizione

Variabili aleatorie campionarie

Considerando un carattere X di una popolazione, si indichi con (X , X , X , ……., X ) un

1 2 3 n

campione estratto in modo casuale dalla popolazione stessa (denominato pertanto

variabile casuale o aleatoria) e con (x , x , x , ……., x ) una possibile determinazione di

1 2 3 n

tale carattere. Per ciascuno dei campioni estraibili dalla popolazione si può considerare

una particolare funzione h della determinazione del carattere data da:

y=h (x , x , x , ……., x )

1 2 3 n

E’ evidente che al variare del campione si avrà un diverso valore della y ; tale valore,

legato al diverso campione casuale a cui si riferisce, si definisce variabile casuale o

aleatoria dipendente dalle determinazioni campionarie (indicata con v.a.c. variabile

aleatoria campionaria).

Si possono ad esempio considerare le v.a.c.:

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 13

n

=

Y X somma degli elementi del campione

i

=

1

i n

∑ X i

=

= 1

i

X media campionaria

n

n

∑ X i

=

= i 1

M momento r-esimo campionario

r n

n −

∑ 2

( X X )

i

=

=

2 1

i

S varianza campionaria

n

{ }

=

( )

Y min X , X , X ,......... , X minimo elemento del campione

1 1 2 3 n

( )

=

Y med X , X , X ,......... , X mediana campionaria

1 2 3

med n

Al variare del campione la v.a.c. avrà una distribuzione (avrà cioè una successione di

valori) su cui sarà possibile individuare i valori statistici tipici (media e varianza); si può

pertanto indicare che: ( )

• la distribuzione campionaria della media dei campioni presenta:

X varianza

media estrazione bernoulliana estrazione in blocco

σ σ −

2 2

( ) ( ) ( ) N n

µ

= = = ⋅

E X Var X Var X −

n n N 1

2

• S

la distribuzione campionaria della varianza dei campioni presenta media

( ) −

n 1

σ

= ⋅

2 2

E S ; nei casi in cui sia necessario che la varianza campionaria abbia

n

media pari alla varianza della popolazione è necessario utilizzare la varianza

( ) ( )

2

∑ x x

n i σ

= ⋅ = =

2 2 2 2

s s E S

in modo tale che

corretta − −

n 1 n 1

Teorema del limite centrale

Sia X , X , X , ……., X un campione bernoulliano estratto da una popolazione, non

1 2 3 n µ σ 2

necessariamente normale, di media e varianza , la distribuzione della media al

X

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 14

µ σ 2

crescere di n tende alla distribuzione normale media e varianza /n (vedi

distribuzione della media del punto precedente). Ne deriva che attuando la

µ

X

=

Y

trasformazione la variabile Y tende a distribuirsi come una normale

σ n

µ = 0 e varianza unitaria.

standardizzata con media

L’importanza del teorema è rappresentata dal fatto che se n è sufficientemente grande

(una buona approssimazione si ha quando n≥

30) la distribuzione campionaria della

variabile (media del campione) si riconduce ad una distribuzione normale di cui si

X

conosce la funzione di densità.

Problemi dell’inferenza statistica

I principali problemi dell’inferenza statistica sono rappresentati da:

• stima statistica dei parametri di una popolazione;

• verifica delle ipotesi statistiche (validità di certe assunzioni).

Stima dei parametri

La teoria della stima statistica dei parametri mira a determinare la funzione delle

osservazioni più adatta per la valutazione del parametro incognito della popolazione

partendo dai dati del campione.

La stima del parametro di una popolazione (media, mediana, varianza, frequenza, ecc.),

Θ

indicato con , si realizza di fatto attraverso una funzione delle osservazioni

campionarie, detta stimatore indicata con t (x , x , x , ……., x ) in cui X si riferisce alla

1 2 3 n i

i-esima osservazione suscettibile di assumere una qualunque delle determinazioni

possibili. Sostituendo nella funzione i valori effettivamente osservati (x , x , x , ……., x )

1 2 3 n

si ottiene un valore che viene appunto denominato stima del parametro dato da

( )

Θ =

) t x , x , x ,......... , x .

1 2 3 n

In una prima approssimazione si sceglie l’espressione matematica dello stimatore in

analogia con l’espressione matematica del parametro da stimare (per stimare la media si

può utilizzare la media del campione, per stimare la varianza si può utilizzare la varianza

del campione, per stimare una percentuale si può utilizzare la percentuale desunta dal

campione, ecc.). In ogni caso le corrispondenti stime, diverse per ciascun campione

possibile, danno origine ad una distribuzione casuale.

Uno stimatore viene detto (proprietà dello stimatore):

non distorto

, corretto o centrato, se il suo valore medio è uguale al valore del

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 15

parametro della popolazione da stimare;

efficiente,

se la sua varianza è minore di quella ottenibile con altri stimatori

(confronto effettuato a parità di altre condizioni);

consistente,

se i valori stimati convergono, al crescere della dimensione del

campione, con probabilità tendente ad uno, al valore del parametro da stimare;

sufficiente,

se esso sintetizza tutte le informazioni disponibili intorno al parametro

da stimare.

Facendo riferimento a quanto indicato per le distribuzioni campionarie della media e

della varianza, si può affermare che:

• la media aritmetica di un campione è una stima non distorta della media della

( ) µ

=

E X

popolazione; infatti si è affermato che

• 2 è una stima distorta della varianza della

la varianza campionaria S ( ) −

n 1

σ

= ⋅

2 2

E S

popolazione; infatti si è affermato che n

2

• S è una stima non distorta della varianza

la varianza campionaria corretta ( ) σ

=

2 2

E S

della popolazione; infatti si è affermato che

Intervallo di confidenza Θ

Θ

)

Disponendo della distribuzione campionaria dello stimatore del parametro si può

ricavare la probabilità che lo stimatore cada entro un intervallo prefissato dal parametro

( )

δ δ

Θ − ≤ Θ ≤ Θ +

)

Pr che esprime la frequenza relativa (o la

da stimare, data da Θ Θ δ Θ δ

probabilità) dei campioni che hanno la stima del parametro compresa (Θ

).

L’espressione in parentesi, con semplici passaggi, si può anche scrivere

( )

δ δ δ δ

Θ − ≤ Θ ≤ Θ + Θ − ≤ Θ ≤ Θ +

) )

) ) Pr

individuando pertanto la che esprime la

( )

δ δ

Θ − Θ +

) )

,

probabilità che il parametro da stimare cada nell’intervallo .

Si deve osservare che:

• l’espressione in parentesi della prima probabilità indica un valore variabile (lo

Θ

)

stimatore è una delle possibili determinazioni al variare del campione) inserito

Θ

in un intervallo fisso (il parametro è un valore incognito da stimare),

• l’espressione in parentesi della seconda probabilità indica un valore fisso incluso in

due intervalli variabili; con tali intervalli ci si accontenta di fatto di determinare,

accettando un prefissato rischio di errore, un intervallo entro cui si dovrebbe

α

trovare il parametro da stimare; il livello di rischio si indica con = 1 – P , mentre

α

P = 1 – viene detto livello di confidenza.

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 16

α

Pertanto fissato si può scrivere

( )

δ δ

Θ − ≤ Θ ≤ Θ + α

) )

Pr = 1 – α

che sta a significare che, con probabilità 1 – , possiamo ritenere vera l’affermazione che

il parametro da stimare sia compreso nell’intervallo, variabile con il campione,

( )

δ δ

Θ − Θ +

) )

, .

E’ possibile individuare l’intervallo di confidenza per i seguenti parametri:

1. media della popolazione: σ

a. se è noto lo scarto della popolazione , tenuto conto del teorema del limite

σ σ

µ

− ≤ ≤ +

X z X z

centrale l’intervallo è rappresentato da in cui z

α α α

n n

è il valore della curva normale che racchiude a sinistra (nel quadrante positivo

pari a metà della curva) un area pari a (0,5 – α/2);

σ

b. se non è noto lo scarto della popolazione , questo viene stimato con la radice

µ

x

=

s t

dello stimatore corretto ( ); in tal caso la quantità si distribuisce

s n

secondo la t di Student e l’intervallo di confidenza sarà dato da

s s

µ

− ≤ ≤ + t t

X t X t in cui è il valore tabulato nella di

α α

− − n-1,α

n 1

, n .

1

,

n n

Student in corrispondenza di g = n-1 gradi di libertà e del valore di qualora n

α;

t di Student si

sia sufficientemente grande (di solito maggiore di 100) la

approssima molto bene ad una normale, quindi l’intervallo di confidenza sarà

s s

µ

− ≤ ≤ +

dato da in cui z è il valore indicato al punto a.

X z X z

α α α

n n

2. percentuale della popolazione: visto che la distribuzione del numero k delle volte in

cui si è verificato un evento su n prove si distribuisce secondo la binomiale e che si

vuole individuare la percentuale k/n:

a. per piccoli campioni, gli estremi dell’intervallo di confidenza andranno calcolati

ricordando che la binomiale è una distribuzione discreta; pertanto andranno

ricercati sulla tavola della funzione di ripartizione i valori della x che

x x −

α α

   

t s 1

n n

− −

∑ ∑

≤ ≥ −

x n x x n x

    1

p q p q

e

soddisfano le due relazioni    

   

2 2

x x

= =

0 0

i i

+

x 1 x −

≤ ≤

t s 1

p

in modo da poter affermare che l’intervallo è (per poter

n n

riscrivere la probabilità che esprime l’intervallo di confidenza dovranno essere

assunti i valori esatti della funzione di ripartizione – quelli letti nella ricerca di x

t

ed x – che esprimeranno il livello di confidenza P);

s-1

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 17

b. per grandi campioni, ricordando che per n sufficientemente grande la

binomiale si approssima ad una distribuzione normale di media np e varianza

npq (si rammenta che la probabilità contraria q è pari a 1 – p), la frequenza

n p

) p

)

cercata si distribuirà secondo una normale con media (cioè ) e varianza

n

p q

) )

n p q

) ) (cioè ), si può affermare che l’intervallo è

2 n

n ) ) ) )

p q p q

− ≤ ≤ +

p z p p z

) )

α α

n n

Verifica delle ipotesi

La teoria della verifica delle ipotesi consiste nello stabilire se l’assunzione fatta si possa

accettare o meno sulla base delle osservazioni condotte sul campione. Un “test” per

provare un’ipotesi statistica è un criterio per accettare o respingere l’ipotesi fatta.

L’ipotesi statistica che si vuole provare con il test sul valore di un parametro è

), mentre si indica con H l’ipotesi alternativa

denominata ipotesi nulla (indicata con H 0 1 Ω

che è quella formulata sul valore alternativo del parametro. Quindi indicando con

Θ

l’insieme di tutti i valori che il parametro incognito può assumere e dividendolo in due

sottoinsiemi, l’ipotesi nulla prevede che il parametro incognito cada nel primo

sottoinsieme e quella alternativa che cada nel secondo sottoinsieme.

Pertanto scelta la statistica test, nello spazio campionario si individuerà una regione R

, che si chiama regione di rifiuto o critica, per cui si rifiuterà l’ipotesi nulla se la statistica

cadrà in essa, si accetterà l’ipotesi nulla se cadrà al di fuori di R (area che verrà

denominata A o di accettazione).

Possono essere commessi due diversi errori nel test delle ipotesi:

a) errore di 1° tipo o di prima specie se si rifiuta l’ipotesi nulla quando questa è vera;

b) errore di 2° tipo o di seconda specie se si accetta l’ipotesi nulla quando questa è

falsa. α β

e :

A questi due tipi di errore siono associate due diverse probabilità

α

a) è la probabilità che la statistica test cada nella regione R quando H è vera;

0

β

b) è la probabilità che la statistica test cada nella regione A quando H è falsa.

0

α

In definitiva avendo fissato a priori il livello di errore (errore che si è disposti ad

accettare), tra le diverse regioni di rifiuto R dovrà essere scelta quella che rende minimo

l’errore di seconda specie.

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 18

Verifica delle ipotesi per una media µ

=

H : X

Nel caso di una media, l’ipotesi nulla corrisponde a e quella alternativa

0

µ µ

≠ >

H : X H : X

potrà essere bidirezionale: oppure unidirezionale (oppure

0 0

µ

<

H : X )

0

La statistica test dipende dalle informazioni che si hanno sulla varianza della popolazione:

1) se questa è nota allora la statistica test (che si avvale della distribuzione normale) è:

µ

X

=

• z

per test bidirezionali ;

σ n µ

X

=

• z

per test unidirezionali σ n

2) se non è nota allora la statistica test è:

µ

X

=

• t

per test bidirezionali ;

s n µ

X

=

• t

per test unidirezionali s n ≥

t

per l’uso dei valori di si dovrà distinguere tra grandi campioni (per n 100), per i

quali la statistica test può fare riferimento alla distribuzione normale, e piccoli

campioni, per i quali si dovrà fare riferimento alla distribuzione di Student.

Verifica delle ipotesi per una frequenza =

H : p p

)

Nel caso di una frequenza, l’ipotesi nulla corrisponde a e quella alternativa

0

≠ >

H : p p H : p p

) )

potrà essere bidirezionale: oppure unidirezionale (oppure

0 0

<

H : p p

) ); inoltre visto che la distribuzione del numero k delle volte in cui si è

0

verificato un evento su n prove si distribuisce secondo la binomiale, avremo:

• per i piccoli campioni la statistica test è rappresentata direttamente dal valore del

livello di confidenza;

• per i grandi campioni, poiché per n sufficientemente grande la binomiale si

approssima ad una distribuzione normale e che pertanto, volendo individuare la

p

frequenza k/n, questa si approssima ad una distribuzione normale di media e

p q

) )

varianza , la statistica test (che si avvale della distribuzione normale) è

n

p p

)

=

z p q

) ) n

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 19

Valore teorico di riferimento

In tutti i tipi di test sopra indicati, determinato il valore della statistica test, questo si

dovrà controllare con il valore della distribuzione di riferimento; cioè se la distribuzione

è: α

• la normale - si individua il valore z che delimita a sinistra un’area pari a 0,5 - /2 e

α

si confronta il valore della statistica test con quest’ultimo valore: se il valore del test è

minore si accetta l’ipotesi nulla, altrimenti la si rifiuta;

• t t t

la di Student - si individua il valore sulla tabella della di Student con g=n-1

α

n-1,

α

gradi di libertà e funzione di e si confronta il valore della statistica test con

quest’ultimo valore: se il valore del test è minore si accetta l’ipotesi nulla, altrimenti la

si rifiuta. n  

n −

∑ k n k

 

• p q

la binomiale - si individua il valore dell’espressione sulla tabella della

 

 

k

=

i k

binomiale e si confronta il valore della statistica test con quest’ultimo valore: se il

valore del test è minore si accetta l’ipotesi nulla, altrimenti la si rifiuta.

χ 2

Test del χ 2

In una tabella a doppia entrata l’indice misura la dipendenza tra i due caratteri della

tabella ed è ottenuto dalla differenza tra le frequenze empiriche e quelle teoriche di

indipendenza; pertanto se l’ipotesi di indipendenza fosse vera la differenza dovrebbe

essere molto piccola, mentre se fosse falsa la differenza dovrebbe essere molto grande.

χ 2

Il test del può essere utilizzato per:

• test di indipendenza: in tal caso si deve verificare l’indipendenza in una tabella a

χ 2

doppia entrata ed il test consiste nel calcolare il della tabella a doppia entrata (si

2

r s C ij

χ ∑∑

=

2

rammenta che l’espressione è in cui C = n – n * è la

ij ij ij

*ij

n

= =

i 1 j 1

contingenza pari alla differenza tra le frequenze empiriche e quelle teoriche della

tabella di indipendenza) e confrontare tale valore con quello tabulato, dipendente

da g gradi di libertà, il cui valore è g = (r-1)*(s-1) (si rammenta che trattandosi di

una tabella a doppia entrata r indica il numero delle righe ed s il numero delle

colonne);

• test di omogeneità: in tal caso si deve verificare che una distribuzione empirica sia

χ 2

stata estratta da una popolazione teorica ed il test consiste nel calcolare il con

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 20

( )

k 2

E O

χ ∑

=

2 i i

l’usuale formula (l’espressione è differenza tra tutte le

O i

=

1

i

frequenze della distribuzione empirica e le frequenze della popolazione teorica) e

confrontare tale valore con quello tabulato, dipendente da g gradi di libertà; in

questo test i gradi di libertà sono influenzati dal tipo della distribuzione teorica da

cui si ipotizza aver estratto la distribuzione empirica; infatti la distribuzione

empirica (campione) stima gli eventuali parametri di quella teorica (ad esempio

media, varianza corretta, ecc.) che riducono i gradi di libertà; il numero dei gradi di

χ 2

libertà che dovranno essere cercati sulla tavola del risulta g = k - v - 1 in cui k

= numero delle frequenze e v = numero dei parametri della distribuzione teorica

stimati da quella empirica che se trattasi di normale è pari a 2 – media e varianza –

λ

e se trattasi di Poisson è pari ad 1 – il della funzione).

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 21

Il campionamento

La teoria dei campioni consente di ottenere, tramite un campione, informazioni sui

parametri della popolazione.

Un campione è costituito da un certo numero di unità, estratte in qualche modo, da una

popolazione.

Tipi di campioni

I principali tipi di campione sono:

1) campione casuale semplice: quello ottenuto estraendo da un’urna, contenente N

palline, in successione n palline, reinserendo o meno la pallina estratta nell’urna; nel

primo caso si parla di campione bernoulliano e nel secondo caso di campione in blocco;

nel campionamento casuale semplice tutte le unità hanno la stessa probabilità di essere

inserite nel campione; la scelta casuale viene effettuata in alternativa:

attraverso l’uso delle tavole aleatorie che sono quelle in cui sono riportate cifre

ottenute con procedimenti di estrazione a sorte (per l’uso delle tavole si sceglie la

pagina con un numero di cifre pari a quelle della numerosità della popolazione,

scegliendo a caso una riga, ed inserendo nel campione le unità contrassegnate dal

numero letto – per numeri superiori a quello della popolazione si dovrà sottrarre

tale numero);

utilizzando i numeri pseudo-casuali generati da un elaboratore elettronico.

Si precisa che affinché sia possibile effettuare il tipo di campionamento casuale è

necessario che:

a) la popolazione possa essere divisa in N unità distinte;

b) sia disponibile una lista completa di tutte le N unità del collettivo.

2) campione stratificato: quello ottenuto suddividendo la popolazione in strati in

relazione a certi fattori di diversificazione del fenomeno che si sta studiando (ad

esempio per la disoccupazione è essenziale un stratificazione per provincia, per la

preparazione universitaria è essenziale un stratificazione per sede universitaria, per

facoltà, per anno di corso, per sesso, per condizione professionale del capofamiglia,

ecc.); la suddivisione in strati viene quindi attuata in forza di una diversa variabilità

del carattere che si intende studiare nei vari strati e serve a ridurre la variabilità delle

stime campionarie a parità della numerosità del campione.

In tale tipo di campione la popolazione è suddivisa in sottopopolazioni o strati e in ogni

strato si procede alla individuazione di un campione casuale semplice; è evidente che

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 22

la possibilità di effettuare stratificazioni più o meno spinte dipende sia dalla

numerosità campionaria che da considerazioni operative (ad esempio nella

stratificazione degli studenti universitari indicata si dovrebbe disporre di un elenco

degli studenti distinti per sede, per facoltà, per anno di corso, ecc.); il campionamento a

strati può essere di tipo proporzionale quando la numerosità campionaria di ogni

strato viene determinata in proporzione alla dimensione dello strato, mentre si dice

ottimo se la numerosità di ogni campione è proporzionale alla numerosità dello strato

ed alla variabilità del carattere nel singolo strato.

3) campione a più stadi: quello ottenuto estraendo dapprima le unità primarie di

campionamento e da queste le unita campionarie (ad esempio volendo effettuare un

indagine campionaria su tutto il territorio nazionale si possono estrarre dapprima i

comuni (unità primarie) su cui si intende effettuare le rilevazioni e da questi estrarre le

famiglie (unità campionarie) oggetto delle effettive osservazioni statistiche.

L’utilità del campionamento a stadi è rappresentata dal fatto che non è necessaria la

lista completa delle N unità del collettivo, ma solo quella delle unità scelte nel

campione, pertanto viene facilitata la disponibilità dell’elenco base delle N unità della

popolazione dal quale estrarre il campione.

4) campione a grappoli: quello ottenuto scegliendo, con il metodo del campionamento

semplice, gruppi di unità ed inserendo nel campione tutte le unità appartenenti ai

gruppi estratti.

Tale tipo di campionamento è indispensabile in quei casi le unità del collettivo sono

riunite in gruppi che non possono essere suddivise (volendo effettuare un controllo di

qualità su un prodotto in casse non si può che estrarre a caso un determinato numero

di casse e considerare il campione composto da tutti i prodotti delle casse estratte).

5) campione per quote: (proprio delle indagini di mercato in cui si tende a ridurre i costi

della rilevazione) quello in cui le unità campionarie sono ottenute secondo una scelta a

priori lasciata agli intervistatori secondo quote relative ai caratteri sociali presenti

nell’indagine (sesso, età, status civile, condizione professionale, ecc.).

Il campione per quote presenta svantaggi e vantaggi rispetto agli altri tipi di campione:

• non essendo applicabili gli schemi di calcolo delle probabilità, non vi è la possibilità

di stimare probabilisticamente il margine di errore dei risultati;

• il campione è rappresentativo solo dei caratteri di controllo utilizzati (quelli in base

ai quali si sono stabilite le quote) ma non rispetto a tutti i caratteri oggetto della

ricerca;

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 23

• la libertà lasciata agli intervistatori può introdurre deviazioni sistematiche capaci

di alterare la rappresentatività del campione.

Determinazione della numerosità di un campione

La dimensione di un campione assume estrema importanza sia con riferimento ai costi per

la rilevazione che alla rappresentatività del fenomeno da studiare.

Tralasciando il primo aspetto, si può affermare che la numerosità del campione è funzione

del parametro che si intende studiare; per determinare la numerosità campionaria è

necessario inoltre stabilire: δ δ

1) a priori quale percentuale di errore si è disposti ad accettare, considerando che

è inversamente proporzionale alla numerosi n;

α α

2) il livello di significatività P=1 - o l’equivalente livello di rischio =1 - P ,

considerando che P è direttamente proporzionale alla numerosità n.

Il calcolo della numerosità campionaria può pertanto avvenire per:

1) la stima di una media - in tal caso la numerosità dipende dal tipo di campione;

σ

2 2

z

α

=

• n

per campioni bernoulliani δ 2 σ

⋅ ⋅

2 2

z N

α

=

• n

per campioni senza ripetizione se la frazione di

( )

δ σ

⋅ − + ⋅

2 2 2

N z

1 α

campionamento (n/N) è sufficientemente piccola si può impiegare la formula del

campione bernoulliano;

2) la stima di una frequenza - anche in questo caso la numerosità dipende dal tipo di

campione; ⋅

2

z pq

α

=

• n

per campioni bernoulliani δ 2 ⋅ ⋅

2

z N pq

α

=

• n

per campioni senza ripetizione se la frazione di

( )

δ ⋅ − + ⋅

2 2

N z pq

1 α

campionamento (n/N) è sufficientemente piccola si può impiegare anche in questo

caso la formula del campione bernoulliano.

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire 24

Università degli Studi di Roma ‘La Sapienza’

FACOLTÀ DI SOCIOLOGIA

Cattedra di Statistica

Prof.ssa Mary Fraire

Docente: Bruno Delle Donne

a.a. 2004-05

Test

sui diversi argomenti trattati durante il

Corso Intensivo di supporto

(i test sono duplici in quanto il test di esame riporterà solo 5 domande

relative al modulo progredito e non 10 come indicato nei successivi casi)

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 25

Test 1-2

COGNOME…………….……… NOME……………..………….. N.Matr……………… N.O.

V.O . solo 40

Corso di laurea: Sociologia Specialistica 40+20

STESS MODULO PROGREDITO (solo 20) solo 20

GORU

Utilizzando la tavola della curva normale standardizzata (riportata nel retro) risolvere le

1 seguenti espressioni relative alla probabilità compresa in prefissati intervalli

Pr( z < 1,23 ) = Pr( 0,75 < z < 2,92) = Pr( z < z* ) = 0,97907

Calcolare la probabilità che estraendo una carta da un mazzo di carte napoletane questa sia

2 un asso o una figura.

) Risposta: p =

Data una popolazione di N = 7 unità statistiche, quanti sono tutti i possibili campioni con

3 P

ripetizione (bernoulliano) avendo fissato la numerosità del campione n uguale a 3 (formula

e calcoli sul retro)? ⋅

4 p ( E ) p ( H / E )

Nella formula di Bayes la probabilità p(E/H) è la probabilità:

=

p ( E / H ) p ( H )

a) finale dell’evento E subordinatamente ad H ; b) a priori o iniziale dell’evento E;

c) probativa con cui l’evento E genera H.

5 Scrivere la formula della curva normale o di Gauss, standardizzata e non, ed indicarne

l’intervallo di definizione: Ω

Lo spazio campionario relativo al lancio di due monete è rappresentato da (Ω = ……)

6

7 σ 2

= = =

Dati si calcoli l’intervallo di confidenza, avendo fissato = 0,05;

x 173 ; 125 ; n 360 α

nella risposta indicare sia la formula che il risultato

8 Per la variabile casuale campionaria media , v.c.c. , è valida l’uguaglianza:

X X

µ n

µ µ

= = =

a) ; b) ; c)

E ( X ) E X E X

( ) ( )

n n 1

Determinare la numerosità campionaria nel caso di estrazione bernuolliana se si vuole

9 considerare il sinistro medio campionario rappresentativo di quello dell’intera popolazione

σ

considerando che lo scarto ( ) è risultato 120, l’errore ammesso (ð) è 4 ed il livello di

α

probabilità (1- ) è 90%

La distribuzione della curva normale o di Gauss dipende dai parametri

10 µ σ α α

a) ; ; b) g = n-1; ; c) g = k – v – 1;

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 26

Test 3-4

COGNOME…………….……… NOME……………..………….. N.Matr……………… N.O.

V.O . solo 40

Corso di laurea: Sociologia Specialistica 40+20

STESS MODULO PROGREDITO (solo 20) solo 20

GORU

Per una tabella a doppia entrata con 6 righe e 3 colonne, mediante l’impiego delle tavole del

1 χ α

2

χ

² (v. retro del foglio), dire qual’è il valore teorico del avendo prefissato = 0,01

α

g ,

Calcolare la probabilità che lanciando due dadi si presenti il numero sette.

2 ) Risposta: p =

Calcolare la probabilità che estraendo una pallina da un urna, contenente 12 palline

3 bianche, 13 palline verdi, 18 palline rosse e 7 palline nere, questa sia rossa.

a) Risposta: p =

Il teorema delle probabilità totali per due eventi compatibili E ed E è rappresentato

4 1 2

dall’espressione:

a) ( ) = ( )+ ( )- ( ) ; b) ( ) = ( )+ ( ) ; c) ( ) = ( )* ( )

p E o E p E p E p E e E p E o E p E p E p E o E p E p E

1 2 1 2 1 2 1 2 1 2 1 2 1 2

La curva normale o di Gauss, già standardizzata, è data dall’espressione seguente, con

5 accanto la rispettiva area: ( )

− 2

x M

1 1

− −

2 2

x x

1 1 1

σ

= = =

2

a) ; b) ; c)

2 2

y e : 0 ,

5 y e : 0 ,

5 y e : 1

π σ π π

2 2 2

L’universo dei campioni è:

6 a) la popolazione P ;

b) tutti i possibili campioni estratti dalla popolazione ;

c) tutte le possibili popolazioni estratte da un campione

µ

= ⋅ ⋅ = ⋅ ⋅ =

2

Dati si provi l’ipotesi nulla H : = 13,5 contro l’ipotesi alternativa

x s n

12 ; 30 ; 18

7 0

µ ≠ α

(bidirezionale) H : 13,5 al livello di significatività prefissato = 0,02. Nella risposta

1

indicare sia la formula della ‘statistica test’ impiegata con il risultato, sia se si accetta o

meno l’ipotesi nulla.

µ µ

a) Accetto H : = 13,5 ; b) Rifiuto H : = 13,5

0 0

8 Il numero di tutti i campioni possibili di numerosità n estratti casualmente in blocco da una

popolazione di N unità è dato da:

N ! N ! n

a) ; b) ; c) N

⋅ −

n N n

! ( )!

n

!

Rappresentare lo spazio campionario relativo all’estrazione di una carta da un mazzo di

9 Ω

carte napoletane (Ω = ……………………………)

Uno stimatore è :

10 a) il risultato di una funzione dei dati campionari ;

b) un particolare indice per la stima della regressione ;

c) una funzione dei dati campionari

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire


PAGINE

53

PESO

519.26 KB

PUBBLICATO

+1 anno fa


DETTAGLI
Esame: Statistica
Corso di laurea: Corso di laurea in sociologia
SSD:
Docente: Fraire Mary
A.A.: 2013-2014

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher valeria0186 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università La Sapienza - Uniroma1 o del prof Fraire Mary.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Statistica

Statistica - Appunti
Appunto
Statistica
Appunto
Economia dello sviluppo - Introduzione
Appunto
Economia politica - Fondamenti
Appunto