Che materia stai cercando?

Supporto all’esame di Statistica Appunti scolastici Premium

Appunti di Statistica della prof.ssa Fraire sul supporto all’esame di Statistica: il calcolo delle probabilità, l'inferenza statistica, il campionamento, i test e le risposte, gli appunti con riepilogo degli argomenti, delle definizioni e degli algoritmi.

Esame di Statistica docente Prof. M. Fraire

Anteprima

ESTRATTO DOCUMENTO

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 10

simmetrica corrisponde a quella a destra dell’ascissa 1,55,

cioè (come indicato all’esempio precedente) 1 –

(0,5+0,43943) = 0,06057;

Pr(z<z*) = 0,89617 - sarà sufficiente cercare, all’interno della tavola, l’area pari

o a 0,89617 - 0,5=0,39617 che corrisponde ad una ascissa 1,26,

cioè z*=1,26;

Pr(z>z*) = 0,14007 - tale area essendo quella a destra dell’ascissa z*, è ottenuta

o dalla differenza tra 1 e l’area inferiore all’ascissa z*, cioè 1

- Pr(z<z*), per cui quest’ultima sarà uguale a 1 – 0,14007 =

0,85993; pertanto per tutto quello già indicato sarà

sufficiente cercare all’interno della tavola l’area 0,85993-

0,5=0,35993 che corrisponde ad una ascissa 1,08, cioè

z*=1,08; x

λ λ

=

2. distribuzione di Poisson: è una distribuzione discreta la cui equazione è P ( x ) e

x !

che può ottenersi dalla binomiale quando p è piccolissimo, n molto grande e la media

np tenda ad una costante; le caratteristiche della distribuzione sono:

• rappresenta la distribuzione di eventi rari (p è piccolissimo);

• λ

la media della distribuzione è che è anche la varianza;

• λ

il massimi della distribuzione si ha in corrispondenza di se questo non è

λ λ

intero oppure in corrispondenza di e -1 se questo non è intero.

3. altre distribuzioni: oltre le precedenti distribuzioni, per le analisi statistiche sono

χ

2 t F

importanti le distribuzioni del , della di Student e della di Fisher-Snedecor

le cui espressioni analitiche risultano complesse e non necessarie per il loro utilizzo

nella parte dell’inferenza statistica oggetto dello studio del presente corso e delle

quali è invece necessario l’utilizzo nelle applicazioni pratiche: α

• χ 2

la distribuzione del è tabulata e dipende dall’aliquota (livello di rischio)

e g (gradi di libertà) che verranno entrambi studiati nel capitolo

dell’inferenza; α

• t

la distribuzione della di Student è tabulata e dipende dall’aliquota

(livello di rischio) e n (gradi di libertà = numerosità campionaria) che

verranno entrambi studiati nel capitolo dell’inferenza;

• F

la distribuzione della di Fisher-Snedecor è tabulata e dipende

α

dall’aliquota (livello di rischio) e da due gradi di libertà g1 e g2 che

verranno entrambi studiati nel capitolo dell’inferenza.

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 11

Inferenza statistica

Vista la pratica impossibilità di esaminare uno o più caratteri di un intera popolazione

(tempi e costi relativi all’impiego di ingenti risorse) si tende ad osservare tali caratteri in

una parte della popolazione e ad estendere, con opportuni procedimenti, le conclusioni

ricavate dal campione all’intera popolazione.

L’inferenza statistica è il procedimento induttivo che, avvalendosi del calcolo delle

probabilità, consente appunto di estendere all’intera popolazione le informazioni fornite

dal campione.

Popolazione e campione

Il campione è un parte della popolazione sulle cui unità si vogliono effettuare le rilevazioni

per l’individuazione dei valori caratteristici della popolazione.

Si definiscono parametri i valori caratteristici della popolazione da stimare; ad esempio la

media, un indice di variabilità, la probabilità di un evento, ecc..

Si definiscono statistiche le funzioni delle osservazioni campionarie ottenute dalla

rilevazione (quindi dipendenti dagli elementi del campione); ad esempio la media, la

frequenza di un evento, ecc.

Negli algoritmi gli elementi

• del campione vengono indicati con: n la numerosità, m l a media, s lo scarto

quadratico medio, f la frequenza relativa, ecc.. µ σ

• della popolazione sono rappresentati da: N numerosità, la media, lo scarto

quadratico medio, ecc., in generale con una lettera greca corrispondente alla lettera

dell’elemento campionario.

Il modo più comune per poter scegliere le unità da inserire nel campione è quello di

estrarle a caso da un’urna contenente tutte le unità della popolazione. Tale tipo di

campione viene appunto detto campione casuale. Nella teoria dei campioni si distinguono:

grandi campioni e piccoli campioni; normalmente sono definiti piccoli campioni quelli in

cui n è minore di 30 (campioni riferiti a ricerche sperimentali in cui sono presenti

difficoltà di attuazione) .

L’estrazione casuale può essere effettuata:

• una dopo l’altra sia con ripetizione (quando l’unità estratta viene reinserita nell’urna)

che senza ripetizione;

• in blocco cioè tutte assieme in un’unica estrazione.

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 12

Nel caso di estrazione con ripetizione, la popolazione da cui estrarre le unità è

sempre la stessa e la probabilità di estrazione non risulta subordinata dalle

precedenti estrazioni; pertanto il numero dei possibili campioni estraibili dalla

popolazione sarà rappresentato dalle disposizioni con ripetizione di N elementi di

n

classe n, cioè , mentre la probabilità di estrarre una n-upla prefissata (x , x , x ,

N 1 2 3

……, x ) sarà pari a (si rammenta che si applicherà il teorema delle probabilità

n

composte per eventi indipendenti):

( ) ( ) ( )

( ) ( )

= ⋅ ⋅ ⋅ ⋅

= = = =

P x , x , x ,......., x P X x P X x P X x ........ P X x

1 2 3 n 1 1 2 2 3 3 n n

Nel caso di estrazione senza ripetizione, la popolazione da cui estrarre le unità si

modifica e la probabilità di estrazione risulta subordinata dalle precedenti

estrazioni; pertanto il numero dei possibili campioni estraibili dalla popolazione

sarà rappresentato dalle disposizioni senza ripetizione di N elementi presi ad n ad n

N !

cioè , mentre la probabilità di estrarre una n-upla prefissata sarà pari a (si

( )

N k !

rammenta che si applicherà il teorema delle probabilità composte per eventi

dipendenti quindi probabilità subordinate):

( ) ( )

( ) ( )

= ⋅ = = ⋅ ⋅

= = = =

P x , x , x ,......., x P X x P X x / X x P X x / X x , X x ........

1 2 3 n 1 1 2 2 1 1 3 3 1 1 2 2

( )

⋅ = = = = =

P X x / X x , X x , X x ,......., X x

− −

n n 1 1 2 2 3 3 n 1 n 1

Nel caso di estrazione in blocco, ogni unità della popolazione non può presentarsi

più di una volta ed inoltre, visto che manca un ordine di estrazione, due campioni

debbono differire per almeno un elemento; pertanto il numero dei possibili

campioni estraibili dalla popolazione sarà rappresentato dalle combinazioni senza

 

N

N ! ≡  

ripetizione di N elementi presi ad n ad n cioè , mentre la

 

⋅ −  

k ! ( N k )! k

probabilità di estrarre una n-upla prefissata sarà pari a quella indicata per

l’estrazione senza ripetizione

Variabili aleatorie campionarie

Considerando un carattere X di una popolazione, si indichi con (X , X , X , ……., X ) un

1 2 3 n

campione estratto in modo casuale dalla popolazione stessa (denominato pertanto

variabile casuale o aleatoria) e con (x , x , x , ……., x ) una possibile determinazione di

1 2 3 n

tale carattere. Per ciascuno dei campioni estraibili dalla popolazione si può considerare

una particolare funzione h della determinazione del carattere data da:

y=h (x , x , x , ……., x )

1 2 3 n

E’ evidente che al variare del campione si avrà un diverso valore della y ; tale valore,

legato al diverso campione casuale a cui si riferisce, si definisce variabile casuale o

aleatoria dipendente dalle determinazioni campionarie (indicata con v.a.c. variabile

aleatoria campionaria).

Si possono ad esempio considerare le v.a.c.:

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 13

n

=

Y X somma degli elementi del campione

i

=

1

i n

∑ X i

=

= 1

i

X media campionaria

n

n

∑ X i

=

= i 1

M momento r-esimo campionario

r n

n −

∑ 2

( X X )

i

=

=

2 1

i

S varianza campionaria

n

{ }

=

( )

Y min X , X , X ,......... , X minimo elemento del campione

1 1 2 3 n

( )

=

Y med X , X , X ,......... , X mediana campionaria

1 2 3

med n

Al variare del campione la v.a.c. avrà una distribuzione (avrà cioè una successione di

valori) su cui sarà possibile individuare i valori statistici tipici (media e varianza); si può

pertanto indicare che: ( )

• la distribuzione campionaria della media dei campioni presenta:

X varianza

media estrazione bernoulliana estrazione in blocco

σ σ −

2 2

( ) ( ) ( ) N n

µ

= = = ⋅

E X Var X Var X −

n n N 1

2

• S

la distribuzione campionaria della varianza dei campioni presenta media

( ) −

n 1

σ

= ⋅

2 2

E S ; nei casi in cui sia necessario che la varianza campionaria abbia

n

media pari alla varianza della popolazione è necessario utilizzare la varianza

( ) ( )

2

∑ x x

n i σ

= ⋅ = =

2 2 2 2

s s E S

in modo tale che

corretta − −

n 1 n 1

Teorema del limite centrale

Sia X , X , X , ……., X un campione bernoulliano estratto da una popolazione, non

1 2 3 n µ σ 2

necessariamente normale, di media e varianza , la distribuzione della media al

X

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 14

µ σ 2

crescere di n tende alla distribuzione normale media e varianza /n (vedi

distribuzione della media del punto precedente). Ne deriva che attuando la

µ

X

=

Y

trasformazione la variabile Y tende a distribuirsi come una normale

σ n

µ = 0 e varianza unitaria.

standardizzata con media

L’importanza del teorema è rappresentata dal fatto che se n è sufficientemente grande

(una buona approssimazione si ha quando n≥

30) la distribuzione campionaria della

variabile (media del campione) si riconduce ad una distribuzione normale di cui si

X

conosce la funzione di densità.

Problemi dell’inferenza statistica

I principali problemi dell’inferenza statistica sono rappresentati da:

• stima statistica dei parametri di una popolazione;

• verifica delle ipotesi statistiche (validità di certe assunzioni).

Stima dei parametri

La teoria della stima statistica dei parametri mira a determinare la funzione delle

osservazioni più adatta per la valutazione del parametro incognito della popolazione

partendo dai dati del campione.

La stima del parametro di una popolazione (media, mediana, varianza, frequenza, ecc.),

Θ

indicato con , si realizza di fatto attraverso una funzione delle osservazioni

campionarie, detta stimatore indicata con t (x , x , x , ……., x ) in cui X si riferisce alla

1 2 3 n i

i-esima osservazione suscettibile di assumere una qualunque delle determinazioni

possibili. Sostituendo nella funzione i valori effettivamente osservati (x , x , x , ……., x )

1 2 3 n

si ottiene un valore che viene appunto denominato stima del parametro dato da

( )

Θ =

) t x , x , x ,......... , x .

1 2 3 n

In una prima approssimazione si sceglie l’espressione matematica dello stimatore in

analogia con l’espressione matematica del parametro da stimare (per stimare la media si

può utilizzare la media del campione, per stimare la varianza si può utilizzare la varianza

del campione, per stimare una percentuale si può utilizzare la percentuale desunta dal

campione, ecc.). In ogni caso le corrispondenti stime, diverse per ciascun campione

possibile, danno origine ad una distribuzione casuale.

Uno stimatore viene detto (proprietà dello stimatore):

non distorto

, corretto o centrato, se il suo valore medio è uguale al valore del

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 15

parametro della popolazione da stimare;

efficiente,

se la sua varianza è minore di quella ottenibile con altri stimatori

(confronto effettuato a parità di altre condizioni);

consistente,

se i valori stimati convergono, al crescere della dimensione del

campione, con probabilità tendente ad uno, al valore del parametro da stimare;

sufficiente,

se esso sintetizza tutte le informazioni disponibili intorno al parametro

da stimare.

Facendo riferimento a quanto indicato per le distribuzioni campionarie della media e

della varianza, si può affermare che:

• la media aritmetica di un campione è una stima non distorta della media della

( ) µ

=

E X

popolazione; infatti si è affermato che

• 2 è una stima distorta della varianza della

la varianza campionaria S ( ) −

n 1

σ

= ⋅

2 2

E S

popolazione; infatti si è affermato che n

2

• S è una stima non distorta della varianza

la varianza campionaria corretta ( ) σ

=

2 2

E S

della popolazione; infatti si è affermato che

Intervallo di confidenza Θ

Θ

)

Disponendo della distribuzione campionaria dello stimatore del parametro si può

ricavare la probabilità che lo stimatore cada entro un intervallo prefissato dal parametro

( )

δ δ

Θ − ≤ Θ ≤ Θ +

)

Pr che esprime la frequenza relativa (o la

da stimare, data da Θ Θ δ Θ δ

probabilità) dei campioni che hanno la stima del parametro compresa (Θ

).

L’espressione in parentesi, con semplici passaggi, si può anche scrivere

( )

δ δ δ δ

Θ − ≤ Θ ≤ Θ + Θ − ≤ Θ ≤ Θ +

) )

) ) Pr

individuando pertanto la che esprime la

( )

δ δ

Θ − Θ +

) )

,

probabilità che il parametro da stimare cada nell’intervallo .

Si deve osservare che:

• l’espressione in parentesi della prima probabilità indica un valore variabile (lo

Θ

)

stimatore è una delle possibili determinazioni al variare del campione) inserito

Θ

in un intervallo fisso (il parametro è un valore incognito da stimare),

• l’espressione in parentesi della seconda probabilità indica un valore fisso incluso in

due intervalli variabili; con tali intervalli ci si accontenta di fatto di determinare,

accettando un prefissato rischio di errore, un intervallo entro cui si dovrebbe

α

trovare il parametro da stimare; il livello di rischio si indica con = 1 – P , mentre

α

P = 1 – viene detto livello di confidenza.

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 16

α

Pertanto fissato si può scrivere

( )

δ δ

Θ − ≤ Θ ≤ Θ + α

) )

Pr = 1 – α

che sta a significare che, con probabilità 1 – , possiamo ritenere vera l’affermazione che

il parametro da stimare sia compreso nell’intervallo, variabile con il campione,

( )

δ δ

Θ − Θ +

) )

, .

E’ possibile individuare l’intervallo di confidenza per i seguenti parametri:

1. media della popolazione: σ

a. se è noto lo scarto della popolazione , tenuto conto del teorema del limite

σ σ

µ

− ≤ ≤ +

X z X z

centrale l’intervallo è rappresentato da in cui z

α α α

n n

è il valore della curva normale che racchiude a sinistra (nel quadrante positivo

pari a metà della curva) un area pari a (0,5 – α/2);

σ

b. se non è noto lo scarto della popolazione , questo viene stimato con la radice

µ

x

=

s t

dello stimatore corretto ( ); in tal caso la quantità si distribuisce

s n

secondo la t di Student e l’intervallo di confidenza sarà dato da

s s

µ

− ≤ ≤ + t t

X t X t in cui è il valore tabulato nella di

α α

− − n-1,α

n 1

, n .

1

,

n n

Student in corrispondenza di g = n-1 gradi di libertà e del valore di qualora n

α;

t di Student si

sia sufficientemente grande (di solito maggiore di 100) la

approssima molto bene ad una normale, quindi l’intervallo di confidenza sarà

s s

µ

− ≤ ≤ +

dato da in cui z è il valore indicato al punto a.

X z X z

α α α

n n

2. percentuale della popolazione: visto che la distribuzione del numero k delle volte in

cui si è verificato un evento su n prove si distribuisce secondo la binomiale e che si

vuole individuare la percentuale k/n:

a. per piccoli campioni, gli estremi dell’intervallo di confidenza andranno calcolati

ricordando che la binomiale è una distribuzione discreta; pertanto andranno

ricercati sulla tavola della funzione di ripartizione i valori della x che

x x −

α α

   

t s 1

n n

− −

∑ ∑

≤ ≥ −

x n x x n x

    1

p q p q

e

soddisfano le due relazioni    

   

2 2

x x

= =

0 0

i i

+

x 1 x −

≤ ≤

t s 1

p

in modo da poter affermare che l’intervallo è (per poter

n n

riscrivere la probabilità che esprime l’intervallo di confidenza dovranno essere

assunti i valori esatti della funzione di ripartizione – quelli letti nella ricerca di x

t

ed x – che esprimeranno il livello di confidenza P);

s-1

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 17

b. per grandi campioni, ricordando che per n sufficientemente grande la

binomiale si approssima ad una distribuzione normale di media np e varianza

npq (si rammenta che la probabilità contraria q è pari a 1 – p), la frequenza

n p

) p

)

cercata si distribuirà secondo una normale con media (cioè ) e varianza

n

p q

) )

n p q

) ) (cioè ), si può affermare che l’intervallo è

2 n

n ) ) ) )

p q p q

− ≤ ≤ +

p z p p z

) )

α α

n n

Verifica delle ipotesi

La teoria della verifica delle ipotesi consiste nello stabilire se l’assunzione fatta si possa

accettare o meno sulla base delle osservazioni condotte sul campione. Un “test” per

provare un’ipotesi statistica è un criterio per accettare o respingere l’ipotesi fatta.

L’ipotesi statistica che si vuole provare con il test sul valore di un parametro è

), mentre si indica con H l’ipotesi alternativa

denominata ipotesi nulla (indicata con H 0 1 Ω

che è quella formulata sul valore alternativo del parametro. Quindi indicando con

Θ

l’insieme di tutti i valori che il parametro incognito può assumere e dividendolo in due

sottoinsiemi, l’ipotesi nulla prevede che il parametro incognito cada nel primo

sottoinsieme e quella alternativa che cada nel secondo sottoinsieme.

Pertanto scelta la statistica test, nello spazio campionario si individuerà una regione R

, che si chiama regione di rifiuto o critica, per cui si rifiuterà l’ipotesi nulla se la statistica

cadrà in essa, si accetterà l’ipotesi nulla se cadrà al di fuori di R (area che verrà

denominata A o di accettazione).

Possono essere commessi due diversi errori nel test delle ipotesi:

a) errore di 1° tipo o di prima specie se si rifiuta l’ipotesi nulla quando questa è vera;

b) errore di 2° tipo o di seconda specie se si accetta l’ipotesi nulla quando questa è

falsa. α β

e :

A questi due tipi di errore siono associate due diverse probabilità

α

a) è la probabilità che la statistica test cada nella regione R quando H è vera;

0

β

b) è la probabilità che la statistica test cada nella regione A quando H è falsa.

0

α

In definitiva avendo fissato a priori il livello di errore (errore che si è disposti ad

accettare), tra le diverse regioni di rifiuto R dovrà essere scelta quella che rende minimo

l’errore di seconda specie.

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 18

Verifica delle ipotesi per una media µ

=

H : X

Nel caso di una media, l’ipotesi nulla corrisponde a e quella alternativa

0

µ µ

≠ >

H : X H : X

potrà essere bidirezionale: oppure unidirezionale (oppure

0 0

µ

<

H : X )

0

La statistica test dipende dalle informazioni che si hanno sulla varianza della popolazione:

1) se questa è nota allora la statistica test (che si avvale della distribuzione normale) è:

µ

X

=

• z

per test bidirezionali ;

σ n µ

X

=

• z

per test unidirezionali σ n

2) se non è nota allora la statistica test è:

µ

X

=

• t

per test bidirezionali ;

s n µ

X

=

• t

per test unidirezionali s n ≥

t

per l’uso dei valori di si dovrà distinguere tra grandi campioni (per n 100), per i

quali la statistica test può fare riferimento alla distribuzione normale, e piccoli

campioni, per i quali si dovrà fare riferimento alla distribuzione di Student.

Verifica delle ipotesi per una frequenza =

H : p p

)

Nel caso di una frequenza, l’ipotesi nulla corrisponde a e quella alternativa

0

≠ >

H : p p H : p p

) )

potrà essere bidirezionale: oppure unidirezionale (oppure

0 0

<

H : p p

) ); inoltre visto che la distribuzione del numero k delle volte in cui si è

0

verificato un evento su n prove si distribuisce secondo la binomiale, avremo:

• per i piccoli campioni la statistica test è rappresentata direttamente dal valore del

livello di confidenza;

• per i grandi campioni, poiché per n sufficientemente grande la binomiale si

approssima ad una distribuzione normale e che pertanto, volendo individuare la

p

frequenza k/n, questa si approssima ad una distribuzione normale di media e

p q

) )

varianza , la statistica test (che si avvale della distribuzione normale) è

n

p p

)

=

z p q

) ) n

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 19

Valore teorico di riferimento

In tutti i tipi di test sopra indicati, determinato il valore della statistica test, questo si

dovrà controllare con il valore della distribuzione di riferimento; cioè se la distribuzione

è: α

• la normale - si individua il valore z che delimita a sinistra un’area pari a 0,5 - /2 e

α

si confronta il valore della statistica test con quest’ultimo valore: se il valore del test è

minore si accetta l’ipotesi nulla, altrimenti la si rifiuta;

• t t t

la di Student - si individua il valore sulla tabella della di Student con g=n-1

α

n-1,

α

gradi di libertà e funzione di e si confronta il valore della statistica test con

quest’ultimo valore: se il valore del test è minore si accetta l’ipotesi nulla, altrimenti la

si rifiuta. n  

n −

∑ k n k

 

• p q

la binomiale - si individua il valore dell’espressione sulla tabella della

 

 

k

=

i k

binomiale e si confronta il valore della statistica test con quest’ultimo valore: se il

valore del test è minore si accetta l’ipotesi nulla, altrimenti la si rifiuta.

χ 2

Test del χ 2

In una tabella a doppia entrata l’indice misura la dipendenza tra i due caratteri della

tabella ed è ottenuto dalla differenza tra le frequenze empiriche e quelle teoriche di

indipendenza; pertanto se l’ipotesi di indipendenza fosse vera la differenza dovrebbe

essere molto piccola, mentre se fosse falsa la differenza dovrebbe essere molto grande.

χ 2

Il test del può essere utilizzato per:

• test di indipendenza: in tal caso si deve verificare l’indipendenza in una tabella a

χ 2

doppia entrata ed il test consiste nel calcolare il della tabella a doppia entrata (si

2

r s C ij

χ ∑∑

=

2

rammenta che l’espressione è in cui C = n – n * è la

ij ij ij

*ij

n

= =

i 1 j 1

contingenza pari alla differenza tra le frequenze empiriche e quelle teoriche della

tabella di indipendenza) e confrontare tale valore con quello tabulato, dipendente

da g gradi di libertà, il cui valore è g = (r-1)*(s-1) (si rammenta che trattandosi di

una tabella a doppia entrata r indica il numero delle righe ed s il numero delle

colonne);

• test di omogeneità: in tal caso si deve verificare che una distribuzione empirica sia

χ 2

stata estratta da una popolazione teorica ed il test consiste nel calcolare il con

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 20

( )

k 2

E O

χ ∑

=

2 i i

l’usuale formula (l’espressione è differenza tra tutte le

O i

=

1

i

frequenze della distribuzione empirica e le frequenze della popolazione teorica) e

confrontare tale valore con quello tabulato, dipendente da g gradi di libertà; in

questo test i gradi di libertà sono influenzati dal tipo della distribuzione teorica da

cui si ipotizza aver estratto la distribuzione empirica; infatti la distribuzione

empirica (campione) stima gli eventuali parametri di quella teorica (ad esempio

media, varianza corretta, ecc.) che riducono i gradi di libertà; il numero dei gradi di

χ 2

libertà che dovranno essere cercati sulla tavola del risulta g = k - v - 1 in cui k

= numero delle frequenze e v = numero dei parametri della distribuzione teorica

stimati da quella empirica che se trattasi di normale è pari a 2 – media e varianza –

λ

e se trattasi di Poisson è pari ad 1 – il della funzione).

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 21

Il campionamento

La teoria dei campioni consente di ottenere, tramite un campione, informazioni sui

parametri della popolazione.

Un campione è costituito da un certo numero di unità, estratte in qualche modo, da una

popolazione.

Tipi di campioni

I principali tipi di campione sono:

1) campione casuale semplice: quello ottenuto estraendo da un’urna, contenente N

palline, in successione n palline, reinserendo o meno la pallina estratta nell’urna; nel

primo caso si parla di campione bernoulliano e nel secondo caso di campione in blocco;

nel campionamento casuale semplice tutte le unità hanno la stessa probabilità di essere

inserite nel campione; la scelta casuale viene effettuata in alternativa:

attraverso l’uso delle tavole aleatorie che sono quelle in cui sono riportate cifre

ottenute con procedimenti di estrazione a sorte (per l’uso delle tavole si sceglie la

pagina con un numero di cifre pari a quelle della numerosità della popolazione,

scegliendo a caso una riga, ed inserendo nel campione le unità contrassegnate dal

numero letto – per numeri superiori a quello della popolazione si dovrà sottrarre

tale numero);

utilizzando i numeri pseudo-casuali generati da un elaboratore elettronico.

Si precisa che affinché sia possibile effettuare il tipo di campionamento casuale è

necessario che:

a) la popolazione possa essere divisa in N unità distinte;

b) sia disponibile una lista completa di tutte le N unità del collettivo.

2) campione stratificato: quello ottenuto suddividendo la popolazione in strati in

relazione a certi fattori di diversificazione del fenomeno che si sta studiando (ad

esempio per la disoccupazione è essenziale un stratificazione per provincia, per la

preparazione universitaria è essenziale un stratificazione per sede universitaria, per

facoltà, per anno di corso, per sesso, per condizione professionale del capofamiglia,

ecc.); la suddivisione in strati viene quindi attuata in forza di una diversa variabilità

del carattere che si intende studiare nei vari strati e serve a ridurre la variabilità delle

stime campionarie a parità della numerosità del campione.

In tale tipo di campione la popolazione è suddivisa in sottopopolazioni o strati e in ogni

strato si procede alla individuazione di un campione casuale semplice; è evidente che

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 22

la possibilità di effettuare stratificazioni più o meno spinte dipende sia dalla

numerosità campionaria che da considerazioni operative (ad esempio nella

stratificazione degli studenti universitari indicata si dovrebbe disporre di un elenco

degli studenti distinti per sede, per facoltà, per anno di corso, ecc.); il campionamento a

strati può essere di tipo proporzionale quando la numerosità campionaria di ogni

strato viene determinata in proporzione alla dimensione dello strato, mentre si dice

ottimo se la numerosità di ogni campione è proporzionale alla numerosità dello strato

ed alla variabilità del carattere nel singolo strato.

3) campione a più stadi: quello ottenuto estraendo dapprima le unità primarie di

campionamento e da queste le unita campionarie (ad esempio volendo effettuare un

indagine campionaria su tutto il territorio nazionale si possono estrarre dapprima i

comuni (unità primarie) su cui si intende effettuare le rilevazioni e da questi estrarre le

famiglie (unità campionarie) oggetto delle effettive osservazioni statistiche.

L’utilità del campionamento a stadi è rappresentata dal fatto che non è necessaria la

lista completa delle N unità del collettivo, ma solo quella delle unità scelte nel

campione, pertanto viene facilitata la disponibilità dell’elenco base delle N unità della

popolazione dal quale estrarre il campione.

4) campione a grappoli: quello ottenuto scegliendo, con il metodo del campionamento

semplice, gruppi di unità ed inserendo nel campione tutte le unità appartenenti ai

gruppi estratti.

Tale tipo di campionamento è indispensabile in quei casi le unità del collettivo sono

riunite in gruppi che non possono essere suddivise (volendo effettuare un controllo di

qualità su un prodotto in casse non si può che estrarre a caso un determinato numero

di casse e considerare il campione composto da tutti i prodotti delle casse estratte).

5) campione per quote: (proprio delle indagini di mercato in cui si tende a ridurre i costi

della rilevazione) quello in cui le unità campionarie sono ottenute secondo una scelta a

priori lasciata agli intervistatori secondo quote relative ai caratteri sociali presenti

nell’indagine (sesso, età, status civile, condizione professionale, ecc.).

Il campione per quote presenta svantaggi e vantaggi rispetto agli altri tipi di campione:

• non essendo applicabili gli schemi di calcolo delle probabilità, non vi è la possibilità

di stimare probabilisticamente il margine di errore dei risultati;

• il campione è rappresentativo solo dei caratteri di controllo utilizzati (quelli in base

ai quali si sono stabilite le quote) ma non rispetto a tutti i caratteri oggetto della

ricerca;

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 23

• la libertà lasciata agli intervistatori può introdurre deviazioni sistematiche capaci

di alterare la rappresentatività del campione.

Determinazione della numerosità di un campione

La dimensione di un campione assume estrema importanza sia con riferimento ai costi per

la rilevazione che alla rappresentatività del fenomeno da studiare.

Tralasciando il primo aspetto, si può affermare che la numerosità del campione è funzione

del parametro che si intende studiare; per determinare la numerosità campionaria è

necessario inoltre stabilire: δ δ

1) a priori quale percentuale di errore si è disposti ad accettare, considerando che

è inversamente proporzionale alla numerosi n;

α α

2) il livello di significatività P=1 - o l’equivalente livello di rischio =1 - P ,

considerando che P è direttamente proporzionale alla numerosità n.

Il calcolo della numerosità campionaria può pertanto avvenire per:

1) la stima di una media - in tal caso la numerosità dipende dal tipo di campione;

σ

2 2

z

α

=

• n

per campioni bernoulliani δ 2 σ

⋅ ⋅

2 2

z N

α

=

• n

per campioni senza ripetizione se la frazione di

( )

δ σ

⋅ − + ⋅

2 2 2

N z

1 α

campionamento (n/N) è sufficientemente piccola si può impiegare la formula del

campione bernoulliano;

2) la stima di una frequenza - anche in questo caso la numerosità dipende dal tipo di

campione; ⋅

2

z pq

α

=

• n

per campioni bernoulliani δ 2 ⋅ ⋅

2

z N pq

α

=

• n

per campioni senza ripetizione se la frazione di

( )

δ ⋅ − + ⋅

2 2

N z pq

1 α

campionamento (n/N) è sufficientemente piccola si può impiegare anche in questo

caso la formula del campione bernoulliano.

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire 24

Università degli Studi di Roma ‘La Sapienza’

FACOLTÀ DI SOCIOLOGIA

Cattedra di Statistica

Prof.ssa Mary Fraire

Docente: Bruno Delle Donne

a.a. 2004-05

Test

sui diversi argomenti trattati durante il

Corso Intensivo di supporto

(i test sono duplici in quanto il test di esame riporterà solo 5 domande

relative al modulo progredito e non 10 come indicato nei successivi casi)

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 25

Test 1-2

COGNOME…………….……… NOME……………..………….. N.Matr……………… N.O.

V.O . solo 40

Corso di laurea: Sociologia Specialistica 40+20

STESS MODULO PROGREDITO (solo 20) solo 20

GORU

Utilizzando la tavola della curva normale standardizzata (riportata nel retro) risolvere le

1 seguenti espressioni relative alla probabilità compresa in prefissati intervalli

Pr( z < 1,23 ) = Pr( 0,75 < z < 2,92) = Pr( z < z* ) = 0,97907

Calcolare la probabilità che estraendo una carta da un mazzo di carte napoletane questa sia

2 un asso o una figura.

) Risposta: p =

Data una popolazione di N = 7 unità statistiche, quanti sono tutti i possibili campioni con

3 P

ripetizione (bernoulliano) avendo fissato la numerosità del campione n uguale a 3 (formula

e calcoli sul retro)? ⋅

4 p ( E ) p ( H / E )

Nella formula di Bayes la probabilità p(E/H) è la probabilità:

=

p ( E / H ) p ( H )

a) finale dell’evento E subordinatamente ad H ; b) a priori o iniziale dell’evento E;

c) probativa con cui l’evento E genera H.

5 Scrivere la formula della curva normale o di Gauss, standardizzata e non, ed indicarne

l’intervallo di definizione: Ω

Lo spazio campionario relativo al lancio di due monete è rappresentato da (Ω = ……)

6

7 σ 2

= = =

Dati si calcoli l’intervallo di confidenza, avendo fissato = 0,05;

x 173 ; 125 ; n 360 α

nella risposta indicare sia la formula che il risultato

8 Per la variabile casuale campionaria media , v.c.c. , è valida l’uguaglianza:

X X

µ n

µ µ

= = =

a) ; b) ; c)

E ( X ) E X E X

( ) ( )

n n 1

Determinare la numerosità campionaria nel caso di estrazione bernuolliana se si vuole

9 considerare il sinistro medio campionario rappresentativo di quello dell’intera popolazione

σ

considerando che lo scarto ( ) è risultato 120, l’errore ammesso (ð) è 4 ed il livello di

α

probabilità (1- ) è 90%

La distribuzione della curva normale o di Gauss dipende dai parametri

10 µ σ α α

a) ; ; b) g = n-1; ; c) g = k – v – 1;

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 26

Test 3-4

COGNOME…………….……… NOME……………..………….. N.Matr……………… N.O.

V.O . solo 40

Corso di laurea: Sociologia Specialistica 40+20

STESS MODULO PROGREDITO (solo 20) solo 20

GORU

Per una tabella a doppia entrata con 6 righe e 3 colonne, mediante l’impiego delle tavole del

1 χ α

2

χ

² (v. retro del foglio), dire qual’è il valore teorico del avendo prefissato = 0,01

α

g ,

Calcolare la probabilità che lanciando due dadi si presenti il numero sette.

2 ) Risposta: p =

Calcolare la probabilità che estraendo una pallina da un urna, contenente 12 palline

3 bianche, 13 palline verdi, 18 palline rosse e 7 palline nere, questa sia rossa.

a) Risposta: p =

Il teorema delle probabilità totali per due eventi compatibili E ed E è rappresentato

4 1 2

dall’espressione:

a) ( ) = ( )+ ( )- ( ) ; b) ( ) = ( )+ ( ) ; c) ( ) = ( )* ( )

p E o E p E p E p E e E p E o E p E p E p E o E p E p E

1 2 1 2 1 2 1 2 1 2 1 2 1 2

La curva normale o di Gauss, già standardizzata, è data dall’espressione seguente, con

5 accanto la rispettiva area: ( )

− 2

x M

1 1

− −

2 2

x x

1 1 1

σ

= = =

2

a) ; b) ; c)

2 2

y e : 0 ,

5 y e : 0 ,

5 y e : 1

π σ π π

2 2 2

L’universo dei campioni è:

6 a) la popolazione P ;

b) tutti i possibili campioni estratti dalla popolazione ;

c) tutte le possibili popolazioni estratte da un campione

µ

= ⋅ ⋅ = ⋅ ⋅ =

2

Dati si provi l’ipotesi nulla H : = 13,5 contro l’ipotesi alternativa

x s n

12 ; 30 ; 18

7 0

µ ≠ α

(bidirezionale) H : 13,5 al livello di significatività prefissato = 0,02. Nella risposta

1

indicare sia la formula della ‘statistica test’ impiegata con il risultato, sia se si accetta o

meno l’ipotesi nulla.

µ µ

a) Accetto H : = 13,5 ; b) Rifiuto H : = 13,5

0 0

8 Il numero di tutti i campioni possibili di numerosità n estratti casualmente in blocco da una

popolazione di N unità è dato da:

N ! N ! n

a) ; b) ; c) N

⋅ −

n N n

! ( )!

n

!

Rappresentare lo spazio campionario relativo all’estrazione di una carta da un mazzo di

9 Ω

carte napoletane (Ω = ……………………………)

Uno stimatore è :

10 a) il risultato di una funzione dei dati campionari ;

b) un particolare indice per la stima della regressione ;

c) una funzione dei dati campionari

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 27

Test 5-6

COGNOME…………….……… NOME……………..………….. N.Matr……………… N.O.

V.O . solo 40

Corso di laurea: Sociologia Specialistica 40+20

STESS MODULO PROGREDITO (solo 20) solo 20

GORU

1 Disponendo del numero dei promossi e respinti da tre esaminatori desunta dalla tabella

seguente: B: esaminatori totale

A: risultato A B C

promossi 40 40 30 110

respinti 40 50 50 140

totale 80 90 80 250

si provi che gli esaminatori sono ugualmente esigenti, mediante l’impiego delle tavole del

χ α

² , avendo fissato = 0,025

Nella stima di un parametro mediante un intervallo di confidenza P indica:

2 a) l’errore di II tipo ; b) il livello di rischio ; c) il livello di confidenza

P

Se si considerano tutti i possibili campioni di dimensione n estratti da di dimensione N,

3 al diminuire di n l’errore standard delle medie

a) aumenta ; b) diminuisce ; c) rimane lo stesso

Data una popolazione di N = 16 unità statistiche, quanti sono tutti i possibili campioni

4 P

senza ripetizione (un blocco) avendo fissato la numerosità del campione n uguale a 15

(formula e calcoli sul retro)?

χ 2

La distribuzione del dipende dai parametri

5 µ σ α α

a) ; ; b) g = n-1; ; c) g = k – v – 1;

Il teorema delle probabilità composte per due eventi dipendenti E ed E è rappresentato

6 1 2

dall’espressione:

a) ( ) = ( )+ ( )- ( ) ; b) ( ) = ( )* ( / ) ; c) ( ) = ( )* ( )

p E o E p E p E p E e E p E o E p E p E E p E o E p E p E

1 2 1 2 1 2 1 2 1 2 1 1 2 1 2

Calcolare la probabilità che estraendo due palline in successione da un urna, contenente 12

7 palline bianche, 13 palline verdi, 18 palline rosse e 7 palline nere, queste siano rossa la

prima e bianca la seconda.

) Risposta: p =

Quando si dice che un campione ragionato o per quota è un campione rappresentativo che

8 significa? E’ un campione rappresentativo rispetto a che?

9 p ( E ) p ( H / E )

Nella formula di Bayes la probabilità p(H/E) è la probabilità:

=

p ( E / H ) p ( H )

a) finale dell’evento E subordinatamente ad H ; b) a priori o iniziale dell’evento E;

c) probativa con cui l’evento E genera H.

Nella verifica delle ipotesi l’ipotesi base viene rifiutata se il valore della statistica test

10 rispetto a quello teorico desunto dalla tavole è::

a) minore ; b) uguale ; c) maggiore

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 28

Test 7-8

COGNOME…………….……… NOME……………..………….. N.Matr……………… N.O.

V.O . solo 40

Corso di laurea: Sociologia Specialistica 40+20

STESS MODULO PROGREDITO (solo 20) solo 20

GORU

χ

2

Nel test del l’ipotesi nulla H indica che i due caratteri considerati sono:

1 0

a) dipendenti b) indipendenti c) uguali a zero

Il teorema delle probabilità composte per due eventi indipendenti E ed E è rappresentato

2 1 2

dall’espressione:

a) ( ) = ( )+ ( )- ( ) ; b) ( ) = ( )* ( / ) ; c) ( ) = ( )* ( )

p E o E p E p E p E e E p E o E p E p E E p E o E p E p E

1 2 1 2 1 2 1 2 1 2 1 1 2 1 2

P

Se si considerano tutti i possibili campioni di dimensione n estratti da di dimensione N,

3 al diminuire di N l’errore standard delle medie

a) aumenta ; b) diminuisce ; c) rimane lo stesso

Calcolare la probabilità che estraendo una carta da un mazzo di carte napoletane questa sia

4 un sette o un bastoni.

) Risposta: p = χ2

Di una tabella a doppia entrata, con 7 righe e 5 colonne, è stato calcolato il ottenendo

5 un valore pari a 51,75; si provi l’ipotesi di indipendenza della tabella assegnata al livello di

α

significatività prefissato = 0,05. Nella risposta indicare il metodo impiegato e risultato, e

se si accetta o meno l’ipotesi nulla.

a) Accetto l’ipotesi di indipendenza ; b) Rifiuto l’ipotesi di indipendenza

6 Nella formula di Bayes la probabilità p(E) è la probabilità:

p ( E ) p ( H / E )

=

p ( E / H ) p ( H )

a) finale dell’evento E subordinatamente ad H ; b) a priori o iniziale dell’evento E;

c) probativa con cui l’evento E genera H. µ

= ⋅ ⋅ = ⋅ ⋅ =

Dati si provi l’ipotesi nulla H : = 18,5 contro l’ipotesi alternativa

19 7 5 180

x ; s , ; n

7 0

µ α

(unidirezionale) H : > 18,5 al livello di significatività prefissato = 0,15. Nella risposta

1

indicare sia la formula della ‘statistica test’ impiegata, con il risultato, sia se si accetta o

meno l’ipotesi nulla.

µ µ

a) Accetto H : = 18,5 ; b) Rifiuto H : = 18,5

0 0

Calcolare la probabilità che estraendo due carte in successione da un mazzo di carte

8 napoletane queste siano un quattro la prima e un fante la seconda.

) Risposta: p =

9 Utilizzando la tavola della curva normale standardizzata (riportata nel retro) risolvere le

seguenti espressioni relative alla probabilità compresa in prefissati intervalli

∞ ∞

Pr( z > -∞ ) = Pr( -∞ < z <1,83) = Pr( z < z* ) = 0,64686

Nella verifica delle ipotesi la dimensione (probabilità) dell’area di rifiuto R è data da:

10 α α

a) P ; b) ; c) 1 –

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 29

Test 9-10

COGNOME…………….……… NOME……………..………….. N.Matr……………… N.O.

V.O . solo 40

Corso di laurea: Sociologia Specialistica 40+20

STESS MODULO PROGREDITO (solo 20) solo 20

GORU

La legge empirica del caso o legge dei grandi numeri è:

1 a) una legge matematica che si dimostra ;

b) uno dei teoremi matematici del calcolo delle probabilità ;

c) una tendenza molto generale della frequenza alla probabilità

2 La distribuzione della t di Student dipende dai parametri :

µ σ α α

a) ; ; b) g = n-1; ; c) g = k – v – 1;

Si determini l’ampiezza del campione casuale semplice in blocco per stimare la statura

3 media degli abitanti di una data città che ammontano a N=650.000, prefissando un errore

δ= σ

assoluto 0,5 cm., un’attendibilità del 99,73% e assumendo noto lo s.q.m. = 6,6158.

x

α

Nella stima di un parametro mediante un intervallo di confidenza indica:

4 a) l’errore di II tipo ; b) il livello di rischio ; c) il livello di confidenza

α

Nella verifica delle ipotesi la probabilità indica la dimensione:

5 a) dell’errore di II tipo ; b) della regione di rifiuto ; c) della regione di accettazione

= ⋅ ⋅ = ⋅ ⋅ =

6 Dati si determini l’intervallo di confidenza avendo fissato un livello di

x 36 ; s 13 ; n 180

fiducia del 92%. Nella risposta indicare sia la formula che i calcoli necessari al risultato

7 La v.c. t di Student è data dall’espressione seguente:

µ µ µ

− − −

X X X

= = =

a) ; b) ; c)

t t t

σ 2

s s

n n n

Il teorema delle probabilità totali per due eventi incompatibili E ed E è rappresentato

8 1 2

dall’espressione:

a) ( ) = ( )+ ( )- ( ) ; b) ( ) = ( )+ ( ) ; c) ( ) = ( )* ( )

p E o E p E p E p E e E p E o E p E p E p E o E p E p E

1 2 1 2 1 2 1 2 1 2 1 2 1 2

Calcolare la probabilità che lanciando tre monete si presentino tre teste.

9 ) Risposta: p = µ

10 2

= ⋅ ⋅ = ⋅ ⋅ =

Dati si provi l’ipotesi nulla H : = 75 contro l’ipotesi alternativa

73 400 12

x ; s ; n 0

µ ≠ α

(bidirezionale) H : 75 al livello di significatività prefissato = 0,10. Nella risposta

1

indicare sia la formula della ‘statistica test’ impiegata, con il risultato, sia se si accetta o

meno l’ipotesi nulla.

µ µ

a) Accetto H : = 75 ; b) Rifiuto H : = 75

0 0

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 30

Test 11-12

COGNOME…………….……… NOME……………..………….. N.Matr……………… N.O.

V.O . solo 40

Corso di laurea: Sociologia Specialistica 40+20

STESS MODULO PROGREDITO (solo 20) solo 20

GORU

Se una variabile x si distribuisce secondo la curva normale, la Pr(–∞<x<+∞) è uguale a:

1 a) 0 ; b) 1 ; c) 0,5

2 La varianza della variabile casuale campionaria media , v.c.c , è data dall’espressione

X X

seguente: σ −

2 1

n

σ σ

= = =

2 2

a) ; b) ; c)

( ) ( ) ( )

Var X Var X Var X

n n

3 P

Se si considerano tutti i possibili campioni di dimensione n estratti da una popolazione di

σ

dimensione N all’aumentare di n l’errore standard delle medie x

a) aumenta b) diminuisce c) rimane lo stesso

Un campione casuale è un campione:

4 Volendo inserire una franchigia su una polizza RCA, una compagnia vuole effettuare una

5 apposita indagine campionaria sui propri clienti per individuarne il gradimento. Si

determini la grandezza del campione casuale essendo il numero dei clienti pari a 400.000 e

volendo un errore massimo del ±3% con una probabilità del 95% (in prima

approssimazione si ipotizza una frequenza di gradimento p=0,5).

β

L’errore di II tipo si verifica nel caso in cui, nella verifica delle ipotesi, si rifiuti l’ipotesi

6 nulla quando questa:

a) è indifferente alla verifica ; b) è falsa ; c) è vera

7 2

= ⋅ ⋅ = ⋅ ⋅ =

Dati si determini l’intervallo di confidenza avendo fissato un livello

12 5 30 10

x , ; s ; n

di fiducia del 98%. Nella risposta indicare sia la formula che i calcoli necessari al risultato

8 Il campione semplice in blocco è un campione:

a) casuale o probabilistico

b) non casuale

c) sempre rappresentativo rispetto ai caratteri specifici della ricerca

Calcolare la probabilità che estraendo due carte in blocco da un mazzo di carte napoletane

9 queste siano un due e un coppe

) Risposta: p =

Su un campione di 3600 unità della distribuzione delle polizze per frazionamento del

10 premio (annuale, semestr., quadrim., trim., bim. e mensile) si è osservata una frequenza di

fraz. mensile del 18%. Si vuole sapere se il frazionamento è casuale (freq.=16,66%) o di

α

natura sistematica, fissando = 0,18

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 31

Test 13-14

COGNOME…………….……… NOME……………..………….. N.Matr……………… N.O.

V.O . solo 40

Corso di laurea: Sociologia Specialistica 40+20

STESS MODULO PROGREDITO (solo 20) solo 20

GORU

Qualora si volesse verificare che un campione sia stato estratto da una distribuzione

1 normale, con parametri stimati dal campione, nel test di omogeneità i gradi di libertà g = k

χ

- v - 1 del ² sono pari a::

a) g = k ; b) g = k-3 ; c) g = k-2

Data una distribuzione empirica con frequenze 10 13 20 5, si provi che tale distribuzione è

2 stata estratta da una distribuzione normale teorica con frequenze 8,87 15,53 19,36 6,32 al

α

livello di significatività prefissato = 0,10. Nella risposta indicare il metodo impiegato e

risultato, e se si accetta o meno l’ipotesi nulla che la distribuzione sia stata estratta dalla

normale.

a) Accetto l’ipotesi nulla ; b) Rifiuto l’ipotesi nulla

3 2

Per la variabile casuale campionaria varianza corretta, v.c.c. , è valida l’uguaglianza:

S

n

σ 2 2 2

2 2 σ µ

= =

=

a) ; b) ; c)

E ( S ) E ( S )

E ( S ) −

n 1

Nella verifica delle ipotesi la dimensione (probabilità) dell’area di accettazione A è data da:

4 α β

a) P ; b) ; c) 1 –

µ

σ

= ⋅ ⋅ = ⋅ ⋅ =

Dati si provi l’ipotesi nulla H : = 12 contro l’ipotesi alternativa

x 14 ; 12

, 25 ; n 160

5 0

µ α

(unidirezionale) H : > 12 al livello di significatività prefissato = 0,02. Nella risposta

1

indicare formula della ‘statistica test’ impiegata con il risultato, e se si accetta o meno

l’ipotesi nulla. µ µ

a) Accetto H : = 12 ; b) Rifiuto H : = 12

0 0

Calcolare la probabilità che estraendo tre palline in blocco da un urna, contenente 12 palline

6 bianche, 13 palline verdi, 18 palline rosse e 7 palline nere, queste siano tutte verdi.

) Risposta: p =

7 Il campionamento a stadi serve a:

a) ridurre la variabilità delle stime campionarie a parità di numerosità n del campione;

P

b) facilitare la disponibilità dell’elenco base delle N u.s. di dal quale estrarre il

campione;

c) aumentare la variabilità delle stime campionarie a parità di n del campione ;

8 Utilizzando la tavola della curva normale standardizzata (riportata nel retro) risolvere le

seguenti espressioni relative alla probabilità compresa in prefissati intervalli

Pr( z > -1,73 ) = Pr( -∞ < z <2,75) = Pr( z> z* ) = 0,14312

2

9 Per la variabile casuale campionaria varianza, v.c.c. S , è valida l’uguaglianza:

n

σ µ

= =

2 2

σ

=

2 2 2

a) ; b) ; c)

E ( S ) E ( S )

E ( S ) −

n 1

Calcolare la probabilità che lanciando tre dadi si presenti il numero quindici.

10 ) Risposta: p =

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire

bruno delle donne – appunti Corso Intensivo di Statistica - a.a.2004-05 32

Test 15-16

COGNOME…………….……… NOME……………..………….. N.Matr……………… N.O.

V.O . solo 40

Corso di laurea: Sociologia Specialistica 40+20

STESS MODULO PROGREDITO (solo 20) solo 20

GORU

Su un campione di 40000 unità della distribuzione delle famiglie si è osservata una

1 frequenza di ascolto di un programma televisivo 33%. Si vuole sapere quale è l’intervallo di

α

confidenza che include la frequenza teorica dell’intera popolazione italiana, fissando =

0,08 P

Se si considerano tutti i possibili campioni di dimensione n estratti da di dimensione N,

2 all’aumentare di N l’errore standard delle medie

a) aumenta ; b) diminuisce ; c) rimane lo stesso

Lo spazio campionario relativo al lancio di un dado è rappresentato da (Ω = ……)

3

4 Il campione per quote è un campione:

a) casuale o probabilistico

b) non casuale

c) sempre rappresentativo rispetto ai caratteri specifici della ricerca

Calcolare la probabilità che estraendo due carte in successione da un mazzo di carte

5 napoletane queste siano un quattro la prima e un denari la seconda.

) Risposta: p = α

L’errore di I tipo si verifica nel caso in cui, nella verifica delle ipotesi, si rifiuti l’ipotesi

6 nulla quando questa:

a) è indifferente alla verifica ; b) è falsa ; c) è vera

= ⋅ ⋅ = ⋅ ⋅ =

7 Dati si determini l’intervallo di confidenza avendo fissato un livello

x ; s ; n

120 30 24

di fiducia del 80%. Nella risposta indicare sia la formula che i calcoli necessari al risultato

Lo spazio campionario relativo all’estrazione di una pallina da un urna contenente dieci

8 Ω

palline numerate da 1 a 10 è rappresentato da (Ω = ……)

Un campione non distorto è un campione:

9 µ

σ

= ⋅ ⋅ = ⋅ ⋅ =

Dati si provi l’ipotesi nulla H : = 172 contro l’ipotesi alternativa

x 165 ; 22

,

5 ; n 100

10 0

µ ≠ α

(bidirezionale) H : 172 al livello di significatività prefissato = 0,01. Nella risposta

1

indicare formula della ‘statistica test’ impiegata e risultato, e se si accetta o meno l’ipotesi

nulla. µ µ

a) Accetto H : = 172 ; b) Rifiuto H : = 172

0 0

Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire


PAGINE

53

PESO

519.26 KB

PUBBLICATO

+1 anno fa


DETTAGLI
Esame: Statistica
Corso di laurea: Corso di laurea in sociologia
SSD:
Docente: Fraire Mary
A.A.: 2013-2014

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher valeria0186 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università La Sapienza - Uniroma1 o del prof Fraire Mary.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Statistica

Statistica - Appunti
Appunto
Statistica
Appunto
Economia dello sviluppo - Introduzione
Appunto
Economia politica - Fondamenti
Appunto