Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

Se in una distribuzione conosciamo la media, deviazione standard e un punto z possiamo,

sostituendo i valori nella formula per il calcolo del punto z risalire a x. Nello specifico, il valore x lo si

ottiene sommando alla media il valore ottenuto moltiplicando il punto z per la deviazione standard.

In pratica, nel caso in cui il punto z sia negativo, tale prodotto avrà segno negativo e, dunque, dovrà

essere sottratto dalla media. Nel caso in cui il punto z sia positivo, tale prodotto avrà segno positivo

e dunque dovrà essere sommato alla media.

= µ + zσ x = zs + M

x i i

Quartili

I quartili (Q) corrispondono a 3 valori che dividono in quattro parti uguali la distribuzione dei dati e

come la mediana sono valori al di sotto dei quali ricade una certa parte della distribuzione. Il primo

) corrisponde al valore al di sotto del quale abbiamo il 25% dei casi; il secondo quartile

quartile (Q 1

) corrisponde al valore mediano e divide la distribuzione in modo che il 50% dei casi cada al di

(Q 2 ) è quel valore al di sotto del quale si colloca il

sotto e il 50% al sopra; infine il terzo quartile (Q 3

75% dei casi della distribuzione. Il calcolo dei quartini è simile a quello della mediana:

Frequenza unitaria:

1. Ordinare i dati in modo crescente

2. Calcolare la posizione dei quartini attraverso le seguenti formule:

. . .

= (n +1) 1 posQ = (n +1) 2 posQ = (n +1) 3

posQ

1 2 3

4 4 4

dove : n = numero totale dei casi della distribuzione

3. Individuare il valore corrispondente alla posizione trovata. Il valore trovato rappresenta il

quartile.

Frequenza non unitaria:

1. Ordinare i dati in modo crescente.

2. Calcolare le frequenze e le frequenze cumulate.

3. Calcolare la posizione con le apposite formule (vedi sopra).

4. Cercare nella distribuzione di frequenza cumulata la posizione trovata e individuare il valore

corrispondente. Il valore trovato rappresenta il quartile. Nel caso in cui nelle frequenze

cumulate non sia presente l’esatta posizione calcolata, si fa riferimento alla frequenza che la

comprende.

Decili

Valori in corrispondenza dei quali la distribuzione viene suddivisa in dieci parti uguali. Sono nove:

valore sotto il quale ricade il 10% dei casi

1° decile: valore sotto il quale ricade il 20% dei casi

2° decile:

…… valore sotto il quale ricade il 90% dei casi

9° decile:

Per il calcolo si procede come per i quartili.

Formule per il calcolo della posizione:

.

= (n +1) 1

Per il 1° decile : posD

1 10 .

= (n +1) 2

Per il 2° decile: posD 2 10 22

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Percentili

I percentili (P) dividono la distribuzione in cento parti e sono, dunque, 99. Se calcoliamo, ad

) troveremo quel valore al di sotto del quale si colloca il

esempio, il novantesimo percentile (P

90

90% dei casi della nostra distribuzione. Il percentile, come i precedenti indici di posizione, fornisce

informazioni sulla globalità della distribuzione e sulla collocazione di uno specifico punteggio entro

tale distribuzione. Permette inoltre di confrontare i punteggi di distribuzioni diverse: es. il 70°

percentile di una distribuzione per la cura contro il fumo può essere meno “efficace” del 70°

percentile di un’altra distribuzione (es. una cura efficace raggiunge il 70° percentile dopo 4 mesi di

somministrazione di un farmaco, un’altra raggiunge il 70° percentile dopo 6 mesi). Formula per

calcolare i percentili:

Frequenza unitaria:

1. Ordinare i dati in ordine crescente

2. Calcolare la posizione dei percentili con la seguente formula:

.

= (n+1) k

posP K 100

dove:

k= numero ordinale del percentile (35°, 70°, 90°…..)

n = numero totale dei casi della distribuzione

3. Individuare il valore corrispondente alla posizione trovata. Il valore trovato rappresenta il

percentile.

Frequenza non unitaria:

1. Ordinare i dati in ordine crescente

2. Calcolare le frequenze e le frequenze cumulate

3. Calcolare la posizione con le apposite formule (vedi sopra)

4. Cercare nella distribuzione di frequenza cumulata la posizione trovata ed individuare il valore

corrispondente. Il valore trovato rappresenta il percentile. Nel caso in cui nelle frequenze

cumulate non sia presente l’esatta posizione calcolata, si fa riferimento alla frequenza che la

comprende.

Rango quartile, decile e percentile

Dato un punteggio x possiamo calcolare il suo rango quartile, decile, percentile (cioè la sua

posizione all’interno della distribuzione). Calcolate le frequenze cumulate, si trova la posizione

occupata dal punteggio in esame. Si trova il rango quartile, decile, percentile corrispondente tramite

apposite formule:

= RQ = pos . 4

rango quartile n + 1

= RD = pos .10

rango decile n +1

= RP = pos .100

rango percentile n+1

Es. se il rango percentile di un certo punteggio è 50 vuol dire che quel punteggio è il 50° percentile.

Oltre alla modalità sopra indicata, quando non si conosce l’esatta posizione occupata dal valore del

quale si vuol stabilire il rango, la formula per il calcolo è: 23

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

+ f )

RP = (f co i . 100

2

n

dove:

= frequenza cumulata immediatamente inferiore al valore x

f co i

= frequenza corrispondente al valore x

f i i

(es. pag. 78 schemi di statistica)

Il Quartile/Decile/Percentile è il valore della distribuzione al di sotto del quale si trova una certa

percentuale di dati.

Il Rango Quartile/Decile/Percentile è il numero ordinale che indica la percentuale di dati che si trova

al di sotto di un certo valore.

CAPITOLO 6 DISTRIBUZIONI DI FREQUENZA CON DUE VARIABILI

Spesso è utile costruire distribuzioni di frequenza con due variabili di tipo categoriale per avere a

livello descrittivo delle indicazioni sulla relazione che può intercorrere tra le variabili.

TABELLE A DOPPIA ENTRATA:

Distribuzione bivariata:

Prendiamo ad esempio due variabili Materia preferita e Giudizio all’esame di scuola media inferiore.

Ciascuno dei 20 studenti presi in esame può avere una materia preferita tra le tre a disposizione

(scienze, italiano, matematica) e può aver riportato uno dei giudizi compresi tra i 4 a disposizione

(sufficiente, buono, distinto, ottimo). A questo punto possiamo costruire una distribuzione di

frequenza combinando le categorie delle due variabili, ottenendo 12 possibili casi (3 per la prima

variabile x 4 della seconda = 12). La distribuzione di frequenza così ottenuta detta bivariata, può

essere riportata in una tabella a doppia entrata o di contingenza. Se mettiamo in riga la variabile

Materia preferita e in colonna la variabile Giudizio, la tabella avrà 3 righe, 4 colonne e 12 celle. Per

convenzione si denomina la tabella indicandone l’ordine attraverso l’indicazione righe x colonne per

cui nel nostro esempio avremo una tabella 3x4. Ovviamente avremmo potuto invertire la

collocazione in riga e colonna delle due variabili, ottenendo così una tabella 4x3.

Frequenze Sufficiente Buono Distinto Ottimo

Italiano 3 1 2 0

Scienze 3 6 1 0

Matematica 2 1 0 1 20

Entro ciascuna cella è riportata la frequenza di cella, detta anche frequenza congiunta, che può

essere espressa in percentuale (percentuale di cella o congiunta). Sommando tutte le frequenze

di cella dobbiamo ottenere il totale dei casi osservati, che nel nostro esempio era 20. Sommando

tutte le percentuali di cella, dobbiamo ottenere 100.

Per completare le specificazioni di una tabella dobbiamo, inoltre, indicarne la dimensione, ovvero il

numero di variabili implicate. Poiché in questa sede tratteremo esclusivamente distribuzioni di

frequenza bivariate, le nostre tabelle saranno sempre bidimensionali, ma una tabella può essere

utilizzata per riportare dati inerenti a più di due variabili. In genere, non si va oltre le tabelle 24

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

tridimensionali (oltre sono di difficile lettura). Esistono tabelle a entrata multipla. Le frequenze sono

calcolate tenendo conto delle molteplici combinazioni delle modalità delle variabili.

Distribuzioni marginali:

Sommando per ciascuna riga le frequenze delle celle che la compongono, i totali ottenuti definiscono

la distribuzione marginale di riga che, nel nostro esempio, è la distribuzione semplice della

variabile Materia preferita (es. distribuzione marginale di riga di italiano è 6). Le frequenze

marginali possono essere espresse in percentuale, ottenendo le percentuali marginali di riga.

Se sommiamo le frequenze di ciascuna colonna, i totali così ottenuti definiscono la distribuzione

marginale di colonna che, nel nostro esempio, rappresenta la distribuzione semplice per la

variabile Giudizio (es. distribuzione marginale di colonna per ottimo è 1). Questa distribuzione può

essere riportata tramite le frequenze marginali oppure le percentuali marginali di colonna.

Come ricavare una distribuzione di frequenza bivariata

e presentarla in forma tabulare

1. Definire le combinazioni delle categorie di variabili.

i soggetti che sono stati attribuiti a quella combinazione.

2. Per ciascuna combinazione contare porre le categorie di una delle due variabili : questa

3. Predisporre una tabella: nella prima colonna

nella prima riga porre le categorie dell’altra variabile: questa sarà la

sarà la variabile di riga:

Se la variabile è ordinale, le categorie verranno riportate secondo l’ordine

variabile di colonna.

che la caratterizza.

4. In base al numero di categorie di ciascuna variabile, la tabella conterrà un certo numero di celle

in modo da esaurire tutte le possibili combinazioni combinazioni tra variabili. Questo definisce

l’ordine della tabella che indicheremo con e x c, intendendo con r il numero di righe, ovvero le

categorie della variabile di riga, e con c il numero delle colonne, ovvero le categorie della

variabile di colonna. o congiunte.

5. Riportare le frequenze in ogni cella, dette frequenze di cella

dividere ciascuna frequenza di cella per il totale dei casi

6. Per ottenere le percentuali di cella,

osservati.

7. Se sommiamo le frequenze (o le percentuali) di ciascuna riga della tabella, otteniamo la

(o le percentuali marginali di riga).

distribuzione marginale di riga

8. Se sommiamo le frequenze (o le percentuali) di ciascuna colonna della tabella otteniamo la

(o le percentuali marginali di colonna),

distribuzione marginale di colonna

Distribuzione condizionata:

Per distribuzione condizionata si intende la distribuzione in percentuale di una variabile entro una

specifica categoria dell’altra variabile. Per esempio, entro coloro che preferiscono italiano, la

percentuale di coloro che hanno preso Sufficiente, Buono, Distinto e Ottimo. Se per le percentuali di

cella o marginali si utilizza il totale dei casi osservati (nell’esempio, i 20 studenti), in questo caso la

percentuale viene calcolata sui sub-totali che compongono le distribuzioni marginali. Per le

percentuali condizionate di riga lavoreremo sulla distribuzione marginale di riga; viceversa, le

percentuali condizionate di colonna si calcolano in base ai dati della distribuzione marginale di

colonna. Ad esempio, se voglio sapere entro coloro che preferiscono Italiano (n = 6), la proporzione

di coloro che hanno preso Sufficiente, Buono, Distinto e Ottimo, dovrò dividere ogni frequenza di

cella per 6 e moltiplicare per 100, ottenendo le percentuali di riga condizionate sulla categoria

Italiano della variabile Materia preferita. Procedendo in questo modo, la somma di tutte le

percentuali ottenute per le 4 categorie della variabile Giudizio deve risultare uguale a 100.

Analogamente possiamo trovare le percentuali di colonna condizionate. 25

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Il calcolo delle percentuali condizionate consente di rendere i vari sottogruppi confrontabili. Se

consideriamo l’insieme di coloro che preferiscono Scienze e quelli che preferiscono Italiano, vediamo

che sono composti da un diverso numero di studenti, rispettivamente 10 e 6. In base alle frequenze

possiamo dire che in entrambi i casi lo stesso numero di soggetti (n = 3) ha preso Sufficiente come

giudizio all’esame di scuola media inferiore. Tuttavia, questa sarebbe una valutazione scorretta a

causa della differenza numerica tra i due sottogruppi. Calcolando le percentuali condizionate

possiamo correttamente osservare che la metà (50%) di coloro che preferiscono Italiano ha preso

Sufficiente, mentre circa un terzo (30%) di coloro che preferiscono Scienze ha ottenuto tale giudizio.

Nella pratica comune spesso dobbiamo porre a confronto gruppi con numerosità diversa per cui

questa operazione si rende necessaria.

Le percentuali condizionate suggeriscono che non esiste una relazione tra le variabili.

Per presentare una distribuzione di frequenza bivariata in modo sintetico possiamo anche utilizzare la

rappresentazione grafica con la modalità del grafico a barre riportando le frequenze di cella oppure

le distribuzioni condizionate. Il grafico a barre si usa quando abbiamo variabili qualitative. Nel caso in

cui si vogliano riportare le frequenze di cella, dovremo procedere esattamente come nel caso di una

sola variabile, soltanto che al posto delle categorie semplici, riporteremo sull’asse delle X le

combinazioni tra categorie, mentre su Y avremo le frequenze. Riporteremo la distribuzione

disegnando barre la cui altezza indica la frequenza per ciascuna categoria. Le barre sono separate tra

di loro, ad indicare che non esiste una continuità tra i valori. La frequenza riportata può essere

semplice, oppure, si sceglie di utilizzare le frequenze relative o le percentuali. I grafici a barre

risultano particolarmente utili quando vogliamo rappresentare percentuali condizionate perché ci

permettono di mettere in evidenza eventuali differenze nelle proporzioni entro ciascuna categoria e

rendere graficamente la relazione tra le variabili. Per disegnare questo tipo di grafico procediamo

esattamente come illustrato in precedenza, soltanto sull’asse delle X riportiamo le categorie della

variabile sulla quale abbiamo calcolato le percentuali condizionate e in corrispondenza di ciascuna

categoria disegneremo, una di seguito all’altra, le barre che rappresentano le frequenze percentuali

per ciascuna categoria dell’altra variabile. (vedere pag.74-75).

CAPITOLO 7 PROBABILITA’

Con la probabilità si passa alla statistica inferenziale, che permette di fare delle inferenze

(deduzioni) su una popolazione a partire dai dati raccolti su un campione.

Fenomeni aleatori ( o casuali i non deterministici): un qualsiasi esperimento la cui osservazione

non porta sempre allo stesso risultato => un fenomeno in cui non c’e regolarità deterministica

Il concetto di probabilità è estremamente comune nella vita di tutti i giorni; interviene ogni volta che

ci troviamo di fronte ad una situazione di incertezza, ovvero in casi in cui il risultato dell’evento in

questione non è sicuro. La probabilità ci consente di quantificare, ovvero di misurare, questo grado di

incertezza.

Tutto ciò viene definito in termini matematici dalla teoria della probabilità che ci consente di

quantificare, ovvero di misurare, questo grado di incertezza.

Il calcolo delle probabilità fornisce quindi le regole per associare ad ogni possibile evento/risultato di

un esperimento aleatorio un valore numerico che ne indichi il grado di avverabilità. Tale valore

numerico viene chiamato PROBABILITA’ dell’evento.

Un esperimento casuale o aleatorio è un qualsiasi evento del quale non conosciamo l’esito prima

del suo verificarsi. Se lasciamo cadere un oggetto dall’alto, l’esperimento non è casuale perché, in

funzione della legge di gravità, sappiamo che l’oggetto cadrà a terra.

Lo spazio campionario è l’insieme di tutti gli eventi possibili (o dei possibili risultati) di un

esperimento casuale. 26

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Es. se lasciamo cadere a terra un bicchiere, abbiamo due possibili risultati: bicchiere rotto, bicchiere

non rotto. In generale, lo spazio campionario può essere facilmente definito attraverso

l’enumerazione dei possibili eventi di cui si compone. Es. ad un concorso partecipano 500 persone, lo

spazio campionario è 500. Talvolta però per calcolare lo spazio campionario è necessario combinare

Es. pensiamo ad una

alcuni eventi possibili tra loro. Per farlo dobbiamo usare il calcolo combinatorio.

donna in attesa di due gemelli: quale sarà il sesso dei nascituri? Esistono 4 possibilità: due maschi,

due femmine, un maschio e una femmina e una femmina e un maschio. Un singolo evento

appartenente allo spazio campionario viene detto semplice, ovvero uno dei singoli risultati

dell’esperimento casuale; quando tale evento rappresenta un sottoinsieme dello spazio campionario,

ovvero è dato dall’insieme di almeno due possibili risultati dell’esperimento casuale, viene detto

composto. Tornando all’esempio dei gemelli: evento semplice è il caso entrambi maschi, l’evento

composto è il caso di gemelli dello stesso sesso, dato dai due eventi semplici MM e FF.

:

ELEMENTI DI CALCOLO COMBINATORIO

Le combinazioni si usano quando i gruppi ipotetici si possono distinguere tra loro solo in base alla

presenza di elementi diversi.

Le disposizioni si usano quando i gruppi si possono distinguere tra loro oltre alla presenza di

elementi diversi anche in base all’ordine con il quale questi si presentano entro il gruppo.

Le permutazioni si usano quando cambia l’ordine degli elementi all’interno del gruppo.

Un altro elemento che può variare nella composizione dei gruppi è la presenza di elementi ripetuti al

loro interno. Questo comporta l’utilizzo di formule distinte per il calcolo di comb., disp. e perm.

n fattoriale (n!) : prodotto degli interi positivi da n a 1 (es. 4! = 4x3x2x1= 24)

Importante: per definizione ( per convenzione) 0! = 1

Formula combinazioni:

Le combinazione di n elementi presi k a k (o combinazioni di ordine k) sono tutti i possibili

raggruppamenti di k elementi entro n (con k < n) che si distinguono tra loro unicamente per la

presenza di elementi diversi.

Possono essere: quando uno stesso elemento non si ripete

Senza ripetizione (o semplici):

C = n! .

n k k! (n – k)!

Esempio: si hanno tre palline, una verde, una rossa e una blu. Quante combinazioni di 2 palline si

possono avere?

C = 3! = 3

3 2 2! (3-2)!

lo stesso elemento può comparire da 1 a k volte nel raggruppamento

Con ripetizione:

C = (n+ k – 1)! .

n k k! (n – 1)! 27

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Esempio: si hanno tre palline, una verde, una rossa e una blu. Quante combinazioni di 2 palline con

ripetizione si possono avere?

C = (3+2-1)! = 6

3 2 2! (3-1)!

Formula disposizioni:

Le disposizioni di n elementi presi k a k (o disposizioni di ordine k) sono tutti i possibili

e la presenza di

raggruppamenti di k elementi entro n (con k < n) che si distinguono per l’ordine

elementi diversi.

Possono essere: quando uno stesso elemento non si ripete

Senza ripetizione (o semplici):

D = n! .

n k (n-k)!

Esempio: si hanno tre palline, una verde, una rossa e una blu. Quante disposizioni di 2 palline si

possono avere?

D = 3! = 6

3 2 (3-2) !

lo stesso elemento può comparire da 1 a k volte nel raggruppamento

Con ripetizione:

k

D = n

n k

Esempio: si hanno tre palline, una verde, una rossa e una blu. Quante disposizioni di 2 palline con

ripetizione si possono avere?

2

D = 3 = 9

3 2

Formula Permutazioni:

Le permutazioni di n elementi presi a n a n sono tutte le serie ordinate di tali elementi e si

distinguono per l’ordine.

Possono essere: quando uno stesso elemento non si ripete

Senza ripetizione (o semplici):

P = n!

n n

Esempio: ho quattro cavalli e voglio conoscere il loro possibile ordine di arrivo:

P = 4! = 4x3x2x1 = 24

4 4 se tra gli n elementi da ordinare alcuni sono uguali ( o ripetuti) il numero totale

Con ripetizione:

delle permutazioni deve essere diviso per il prodotto dei k sottogruppi di elementi uguali o non

distinguibili.

P = n! .

n n1,n2,….nk ! n ! ….n !

n 1 2 k 28

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Esempio: si hanno 2 palline rosse e 1 blu. Quante permutazioni si possono avere?

= 2 , n = 1 P = 3! = 3

n = 3, n 1 2 3 2,1 2! 1!

----------------------------------------------------------------------------------------------------------

Quando abbiamo un evento A, sia esso semplice o composto, abbiamo una probabilità legata al

verificarsi (probabilità di successo) indicata con p(A) e una probabilità legata al non verificarsi

(probabilità di insuccesso) indicata con q(A). Tutto ciò che non rappresenta l’evento A, ovvero non

A, viene definito complemento dell’evento o evento complementare dal momento che, insieme ad

A esaurisce lo spazio campionario.

Secondo la definizione classica (detta a priori) la probabilità viene stabilita in termini di proporzioni.

Infatti la probabilità dell’evento A entro un esperimento casuale è data dal rapporto tra eventi

favorevoli ed eventi possibili. Se indichiamo con k la frequenza con cui A si può verificare e con n

l’ampiezza dello spazio campionario, la formula è la seguente:

p(A) = k

n

es. su 200 studenti di psicometria, 150 sono donne. Qual è la probabilità che uno studente scelto a

caso sia donna?

= 0,75 = 75%

p(A) = 150

200

Esiste anche una definizione frequentista (o empirica) di probabilità in base alla quale la

probabilità si determina conducendo un esperimento che ci permette di stabilire il numero di successi

in relazione ad un certo numero di prove. Successivamente (e per questo si parla di probabilità a

posteriori), calcoliamo il valore di probabilità facendo il rapporto tra numero di successi e numero di

prove.

La probabilità di un evento (A) è uguale alla frequenza (f) dei successi in n prove (con n

sufficientemente grande) ripetute nelle medesime condizioni.

Se dopo aver ripetuto un esperimento casuale un numero n elevato di volte, l’evento A si verifica f

volte

La probabilità è data dal limite a cui tende il rapporto tra successi e prove (proporzione di successi a

lungo termine)

p(A) = lim f

n

Formalmente si applica sempre la stessa formula, la logica dietro le due definizioni di probabilità è

analoga, cambiano i presupposti: in un caso sono noti gli eventi favorevoli e lo spazio campionario,

nell’altro queste informazioni si ricavano dopo l’esperimento. Es. per conoscere la probabilità di

rompere un certo tipo di bicchiere lasciandolo cadere da una certa altezza da terra, dovremmo fare

un esperimento (a priori non lo so). Decidiamo di far cadere 100 bicchieri e di registrare quanti se ne

rompono e quanti rimangono integri. Supponiamo di aver rotto 60 bicchieri su 100. A questo punto

possiamo affermare che la probabilità che un bicchiere si rompa lasciandolo cadere per terra è del

60%. 29

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Dato che le probabilità sono proporzioni, i valori che si ottengono possono andare da 0 a 1. Non

possiamo ottenere una probabilità inferiore a zero, non ha senso, anche perché matematicamente i

fattori nel rapporto hanno sempre valore positivo.

Se la probabilità è = a zero = evento impossibile

Se la probabilità è = a 1 = evento certo

Non ha senso dire probabilità superiore ad 1 (evento più che certo!), anche matematicamente è

impossibile perché i casi favorevoli non possono mai essere superiori ai casi totali.

La somma delle probabilità di tutti i possibili risultati o eventi dello spazio campionario è sempre

uguale a 1. Possiamo calcolare la probabilità dell’evento complementare, sottraendo da 1 la

probabilità dell’evento A (evento noto):

1 – p(F). Come si calcola la probabilità di un evento

1. Definire lo spazio campionario ed il numero degli eventi favorevoli.

a) Lo spazio campionario è dato dal numero di tutti eventi che possono verificarsi (m).

b) Il numero degli eventi favorevoli è dato dal numero di eventi che soddisfano la condizione

Evento A(k).

2. Procedere nel calcolo della probabilità attraverso la seguente formula:

p(A) = k

n

3. Il risultato, che sarà sempre un numero compreso tra 0 e 1, esprime la probabilità richiesta in

termini di proporzione.

4. Moltiplicando il valore ottenuto per 100, posso esprimere la probabilità in percentuale.

5. Sottraendo da 1 questa probabilità ( o da 100 nel caso si stia lavorando con percentuali) abbiamo

la probabilità del non verificarsi dell’evento in questione, ovvero la probabilità dell’evento

complementare.

La probabilità può essere espressa come una PROPORZIONE sotto forma di frazione oppure di

numero decimale compreso tra 0 e 1.

Può essere espressa anche in PERCENTUALE moltiplicando la probabilità in termini di proporzione

per 100 (px100)

PROBABILITA’ DI DUE EVENTI:

Dati due eventi A e B possiamo calcolare la probabilità che si verifichino l’uno o l’altro (probabilità

disgiunta); la probabilità che si verifichino l’uno e l’altro (probabilità congiunta) oppure la

probabilità che si verifichi l’uno posto che l’altro si sia verificato (probabilità condizionale o

condizionata). quando vogliamo stabilire la probabilità disgiunta del verificarsi

La regola della somma:

dell’evento A o dell’evento B si utilizza la regola della somma, ovvero quando l’evento favorevole è

definito da due eventi distinti entro un determinato spazio campionario, la probabilità complessiva è

data dalla somma delle probabilità dei singoli eventi. Ciò significa che la probabilità del verificarsi

disgiunta di due eventi è necessariamente maggiore rispetto alla probabilità di uno dei singoli eventi

30

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

in questione. Prima di procedere al calcolo occorre stabilire se i due eventi sono o non sono

mutuamente escludentisi.

Se il verificarsi di A esclude il verificarsi di B, ovvero se il verificarsi di uno dei due eventi rende

impossibile il verificarsi dell’altro:

a. Definire lo spazio campionario e il numero degli eventi favorevoli per ciascuno dei due eventi.

b. Applicare la seguente formula (il simbolo U esprime la disgiunzione)

p(A U B) = p(A) + p(B)

c. Il risultato, che sarà sempre un numero compreso tra 0 e 1, esprime la probabilità disgiunta di

due eventi mutuamente escludentisi.

Es. tra 1000 iscritti alla Facoltà di Psicologia calcolare la probabilità che uno studente estratto a caso

possa aver conseguito il diploma di scuola media superiore presso un liceo scientifico o un istituto

professionale (sono due eventi mutuamente escludentisi, aver conseguito il diploma scientifico

implica l’impossibilità di aver conseguito un diploma professionale).

Se il verificarsi di A non consente di escludere il verificarsi di B:

a. Definire lo spazio campionario e il numero degli eventi favorevoli per ciascuno dei due eventi e

per l’evento dato dalla congiunzione di A e B.

b. Applicare la seguente formula (il simbolo esprime congiunzione):

p(AUB) = p(A) + p(B) – p(A∩B)

c. Il risultato, che sarà sempre un numero compreso tra 0 e 1, esprime la probabilità disgiunta di

due eventi non mutuamente escludentisi.

Es. tra 1000 studenti iscritti alla Facoltà di Psicologia calcolare la probabilità che uno studente

estratto a caso abbia la maturità scientifica (A) o provenga dal Sud d’Italia (B). In questo caso

appartenere ad A non esclude l’appartenenza a B. Infatti sappiamo che A = 234, B = 345 e

sappiamo che tra i 234 studenti con maturità scientifica, 109 vengono dal sud (109 sono sia A che

B). In base alla formula sopra riportata avremo:

+ 345 – 109 = 0,47 = 47%

p(AUB) = 234

1000 1000 1000

Si procede in questo modo perché nel calcolo di aver conseguito la maturità scientifica includiamo

nei 234 casi favorevoli anche quei 109 studenti che sono del Sud; quando si calcola la probabilità dei

essere del Sud, nei 345 casi favorevoli includiamo anche quei 109 studenti che hanno conseguito la

maturità scientifica, praticamente quei 109 studenti li calcoliamo due volte. Per questo motivo è

necessario togliere una volta questa quantità, sottraendo la probabilità di A e B dalla somma della

probabilità dei singoli eventi.

Quanto detto per due eventi può essere esteso a tre o più eventi dal momento che la logica è sempre

la stessa: la probabilità disgiunta di tre eventi si calcola sommando le loro singole probabilità e

tenendo conto delle eventuali intersezioni tra eventi, ovvero di quei casi che rappresentano

congiuntamente i due o anche tre eventi in questione.

possiamo calcolare la probabilità congiunta del verificarsi dell’evento A

La regola del prodotto:

e dell’evento B utilizzando la regola del prodotto: quando l’evento favorevole è definito da due

eventi distinti che devono presentarsi insieme, la probabilità complessiva è data dal prodotto delle

probabilità dei singoli eventi. Ciò significa che la probabilità del verificarsi congiunto di due eventi è

necessariamente minore rispetto alla probabilità di uno dei singoli eventi. Nel definire le probabilità

di A e B per poi farne il prodotto, occorre tuttavia valutare se i nostri due eventi sono indipendenti

o dipendenti. Questo significa stabilire se il verificarsi dell’uno modifica la probabilità che si verifichi

l’altro, ovvero se la probabilità di B cambia per il fatto che A si è verificato.

Caso eventi indipendenti: 31

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

a. definire lo spazio campionario e il numero degli eventi favorevoli per ciascuno dei due eventi

b. procedere nel calcolo della probabilità attraverso la seguente formula:

p(A∩B) = p(A) x p(B)

c. il risultato, che sarà sempre un numero compreso tra 0 e 1, esprime la probabilità congiunta di

due eventi indipendenti

Es. In un questionario con domande a risposta multipla (4 risposte di cui una sola corretta), qual è la

probabilità che risponda bene ad entrambe? Sono due eventi indipendenti, perché rispondere bene

alla prima domanda non mi comporta nessun cambiamento di probabilità di risposta corretta alla

seconda, pertanto:

x 1 = 0,0625

p(A∩B) = 1

4 4

Caso eventi dipendenti:

a. definire lo spazio campionario e il numero degli eventi favorevoli per ciascuno dei due eventi; nel

caso dell’evento B, occorre valutare come si modificano spazio campionario e numero di eventi

favorevoli a seguito del verificarsi dell’evento A.

b. procedere nel calcolo della probabilità attraverso la seguente formula

p(A∩B) = p(A) x p(B|A) dove | indica la condizione

c. il risultato, che sarà sempre compreso tra 0 e 1, esprime la probabilità congiunta di due eventi

dipendenti.

Es. un gruppo di cinque amici deve decidere chi uscirà a comprare la pizza per tutti. Ci si affida alla

sorte estraendo a turno una serie di bastoncini: perde chi estrae il bastoncino più corto. Inizia il

primo, che non prende il bastoncino più corto; si passa al secondo. Nel determinare la sua probabilità

di trovare il bastoncino più corto dobbiamo chiederci se la prima estrazione ha o non ha modificato

tale probabilità: la risposta è si dal momento che modifica lo spazio campionario. Se all’inizio la

probabilità di non prendere il bastoncino corto era di 1 su 5 = 80%, ora è di 1 su 4 = 0,75%. Per

calcolare la probabilità congiunta che né il primo, né il secondo prendano il bastoncino più corto devo

applicare la formula sopra indicata:

p(A∩B) = 0,80 x 0,75 = 0,6 = 60%

Se i 5 amici volessero procedere ad un sorteggio più equo dovrebbero ogni volta reinserire il

bastoncino estratto e procedere con la successiva estrazione. In questo modo si passa dalla

dipendenza all’ indipendenza tra eventi dal momento che, grazie al reinserimento non si modifica più

lo spazio campionario, ricreando ad ogni estrazione la situazione iniziale.

Tutto ciò è da mettere in relazione con le procedure di campionamento !!!

Affinché un campione sia casuale, ogni soggetto deve avere la stessa probabilità di entrare a farne

parte. Questo è sempre vero se c’e reinserimento, mentre senza reinserimento aumenta

progressivamente la probabilità si essere estratti. Tuttavia quando lavoriamo con numeri

sufficientemente elevati questa distinzione diviene irrilevante. Nella pratica raramente si esegue un

campionamento con reinserimento anche perché nelle successive estrazioni potremmo riselezionare

lo stesso soggetto e non avrebbe senso definire un campione con lo stesso soggetto presente più

volte. 32

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

non si modifica n° eventi possibili (spazio campionario) ed il n°

Estrazione con reinserimento:

degli eventi favorevoli (successi) si modifica n° eventi possibili (spazio campionario) e talvolta il

Estrazione senza reinserimento:

n° degli eventi favorevoli (successi)

Quanto detto per due eventi può essere esteso e tre o più eventi dal momento che la logica è sempre

la stessa: la probabilità congiunta di due eventi si calcola moltiplicando le singole probabilità e

tenendo conto della dipendenza/indipendenza tra eventi, ovvero se il realizzarsi del primo e del

secondo evento modifica il realizzarsi del terzo, e cosi via.

Talvolta nel definire la probabilità occorre usare sia la regola della somma che quella del prodotto. Ad

esempio, per ottenere la probabilità di rispondere correttamente alle prime due o alle ultime due

domande della prova di psicometria occorre calcolare la probabilità disgiunta di due eventi (corrette

le prime due o corrette le ultime due). Ciascuno dei due eventi è dato, però dalla congiunzione di

altri due eventi (ad esempio: prima corretta e seconda corretta). Ottenute le due probabilità

congiunte, occorrerà sommarle. la formula della probabilità congiunta per eventi dipendenti include la

La probabilità condizionata:

probabilità di un evento posto il verificarsi dell’altro, detta probabilità condizionata. Per calcolarla

:

1. occorre conoscere la probabilità congiunta di A e B e la probabilità dell’evento che si è verificato.

2. la probabilità condizionata è data dal rapporto tra questi due valori, ovvero:

p(B| A) = p(A∩B)

p(A)

3. se la probabilità di B posto A ottenuta è uguale alla probabilità di B senza che A si sia verificato,

siamo di fronte ad un caso di indipendenza tra eventi.

4. se la probabilità di B posto A ottenuta è diversa dalla probabilità di B senza che A si sia

verificato, siamo di fronte ad un caso di dipendenza tra eventi.

La probabilità condizionata di un evento si lega alla dipendenza e indipendenza tra gli eventi. Se due

eventi sono indipendenti il fatto che A si sia verificato non modifica in alcun modo il verificarsi di B e

la probabilità di B è sempre uguale, sia che A si verifichi, sia che A non si verifichi. Viceversa, quando

tra i due eventi c’è dipendenza, la probabilità di B risulta modificata dal verificarsi di A e, quindi, la

probabilità di B se A si verifica è diversa rispetto a quando A non si verifica. 33

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

CAPITOLO 8 DISTRIBUZIONI TEORICHE DI PROBABILITA’

Distribuzione di probabilità: è data dall’insieme delle probabilità associate ai possibili risultati di

un esperimento. Possiamo costruire una distribuzione di probabilità empiricamente, svolgendo

l’esperimento e registrandone i risultati, oppure costruire la distribuzione a livello teorico in base alle

regole della probabilità. Le distribuzioni teoriche utilizzate in statistica sono molte e hanno tutte in

comune il fatto che non sono frutto di dati realmente raccolti ma sono dati generati da una teoria

matematica. Le distribuzioni teoriche di probabilità sono fondamentali per la statistica inferenziale

poiché è ad esse che facciamo riferimento per trarre inferenze sulle nostre ipotesi di ricerca.

Distribuzione binomiale:

Una variabile dicotomica è definita da due sole categorie (Es. sesso: maschio/femmina), ovvero

prevede soltanto due alternative che si escludono a vicenda. Una variabile può essere naturalmente

(per sua natura) dicotomica come appunto il sesso, ma talvolta possiamo trasformare in variabile

dicotomica, variabili che originariamente non lo sono. Es. esito all’esame di psicometria. Se prendo in

considerazione i punti da 18 a 30, non posso certo considerarla una variabile dicotomica, ma se

considero solo ammesso / non ammesso all’orale, trasformo questa variabile in dicotomica. I dati

che risultano dalla misurazione di una variabile dicotomica sono detti binomiali, ovvero dati che

hanno due nomi (giusto/sbagliato; testa/croce…..). Possiamo considerare un singolo evento (una

domanda, un lancio di una moneta, una prova di esame) oppure un insieme di eventi di tipo

binomiale (più domande, più lanci….) e costruire una distribuzione di probabilità binomiale.

Vediamo come sia possibile generare una distribuzione di probabilità in base ad un presupposto

teorico di natura matematica:

In termini probabilistici, i possibili risultati sono dati dal numero di eventi favorevoli o successi

(k) rispetto al numero di eventi (n) che definiscono la distribuzione. Dobbiamo dunque conoscere

la probabilità di successo (p) per ciascun singolo evento, il numero n di eventi e calcolare le

probabilità facendo variare k da 0 a n.

Come calcolare la probabilità binomiale:

1. Definire l’insieme degli eventi possibili (n) e l’insieme dei successi o eventi favorevoli (k).

2. Isolare l’evento singolo entro gli n che stiamo considerando e stabilire la probabilità associata al

successo (p) e la probabilità associata all’insuccesso (q). C ).

3. Definire tramite il coefficiente binomiale le possibili combinazioni di k successi entro n (

n k k

.

4. Stabilire la probabilità associata ai k successi moltiplicando p per k volte, ovvero calcolando p

5. Stabilire la probabilità associata agli n-k insuccessi moltiplicando q per n-k volte, ovvero

n-k

.

calcolando q

6. Moltiplicare i valori ottenuti al punto 3,4 e 5.

L’intera procedura può essere sintetizzata dalla seguente formula:

K n-k

C p q

p(k) = n k

dove:

n = eventi possibili

k = eventi favorevoli o successi

p = probabilità di successo

q = probabilità di insuccesso

Esempio: Consideriamo il caso in cui si registrino le rispose a tre domande (n = 3), del tipo

vero/falso (p = q = 0,50) in cui le risposte siano date in modo casuale. Calcolare la distribuzione di

probabilità binomiale: 34

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

possiamo avere il caso in cui le risposte siano tutte corrette k= 3, oppure tutte scorrette k = 0 , i

casi con una sola risposta corretta k= 1 e infine, i casi con due risposte corrette k = 2. Ad ogni

risultato dobbiamo associare la probabilità utilizzando le regole della probabilità e tenendo conto

delle possibili sequenze per ogni risultato (ad esempio, una sola risposta corretta è data dalle tre

sequenze CSS, SCS, SSC). Per associare a ciascun evento la sua probabilità, potremmo fare

riferimento alle regole del calcolo della probabilità (nel caso tutte corrette o tutte scorrette si calcola

la probabilità congiunta, nel caso una corretta e due scorrette o due corrette e una scorretta si

calcola la probabilità disgiunta). Per velocizzare il calcolo ci viene in aiuto l’equazione che esprime la

funzione di probabilità binomiale. La formula si basa sul calcolo della probabilità congiunta di

eventi indipendenti. Dobbiamo calcolare:

1. la probabilità di una sola risposta esatta: p = 0,50x0,50x0,50 cioè p(C∩C)=p(C)xp(C)xp(C) =

1,25 . A questo punto dobbiamo tener conto del fatto che l’insieme di una risposta corretta su

tre può essere ottenuto in tre modi diversi:CSS, SSC, SCS. Il valore 1,25 dovrà essere

moltiplicato per 3, ovvero per il coefficiente binomiale dato dalle combinazioni di 3 elementi

C = 3! = 3).

presi 1 a 1 ( 3 1 1!(3-1)!

Pertanto, tirando a caso, la probabilità di dare una risposta corretta a tre domande con

alternativa vero/falso è, dunque, 0,375.

2. la probabilità di due risposte corrette: p = 0,50x0,50x0,50 = 1,25. A questo punto dobbiamo

moltiplicare il valore 1,25 per 3, ovvero per il coefficiente binomiale dato dalle

C = 3! = 3

combinazioni di 3 elementi presi 2 a 2 = 3 2

2!(3-2)!

Pertanto, tirando a caso, la probabilità di dare due risposte corrette a tre domande con

alternativa vero/falso è, dunque 0,375 (il risultato è uguale la precedente trovandoci nel caso

particolare in cui p = q).

3. Infine per completare il calcolo delle probabilità associate ai possibili risultati con tre domande

vero/falso, dobbiamo considerare il caso tutte scorrette o tutte corrette. In questo caso p = q =

0,50x0,50x0,50 = 0,125

Tali risultati possono essere rappresentati graficamente:

k = 0 p = 0,125

k = 1 p = 0,375

k = 2 p = 0,375

k = 3 p = 0,125

(k = risposte corrette). K n-k

C p q nell’esempio sopra con k=2:

Applicando la formula rapida p(k) = n k

2 2-1

C 0,50 0,50 = 0,375

p(2) = 3 2

La somma di tutte le probabilità associate ai possibili risultati di un esperimento è uguale

a 1.

In sintesi la distribuzione teorica di probabilità binomiale è definita da tutti i possibili risultati di

K n-k

C p q

un esperimento e le corrispondenti probabilità. La funzione di probabilità binomiale p(k)= n k

è caratterizzata dai parametri p e q ed è discreta, ovvero k assume soltanto valori interi.

questo tipo di distribuzione è simmetrica rispetto al valore centrale.

Forma della distribuzione:

Questo significa che la probabilità di ottenere 10 risposte esatte su 10 oppure 10 risposte scorrette

su 10 è la stessa e, in particolare, è una probabilità estremamente bassa (praticamente prossima allo

0). Così come la probabilità di rispondere ad almeno 8 domande corrette (che significa 8 o 9 o 10:

applicando la probabilità disgiunta), è uguale alla probabilità di rispondere correttamente a non più di

2 domande (che significa o 0 o 1 o 2). Possiamo osservare che le probabilità più elevate sono sui 35

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

valori centrali della gamma dei possibili risultati, in particolare, la probabilità più alta è quella di

indovinare 5 domande su 10 presentate.

Una distribuzione con p = q è simmetrica

Una distribuzione con p ≠ q è asimmetrica

Consideriamo il caso in cui si hanno domande con tre alternative di cui una sola corretta. Siamo nel

caso in cui una variabile su tre categorie può essere resa dicotomica codificandola come corretta o

sbagliata. Se rispondiamo a caso, la probabilità di successo p è 1 risposta su 3 cioè 0,33, mentre

quella di insuccesso q è 2 risposte su 3 cioè 0,67, ovvero è più probabile sbagliare che non

rispondere in modo esatto. La distribuzione che otteniamo, considerando, ad esempio 10 domande,

ha una forma asimmetrica che indica come sia probabile ottenere risultati bassi (da 0 a 3) mentre sia

altamente improbabile ottenere buoni risultati affidandosi al caso. Se p < q (< = minore)

l’asimmetria è positiva. Se p > q l’asimmetria è negativa.

La distribuzione binomiale può essere utilizzata non solo quando uno stesso soggetto è sottoposto a

più prove (ad esempio alle n domande) ma anche quando n soggetti svolgono la stessa prova (ad

esempio rispondono alla stessa domanda). Infatti, in entrambi i casi siamo di fronte ad eventi

semplici definiti da due possibili risultati indipendenti tra loro: nel primo caso, l’indipendenza è data

dal fatto che l’aver risposto ad una domanda non influenza il rispondere alle successive; nel secondo

caso, l’indipendenza è data dal fatto che rispondono soggetti diversi.

In sintesi, l’equazione binomiale definisce la probabilità di un singolo soggetto di compiere k scelte

corrette su n prove, oppure la probabilità di n soggetti che svolgono la stessa prova di compiere k

scelte corrette. In entrambi i casi si calcola la probabilità relativa al risultato k ottenuto

complessivamente da un campione che può essere costituito da n soggetti oppure da n prove.

Come costruire una distribuzione teorica di probabilità con eventi binomiali

1. definire l’insieme di eventi possibili (n)

2. isolare l’evento singolo entro gli n che stiamo considerando e stabilire la

probabilità associata al successo (p) e la probabilità associata all’insuccesso

(q).

3. definire tramite l’equazione binomiale le probabilità associate a tutti i

risultati che si possono ottenere a partire dagli n eventi considerati, ovvero

facendo variare k da 0 a n.

4. possiamo rappresentare graficamente la distribuzione: in ascissa metteremo i

possibili risultati, in ordinata le probabilità calcolate.

5. se p = q otterremo una distribuzione simmetrica

6. se p ≠ q la distribuzione sarà asimmetrica: positiva per p < q; negativa

per p > q.

Come calcolare media e deviazione standard di una distribuzione binomiale

1. Data la probabilità disuccesso p e il numero degli eventi possibili n, la

media (µ) della distribuzione binomiale sarà uguale al prodotto dei due

valori: µ = np

2. La deviazione standard ( σ ) della distribuzione binomiale la si ottiene

facendo la radice quadrata del prodotto tra n, p e q (probabilità di

insuccesso) : σ = √ npq 36

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Esempi:

prendiamo la distribuzione con n = 10 e calcoliamone la media. Se p = 0,50, la media è uguale a

- 0,50x10 = 5, ovvero il risultato più probabile, o il risultato atteso, è in questo caso 5 su 10.

Calcolando le deviazioni standard delle distribuzioni con n = 10 per p = 0,50 abbiamo σ =

- √10x0,50x0,50 = 1,58.

Distribuzione normale: è la distribuzione normale. Il termine normale deriva

La più importante distribuzione continua

dalla sua ampia diffusione in quanto molte delle caratteristiche sia fisiche, come peso e altezza, che

psicologiche, come il quoziente intellettivo (QI) o altre abilità cognitive, presentano questa

distribuzione. La distribuzione normale è una distribuzione teorica nota anche come curva a

campana, data dalla sua particolare forma o, gaussiana, dal nome del matematico Gauss che l’ha

studiata. La distribuzione normale è anche nota come curva degli errori, in quanto in una serie di

misurazioni ripetute gli errori accidentali tendono a distribuirsi normalmente.

La funzione che permette di rappresentare e di descrivere la distribuzione è:

vedere formula pagina 102

µ = media della popolazione

σ = d.s. della popolazione

π = pi greco, costante (=3,14)

e = costante (=2,72)

Per rappresentarla si può stimare il valore di y (valore dell’ordinata o altezza della curva) per ogni

valore di x (valore dell’ascissa).

Se nella frazione sostituiamo al π il valore 3,14 e ad e il valore 2,72 abbiamo tre incognite: il valore

di x che corrisponde al singolo punteggio e i due parametri µ e σ, rispettivamente la media e la

deviazione standard. La forma della distribuzione si modifica in base a questi due parametri

ottenendo una famiglia di distribuzioni. Come per le distribuzioni con variabili discrete l’area totale al

di sotto della curva (da - ∞ a + ∞ ) è uguale a 1 e corrisponde alla probabilità totale; è quindi

possibile calcolare per ogni valore x la probabilità di verificarsi, definendo l’intervallo fino al valore

x; l’area dell’intervallo (ad esempio da - ∞ a x) si calcola con l’integrale:

vedere formula pagina 104

L’integrale consente di calcolare la somma di aree quando le variazioni sono continue.

Caratteristiche della distribuzione normale:

1. infinita= va da - ∞ a + ∞

2. sono simmetriche rispetto alla media (µ) in quanto la funzione assume lo stesso valore per i

valori di x che si collocano ad una stessa distanza al di sotto o al di sopra della media. Questa

caratteristica facilita i calcoli per misurare la probabilità di un certo valore x; in quanto le aree tra

- ∞ e µ e quelle tra µ e + ∞ sono uguali a 0,50, la metà dell’intera area che è uguale a 1.

3. hanno la forma a campana, con una maggiore concentrazione dei casi intorno alla media e una

diminuzione nelle code; la curva è crescente da - ∞ a µ e decrescente da µ a + ∞ e presenta

due punti di flesso in corrispondenza di più o meno una deviazione standard dalla media (µ±σ),

punti in cui la curva da convessa diventa concava (vedere figura 4 pag. 104).

4. unimodale= la media coincide con la moda e la mediana (la funzione assume il suo punto

massimo in corrispondenza della media che risulta essere il valore più probabile e con la

frequenza più alta).

5. asintotica = le code tendono all’infinito senza intersecare l’asse delle ascisse. 37

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

6. qualsiasi siano i parametri, l’area della porzione di curva delimitata dalla media e un’ordinata

espressa in termini di deviazione standard è costante: tra meno una e più una deviazione

standard si trova il 68,26% dei casi; tra meno due e più due deviazioni standard il 95,46% e tra

meno tre e più tre deviazioni standard circa il 99,73%.

Distribuzione normale standardizzata:

Molto importante ai fini dell’inferenza statistica è la distribuzione normale standardizzata.

Trasformando i valori della variabile x in punteggi standardizzati z, si ottiene la distribuzione normale

standardizzata che ha:

µ = 0 e σ = 1

In questo caso la funzione di densità di probabilità è uguale a :

vedere formula pagina 106

La distribuzione normale standardizzata presenta le stesse caratteristiche della distribuzione non

standardizzata con la particolarità di avere media e deviazione standard costanti ed è per questo

mentre la distribuzione normale non standardizzata è

sempre rappresentata da una sola curva,

rappresentata da infinite curve a seconda dei valori dei parametri µ e σ.

L’uso di questa distribuzione consente di individuare le probabilità relative ai diversi intervalli di valori

attraverso le tavole di probabilità dove le probabilità corrispondenti alle superfici sottostanti la

curva sono state calcolate e tabulate evitando il calcolo dell’integrale. L’uso della distribuzione

normale standardizzata ha consentito di misurare con esattezza la porzione di area sottesa tra la

media e rispettivamente una, due e tre deviazioni standard.

Quando usare le tavole della distribuzione normale standardizzata

1. per determinare l’area al di sopra o al di sotto di un valore o l’area compresa

tra due valori di una variabile.

2. per determinare le frequenze teoriche corrispondenti ad una determinata

area.

3. per determinare i valori grezzi conoscendo le aree.

Per poter calcolare la proporzione di valori sottostanti la curva usando le apposite tavole occorre

trasformare i punteggi grezzi in punti z, trasformazione possibile solo se sappiamo o assumiamo che

i punteggi si distribuiscono normalmente. Le tavole della distribuzione normale standardizzata

riportano l’area compresa tra la media e il valore z (Tavola 1a) e l’area che si colloca oltre il punto z,

nella coda della distribuzione (Tavola 1b). In ambedue le tavole, nella prima colonna abbiamo il

valore z con il primo decimale e nella prima riga la seconda cifra decimale; dall’ intersezione della

riga e della colonna corrispondente allo z calcolato, si individua il valore dell’area.

Dato che la distribuzione normale è simmetrica nelle tavole dei punti z i valori sono solo positivi, in

quanto la proporzione dei valori tra la media e un punto z=1,00 e tra la media e un valore z=-1,00

rimane uguale a 34,13%.

Esempio:

Consideriamo una distribuzione con media = 100 e deviazione standard = 10 e determiniamo la

porzione di casi compresi tra la media e il punteggio 110:

La prima operazione da fare è trasformare i valori grezzi in valori z:

z = 110 – 100 = 1,00

z = x – µ

σ 10 38

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Calcolato z, lo ricerchiamo sulle tavole nella prima colonna e individuiamo l’area corrispondente =

0,3413 = 34,13%. Possiamo pertanto stabilire che la proporzione di casi tra la media e il punteggio

110 è uguale a circa il 34%.

Se consideriamo il caso in cui si deve stabilire la percentuale di punteggi tra il valore 90 e la media,

otterremo z = - 1,00 (valore negativo, cioè al di sotto della media) , tuttavia la porzione di area

rimane invariata rispetto alla precedente data la simmetria della distribuzione. Sulle tavole

corrisponde sempre a 0,3413 = 34,13%.

Calcolo della probabilità al di sotto di un certo valore:

Prima di tutto occorre osservare se questo valore sta sopra o sotto la media, ovvero se z sia positivo

o negativo.

Esempio: se devo stabilire la probabilità di avere un valore minore di 110, mi trovo in questo caso

positivo:

- ad avere un valore z = 1,00 e quindi al di sopra della media e, quindi, devo considerare tutta

l’area al di sotto di questo valore. Per farlo, sapendo che l’area tra la media e z = 1,00 è uguale

a 0,3413 devo sommare a questa l’area di 0,50, che corrisponde alla metà dell’intera area.

Ottengo un valore uguale a 0,8413, che equivale a dire circa l’84% dei casi.

se devo stabilire la probabilità di avere un valore minore di 90, mi trovo in questo caso

negativo:

- ad avere un valore z = -1,00 e quindi al di sotto della media. Sapendo che l’area tra la media e il

valore z = -1,00 è uguale a 0,3413 devo in questo caso sottrarre da 0,50 (la metà dell’area

della distribuzione) il valore 0,3413 ottenendo l’area di 0,1587 che indica la percentuale dei casi

(circa il 16%) al di sotto di 90.

Calcolo della probabilità al di sopra di un certo valore:

(l’opposto del precendente)

Prima di tutto occorre osservare se questo valore sta sopra o sotto la media, ovvero se z sia positivo

o negativo.

Esempio: se devo stabilire la probabilità di avere un valore maggiore di 110, per individuare l’area

positivo:

- al di sopra di questo valore occorre sottrarre da 0,50 l’area 0,3413. Ottengo per differenza il

valore uguale a 0,1587, che equivale circa al 16% (dei casi con punteggio superiore a 110).

se devo stabilire la probabilità di avere un valore maggiore di 90, per individuare l’area

negativo:

- al di sopra di questo valore occorre sommare a 0,50 l’area compresa tra la media e z che è

0,3413. La probabilità cercata è uguale 0,8413.

:

Calcolo dell’area compresa tra due valori z

Prima di tutto devo distinguere il caso in cui:

se ad esempio devo stabilire la probabilità che un valore

un valore sia positivo e l’altro negativo:

- sia compreso tra 90 e 110, mi trovo nel caso in cui un valore z è positivo (= 1,00) e l’altro

negativo (= -1,00). Per calcolare la probabilità devo sommare le due aree corrispondenti alla

porzione di curva compresa tra il valore medio e ciascun valore z. In questo caso devo fare

0,3413+0,3413 = 0,6826 cioè circa il 68%.

se ad esempio devo stabilire la probabilità che un valore sia compreso tra 108

entrambi positivi:

- e 110, che in valori standardizzati è uguale all’area compresa tra 0,8 e 1, per individuare l’area

richiesta occorre trovare la porzione di area compresa tra la media e 1 (= 0,3413) e poi l’area

compresa tra la media e 0,8 (= 0,2881) e fare la differenza. Si ottiene un valore uguale a

0,0532 cioè circa il 5%.

nello stesso modo procediamo nel caso in cui ambedue i valori sono al di sotto

entrambi negativi:

- della media; ad esempio nel caso in cui occorre stabilire la probabilità compresa tra i valori 90 e

92 che trasformati in valori z sono uguali a -1,00 e -0,8. Si calcola l’area tra la media e -1,00 e 39

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

l’area tra la media e -0,8 e fare la differenza: 0,3413 – 0,2881 = 0,0532. Per la simmetria

- della curva l’area è equivalente a quella del caso precedente, circa il 5% dell’intera distribuzione.

In tutti i casi presentati le aree corrispondono alle frequenze relative, in quanto indicano le frequenze

tra la media e un dato valore di z, ottenuto dalla standardizzazione del punteggio; infatti in una

distribuzione normale sappiamo che circa il 34% dei punteggi cade tra la media e più o meno una

deviazione standard. Conoscendo le frequenze relative possiamo calcolare le frequenze assolute

se abbiamo una

moltiplicando l’area ottenuta per N, il numero totale delle frequenze. Esempio:

distribuzione con 1000 punteggi, con media uguale a 100 e deviazione standard uguale a 10, e

vogliamo calcolare le frequenze teoriche tra i punteggi 108 e 110, dobbiamo, dopo aver trasformato

in valori z e trovata l’area corrispondente sulla tavola, moltiplicare per il numero totale delle

frequenze. In questo caso l’area 0,532 si moltiplica per 1000, ottenendo il valore 53, il numero dei

punteggi che si collocano nell’intervallo tra i due valori z.

Possiamo anche procedere in modo inverso se conosciamo la proporzione dei casi e vogliamo risalire

a z e al punteggio corrispondente. In questo caso, si ricerca nella tavola l’area e in base a questa

viene individuato il valore z. Conoscendo z si applica la formula inversa (x = µ + z σ) e si ottiene il

valore del punteggio corrispondente.

data una distribuzione con media 100 e deviazione standard 10, se la porzione di area

Esempio:

compresa tra la media e il punto z è uguale a 0,4066, ricerchiamo questo valore tra le aree collocate

all’interno della tavola e troviamo 1,32. Per calcolare il valore grezzo corrispondente applichiamo la

formula come segue:

x = 100 + 1,32 (10) = 113,20

Come calcolare la probabilità con la distribuzione normale

1. Prima di usare le tavole occorre trasformare i valori grezzi in valori z usando

la seguente formula:

z = x – µ

σ

x = valore grezzo misurato appartenente a distribuzione normale

µ = media della distribuzione

σ = deviazione standard della distribuzione

2. Rappresentare graficamente una curva normale, con una lieve verticale in

corrispondenza del valore medio uguale a zero. Riportare sul grafico i valori z

calcolati e per ciascun valore tracciare una linea verticale in modo da definire

graficamente la porzione da misurare.

3. Usare le tavole della distribuzione normale:

a. trovare il valore di z con la prima cifra decimale nella prima colonna della

tavola; individuare la seconda cifra decimale nella prima riga della tavola.

Ricercandone l’intersezione ricaviamo dalla Tavola 1a l’area tra la media

e z mentre dalla Tavola 1b l’area da z al resto della coda della

distribuzione.

b. Per i valori z con segno negativo si utilizza la parte positiva della

distribuzione data la sua simmetria.

c. Nel calcolo delle aree occorre ricordare che la somma totale dell’area al di

sotto della curva è uguale a 1 e la metà a 0,50. 40

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Relazione tra binomiale e normale:

se n è grande e p e q non sono troppo vicini a zero la distribuzione binomiale può essere

- approssimata alla normale con

___

µ= np σ = √npq

alla’aumentare di n la distribuzione può essere considerata normale

-

vedere curve pagina 157 (schemi di statistica)

CAPITOLO 9 DISTRIBUZIONI CAMPIONARIE

poggia le sue basi su distribuzioni di probabilità teoriche definite su

La statistica inferenziale

campioni. Associare una probabilità al risultato ottenuto da un campione serve per poter condurre

sulla popolazione dalla quale questo campione è stato estratto.

delle inferenze

DISTRIBUZIONE CAMPIONARIA

Distribuzione relativa ad una specifica statistica calcolata su più campioni di dimensione n, tutti

estratti dalla stessa popolazione.

Nella sua costruzione occorre:

1) ciascun campione sia definito dallo stesso numero di casi n

2) ciascun campione di ampiezza n sia estratto dalla stessa popolazione

3) l’estrazione sia casuale (ogni elemento deve avere la stessa probabilità di essere incluso nel

campione ) e indipendente ( i casi devono essere selezionati in modo che l’estrazione

dell’uno non influenzi l’estrazione dell’altro)

poi si procede nel calcolare:

a) la statistica, della quale si vuol definire la distribuzione campionaria, su ogni campione

estratto

b) la frequenza, ovvero il numero di campioni, per ciascuno dei valori possibili della statistica in

esame

Distribuzione campionaria della proporzione di successi su n eventi dicotomici/binomiali

Considerando un alto numero di campioni e registrando ogni volta la proporzione di successi,

associamo una determinata frequenza a ciascuna delle proporzioni possibili, ovvero abbiamo per

ciascun risultato il numero di campioni che lo hanno ottenuto. Cosi abbiamo costruito una

distribuzione campionaria della proporzione di successi su n eventi (vedi esempio p. 114).

La differenza fondamentale tra una distribuzione di frequenza ed una distribuzione campionaria è che

nella seconda si contano i campioni (ognuno dei

nella prima si contano i casi per ciascun risultato, Il risultato è il dato ottenuto da ciascun caso

quali sarà definito da n casi) per ciascun risultato.

nell’una, mentre nell’altra è il dato del campione, ovvero la statistica o indicatore che esprime in

modo sintetico un insieme di dati. Consideriamo il lancio di una moneta: il risultato di un soggetto

sarà, ad esempio, Testa, ed è il valore che lo rappresenta; il risultato di un campione sarà la

proporzione di risultati Testa sull’insieme dei casi, cioè il valore che rappresenta il campione. 41

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

si estrae effettivamente un certo numero di campioni, se ne

Distribuzione campionaria empirica:

calcola la statistica e si opera il conteggio delle frequenze

costruita matematicamente in base alle regole della

Distribuzione campionaria teorica:

probabilità (Cap. 8) possiamo quindi calcolare la

Con le nostre conoscenze sulla distribuzione binomiale

frequenza relativa attesa per ciascun risultato. Questa è la distribuzione campionaria teorica

della proporzione di successi su n prove, in cui si riportano il numero di campioni che teoricamente

dovrebbero ottenere un certo risultato.

Come costruire una distribuzione campionaria teorica con eventi binomiali

1) Definire il numero degli elementi che vanno a comporre ciascun campione

(n)

2) Isolare l’evento singolo entro gli n che compongono il campione e stabilire la

probabilità associata al successo (p) ed all’insuccesso (q)

le probabilità associate a tutti i

3) Definire tramite l’equazione binomiale

risultati che si possono ottenere a partire dagli n elementi considerati,

ovvero facendo variare k da 0 a n. In questo modo calcoliamo la frequenza

relativa attesa per ciascun possibile risultato, ovvero la proporzione che

in teoria dovrebbero ottenere quel risultato.

esprime quanti campioni

Distribuzione campionaria della media (dCM):

Avendo dei dati grezzi e la distribuzione di frequenza della popolazione, possiamo calcolare la media

(µ) e la deviazione standard (σ) della popolazione.

Esempio:

supponiamo di avere una popolazione composta da 8 pazienti che soffrono di attacchi di panico. E’

stato registrato il numero degli attacchi di panico per ogni paziente entro un arco temporale di un

mese ricavandone la distribuzione di frequenza con la quale posso calcolare media µ e deviazione

standard σ di questa popolazione.

Se poi estraiamo da questa popolazione dei campioni di due pazienti (n=2), possiamo calcolare per

ognuno la media campionaria.

Attraverso il calcolo combinatorio possiamo calcolare il numero dei possibili campioni, facendo le

combinazioni di 8 elementi presi a 2 a 2:

C = 8! = 28

8 2 2! (8-2)!

Calcolando la media di ciascun campione, possiamo ricavare una distribuzione di frequenza dove i

e le frequenze ci indicano quanti campioni hanno ottenuto una

valori sono rappresentati dalle medie

determinata media. ) e deviazione standard (σ ) della distribuzione cosi

Possiamo quindi calcolare media (µ

M M

ottenuta. ) è data dalla media delle medie dei campioni:

La media (µ

M ) viene calcolata a partire dagli scarti al quadrato di ciascuna media

La deviazione standard (σ

M

campionaria dalla media (µ ).

M 42

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Vedere esempio pag. 118

Forma della distribuzione: Indipendentemente dalla forma (originaria) della distribuzione

TEOREMA DEL LIMITE CENTRALE:

della popolazione (dalla quale i campioni sono stati estratti), una distribuzione campionaria della

media tende alla normalità all’aumentare di n e raggiunge la forma normale per n ≥ 30 (vedere

figura pag. 119).

Quindi tanto più i campioni sono ampi, tanto più la distribuzione si avvicina alla normale.

Media e deviazione standard della distribuzione:

La deviazione standard dipende, come la forma della distribuzione, dall’ampiezza campionaria.

Infatti, tanto più n è elevato, tanto più le medie dei campioni si avvicineranno a quella della

popolazione; in tal modo i valori si concentreranno attorno alla media della distribuzione e quindi

diminuirà la variabilità. all’aumentare di n diminuisce la variabilità/varianza della

LEGGE DEI GRANDI NUMERI:

Ö distribuzione campionaria tra variabilità/varianza della distribuzione campionaria e

Si tratta di una relazione inversa

Ö ampiezza campionaria n tende a zero, poiché tutte le medie campionarie

Implica che se n tende a N o all’infinito, σ

Ö M

tenderanno a coincidere con la media della popolazione.

ha le seguenti proprietà:

Quindi la distribuzione campionaria della media

1) la sua forma è normale per n ≥ 30

2) la media è uguale a quella della popolazione dipende da n ed è uguale a: σ = σ .

3) la deviazione standard, detta errore standard, M

√n

se la popolazione è infinita o il campionamento viene effettuato con reinserimento; se invece

la popolazione è finita e il campionamento è senza reinserimento si utilizza:

____

= σ . √N- n

σ

M √n N-1

Esprime la media delle deviazioni di ciascun campione della media della popolazione, ovvero

l’insieme degli scarti (distorsioni/errori) delle medie campionarie rispetto al valore esatto della

popolazione; nella pratica della ricerca è frequente che non si conosca la deviazione standard σ della

popolazione di riferimento. Per calcolare l’errore standard della distribuzione campionaria della media

si utilizza la statistica s (=deviazione standard del campione). Otteniamo l’errore standard stimato

della distribuzione campionaria della media utilizzando s al posto di σ e dividendo per la radice di

n-1. Ovvero:

(con sopra accento circonflesso) = s .

σ

M √n-1

Il simbolo “ ^ “ (accento circonflesso) posto sopra la lettera σ indica che si tratta di una stima del

parametro. 43

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Se oltre alla deviazione standard della popolazione non conosciamo neppure la media della

popolazione, dobbiamo far riferimento alla media campionaria per avere indicazioni su tale

parametro. In questo caso l’errore standard esprime quanto la statistica M costituisca una buona

stima del parametro µ. Infatti un errore standard elevato indica una notevole variabilità tra le medie

campionarie, ovvero che i campioni possono avere medie che si discostano molto dal valore della

popolazione e dunque la media campionaria calcolata può essere una stima non buona; un errore

standard basso indica scarsa variabilità, ovvero che i campioni hanno medie che in generale si

discostano di poco dal valore della popolazione, per cui la media campionaria può essere considerata

una buona stima.

Come calcolare media e deviazione standard di una distribuzione campionaria della media

1) Data la media della popolazione (µ) la media della distribuzione campionaria sarà

uguale a quella della popolazione:

= µ

µ M

2) Data la deviazione standard della popolazione (σ), la deviazione standard della

la si ottiene attraverso le seguenti

distribuzione campionaria, detta errore standard,

formule:

a. se la popolazione è infinita o il campionamento è con reinserimento:

= σ .

σ

M √n

dove:

σ = deviazione standard della popolazione

n = ampiezza del campione

b. se la popolazione è finita e il campionamento è senza reinserimentio:

____

= σ . √N- n

σ

M √n N-1

dove:

σ = deviazione standard della popolazione

N = ampiezza della popolazione

n = ampiezza del campione

3) Se la deviazione standard della popolazione non è nota, l’errore standard può essere

stimato utilizzando la statistica campionaria:

(con sopra accento circonflesso) = s .

σ

M √n-1

dove:

s = deviazione standard del campione

n = ampiezza del campione 44

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Distribuzioni campionarie e distribuzioni di probabilità:

Il ragionamento entro la statistica inferenziale è sempre condotto a partire dalla probabilità di

un certo risultato campionario oppure non più di un certo risultato campionario e

ottenere almeno

per questo motivo facciamo riferimento ai valori che stanno nelle aree estreme della distribuzione,

della distribuzione.

dette code

Per associare una probabilità ad una media campionaria calcolata su un campione con n>30 faremo

riferimento alle apposite tavole della distribuzione normale standardizzata (tavole 1a e 1b), dal

per il teorema del

momento che la distribuzione campionaria della media a cui ci riferiamo è normale

limite centrale. La standardizzazione della media sarà fatta in riferimento ai parametri di tale

distribuzione campionaria che possono essere calcolati conoscendo quelli della popolazione. Quindi

ricaveremo un valore z attraverso la seguente formula:

= M – µ

z M M

σ

M

Esempio:

Facciamo riferimento all’intera popolazione degli studenti di Psicologia. Sappiamo che all’esame di

psicometria il voto medio conseguito è µ = 24,8 con una deviazione standard σ = 3,5. Vogliamo

calcolare la probabilità che un campione di 36 studenti, estratto a caso da questa popolazione,

ottenga una media di almeno 27. Trattandosi di un campione con ampiezza maggiore di 30,

sappiamo che la distribuzione campionaria alla quale appartiene è normale e avrà la stessa media

= 24,8) ed errore standard uguale al rapporto tra la deviazione

della popolazione (ovvero µ

M

standard della popolazione e la radice dell’ampiezza del campione (siamo nel caso in cui la

popolazione può essere considerata infinita). Quindi:

= 3,5 = 0,58

σ

M √36

Per ottenere la probabilità associata a una media uguale o maggiore a 27 (ovvero almeno 27) devo

seguire la procedura illustrata nel capitolo 8 in relazione alla distribuzione normale. In questo caso

devo identificare la porzione di area che sta nella coda destra della distribuzione definita

dall’intervallo tra 27 e + ∞. Standardizziamo 27 rispetto ai parametri della distribuzione campionaria

della media:

= 27 - 24,8 = 3,79

z M 3,5

√36

Andando a cercare il valore sulla tavola della distribuzione normale standardizzata (Tavola 1b), trovo

che l’area compresa nella coda della distribuzione delimitata da questo valore è 0,0001. Possiamo

osservare che un campione di 36 studenti ha una probabilità quasi nulla di avere una media uguale o

superiore a 27.

(Vedi anche altro esempio pag. 124)

La statistica campionaria costituisce una buona approssimazione (stima) del parametro della

popolazione. Tutto ciò ha un’importanza fondamentale per la statistica inferenziale poiché nella

pratica comune della ricerca spesso non si conoscono i parametri della popolazione e ci dobbiamo

affidare ai dati campionari per trarne delle indicazioni.

Attraverso le distribuzioni campionarie possiamo cercare di definire in termini probabilistici il grado di

esattezza del parametro stimato trovando un intervallo entro il quale ricade il parametro della

popolazione, ovvero un intervallo di fiducia. 45

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Intervalli di fiducia della media:

Supponiamo di non avere alcuna informazione relativa al voto medio conseguito all’esame di

psicometria dagli studenti di Psicologia e di avere media e deviazione standard del voto (M=25 e

s=2,3) di un campione casuale composto da 36 studenti. A partire dall’indicatore M possiamo trarre

una stima puntuale, attraverso specifici metodi di stima, che conducono all’identificazione di un

singolo valore per il parametro µ; oppure, possiamo fornire una stima intervallare, ovvero

delimitare un intervallo di valori entro il quale dovrebbe ricadere il parametro (possiamo cioè fare

una valutazione in termini probabilistici affermando che molto probabilmente la media della

popolazione sarà compresa tra un valore inferiore e un valore superiore alla media campionaria).

Possiamo ad esempio stabilire con che probabilità la popolazione dalla quale è stato estratto quel

campione abbia una media attorno al 25 definendo un intervallo di fiducia, ovvero utilizziamo i dati

campionari per definire due valori attorno alla statistica campionaria (sotto e sopra di essa) entro i

quali abbiamo fiducia si collochi il valore del parametro della popolazione.

Tali valori vengono definiti limiti di fiducia

- inferiore (quello sotto la media)

- superiore (quello sopra la media)

La fiducia viene quantificata decidendo a priori la probabilità che un parametro ricada in un certo

intervallo. Questa probabilità prende il nome di livello di fiducia ed i livelli generalmente utilizzati

sono del 95% e del 99%. Ciò significa stabilire che il parametro della popolazione sarà compreso

nell’intervallo calcolato con una probabilità uguale .95 oppure .99, valori prossimi a 1 che ci

permettono di essere quasi certi che il parametro si collochi entro i valori indicati. La scelta del livello

di fiducia è arbitraria.

Applicando la formula per ricavare il valore di x partendo da z (Cap.5) possiamo ottenere i due

estremi dell’intervallo, rispettivamente:

= M – zσ (con accento circonflesso sopra σ)

x 1 M

= M + zσ (con accento circonflesso sopra σ)

x 2 M

come segue:

< µ < M + zσ

M – zσ

M M

(con accento circonflesso sopra σ)

Ricordando che i parametri della popolazione non sono noti, sarà necessario utilizzare M e stimare

l’errore standard della distribuzione campionaria attraverso s.

) < µ < M + z ( s )

M – z ( s

√n -1 √n-1

Riprendendo l’esempio per calcolare l’intervallo di fiducia al 95%:

la stima dell’errore è = 0,39

il limite inferiore è uguale a : 25 – 1,96(0,39)= 24,2

il limite superiore è uguale a : 25 + 1,96 (0,39) = 25,8

Tali limiti rappresentano i due valori entro i quali, con una probabilità del 95%, ci aspettiamo ricada il

parametro della popolazione, ovvero 24,2 <µ< 25,8.

Se vogliamo l’intervallo di fiducia del 99% la media della popolazione (usando la stessa formula ma

mettendo 2,58 al posto di 1,96) sarà compresa tra 24 e 26. 46

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Come calcolare l’intervallo di fiducia della media

1) calcolare l’errore standard della distribuzione campionaria della media attraverso la

procedura appropriata

2) moltiplicare l’errore standard per z = 1,96 (livello di fiducia del 95%) oppure per z =

2,58 (livello di fiducia del 99%) sottrarre il valore ottenuto alla media campionaria

3) Per ottenere il limite inferiore, )

Limite inferiore = M – z ( s

√n -1

dove:

M = media campionaria

s = deviazione standard campionaria

n = ampiezza campionaria

z = valore standardizzato corrispondente al livello di fiducia stabilito

sommare il valore ottenuto alla media campionaria

4) Per ottenere il limite superiore, )

Limite superiore = M + z ( s

√n -1

5) Riportare come segue l’intervallo di fiducia del parametro della popolazione:

Limite inferiore < µ < Limite superiore

) < µ < M + z ( s )

M – z ( s

√n -1 √n-1

L’ampiezza dell’intervallo dipende dal livello di fiducia scelto: tanto più alta è la probabilità prefissata

che il valore ricada entro l’intervallo, tanto più ampio sarà l’intervallo che possiamo identificare.

L’altro fattore che determina l’ampiezza dell’intervallo è l’errore standard della distribuzione, che a

sua volta dipende dalla variabilità osservata e dall’ampiezza campionaria. Se abbiamo quindi un

campione non molto ampio e/o con una elevata deviazione standard, la nostra stima rischia di essere

poco utile, ovvero definiremo un intervallo troppo ampio che in realtà non ci dà informazioni sul

parametro in questione.

---------------------------------------------------------------------------------------------------------

DA SCHEMI DI STATISTICA

Distribuzione t di Student

La popolazione può avere distribuzione:

- normale

- diversa dalla normale*

- non nota

*se n < 30 la distribuzione delle medie dei campioni è del tipo t di Student e ha le seguenti

caratteristiche: infinita, simmetrica , unimodale, asintotica;

In questo caso, maggiore sarà la varianza della distribuzione, la curva più appiattita e code più

lunghe (ad. es la porzione di area compresa tra ± 1 σ dalla media sarà minore di 68%); la forma

della distribuzione varia secondo la dimensione n dei campioni; 47

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

ciascuna distribuzione t è definita dai parametri µ, σ e v = gradi di libertà

v = gdl = n - 1

Famiglia di distribuzioni legate v = gradi di libertà (all’aumentare di v la distribuzione tende alla

normale)

La curva definisce una distribuzione di probabilità => distribuzione di probabilità t definita

dall’indicatore (vedere formule spiegate bene cap. XI).

Distribuzione campionaria delle medie con n<30

Distribuzione di probabilità t => trasformazione in t

(vedere formule spiegate bene nel cap. XI)

Distribuzione campionaria della differenza tra medie (d CDM) 12 22

e µ , varianze σ e σ

Se si estraggono da due popolazioni distribuite normalmente (con medie µ

1 2

e n e si calcola la differenza tra le loro medie; è anch’essa

) campioni indipendenti di ampiezza n 1 2 ) ed un errore standard (σ )

normale e caratterizzata da una media (µ

M1-M2 M1-M2

e n sono maggiori di 30, per il teorema del limite centrale, la dCDM è normale qualsiasi sia

Se n 1 2

la distribuzione delle popolazioni

La media della distribuzione campionaria della differenza tra medie è uguale alla differenza delle

e µ delle due popolazioni

medie µ

1 2

= µ - µ

µ

M1-M2 M1 M2

La varianza della distribuzione campionaria della differenza tra le medie è maggiore delle varianze

12 12

e σ delle due popolazioni poiché è data dalla somma di due fonti di variazioni ( 2 campioni)

σ

2 12 22

= σ + σ

σ M1-M2 n n

1 2 12 22

e σ delle due

L’errore standard è uguale alla radice quadrata della somma delle varianze σ

e n (Formula pag. 186 Schemi di

popolazioni fratto le rispettive ampiezze campionarie n 1 2

Statistica)

12 22 12 22

e σ non sono note occorre stimarle a partire da s e s

Se σ stima dell’errore standard

Ö varianze stimate della popolazione (Formula pag. 187 Schemi di Statistica)

varianza stimata delle dCDM (Formula pag. 187 Schemi di Statistica)

Errore standard stimato delle dCDM (Formula pag. 187 Schemi di Statistica)

e n sono minori di 30 la distribuzione campionaria della differenza tra medie non è normale

Se n 1 2

=> Distribuzione t di Student con gradi di libertà 48

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

+ n - 2

gdl = n 1 2

La media della distribuzione campionaria della differenza tra medie è uguale alla differenza delle

e µ delle due popolazioni

medie µ

1 2

= µ - µ

µ

M1-M2 M1 M2 12 22

e σ delle due popolazioni che devono essere

L’errore standard è derivato dalle varianze σ

12 22

= σ )

omogenee (σ

(Formula pag. 187 Schemi di Statistica)

12 22 12 22

= σ non è nota occorre stimarla a partire da s e s

Se σ stima dell’errore standard

Ö

Varianze stimate delle popolazione (Formula pag. 188 Schemi di Statistica)

Varianza stimata della dCDM (Formula pag. 188 Schemi di Statistica)

Errore Standard stimato della dCDM (Formula pag. 188 Schemi di Statistica)

CAPITOLO 10 LA VERIFICA DELLE IPOTESI

TEORIA DELLA VERIFICA DELL’IPOTESI

Si verifica, in termini probabilistici, se una certa affermazione relativa alla popolazione è da ritenersi

vera sulla base dei dati campionari.

TEORIA DELLA STIMA DEI PARAMETRI

Si stabilisce, in termini probabilistici, il valore numerico di uno o più parametri incogniti della

popolazione a partire dai dati campionari. è una procedura che parte

L’Inferenza statistica entro la procedura di VERIFICA DELLE IPOTESI

dall’ipotizzare che un certo fenomeno abbia specifiche caratteristiche nella popolazione. Si estrae un

campione in modo casuale da tale popolazione ed una volta raccolte le informazioni sul campione,

possiamo chiederci: “Se nella popolazione le cose stanno come ho ipotizzato, quale è la probabilità di

ottenere un campione con queste caratteristiche?”. La teoria della probabilità ci consente di

quantificare questa probabilità ed in base ad essa decidiamo di dare o non dare validità alla nostra

ipotesi di partenza: se tale probabilità è alta, l’ipotesi sarà avvalorata; viceversa, se è bassa, l’ipotesi

verrà falsificata.

L’utilità della statistica inferenziale sta nel fatto che attraverso ragionamenti di tipo probabilistico sui

dati del campione, consente di avere informazioni su popolazioni che non possiamo conoscere in

modo esaustivo. Tuttavia proprio perché non sappiamo con certezza come stanno le cose nella realtà

e traiamo delle conclusioni valutando in termini probabilistici gli indicatori misurati su una parte di

questa realtà, le nostre decisioni saranno sempre soggette ad ERRORE.

Riassumendo procediamo in questo modo per la VERIFICA DELLE IPOTESI:

IPOTESI STATISTICHE

1) Formulazione 49

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

dati sul campione (ottenuto con CAMPIONAMENTO CASUALE)

2) Raccolta ( in base alla TEORIA DELLA PROBABILITA’)

3) Decisione

- sempre soggetta ad errore

- si assume a priori il rischio di errore che accettiamo di assumere nel prenderla

Ipotesi nulla & ipotesi alternativa ( FORMULAZIONE IPOTESI):

Abbiamo due ipotesi (esempio: Ipotizzo che gli studenti di Psicologia hanno un atteggiamento verso

la statistica diverso da quelli delle altre Facoltà. Verificando la mia ipotesi posso constatare che

l’atteggiamento delle due popolazioni è uguale oppure che l’atteggiamento delle due popolazioni è

diverso) che sono mutuamente escludentisi, poiché non possono essere vere entrambe

contemporaneamente ed esaustive in quanto esauriscono le possibilità che caratterizzano il confronto

oggetto della ricerca. ed esprime una relazione di

L’ipotesi che non vi sia differenza è detta IPOTESI NULLA = H

0

uguaglianza (nel nostro esempio, affermeremo che la media della popolazione degli studenti di

Psicologia è uguale a quella della popolazione degli studenti in generale, oppure che la differenza tra

le due medie è uguale a zero).

L’altra ipotesi, detta IPOTESI ALTERNATIVA (rispetto all’ipotesi nulla; detta anche sostantiva,

ed esprime una relazione di disuguaglianza (nel nostro esempio,

sperimentale o di ricerca) = H 1

che la media degli studenti di Psicologia è diversa rispetto a quella degli altri studenti, oppure che la

differenza tra le due medie è diversa da zero).

) e se ne formula una contraria (H ) di cui si valuta la probabilità di

Si vuole verificare un’ipotesi (H 1 0

essere vera; se tale probabilità è bassa sarà vera l’altra ipotesi (che si voleva verificare).

La procedura di verifica delle ipotesi non testa in modo diretto l’ipotesi alternativa, generalmente

oggetto e finalità della ricerca (e per questo indicata talvolta con il termine di ipotesi di ricerca,

dell’ipotesi nulla, per

ipotesi sostanziale o ipotesi sperimentale), ma mira alla falsificazione

giungere in modo indiretto ad avvalorare l’altra. Questa modalità ha un presupposto di natura

filosofica secondo il quale un’ipotesi può essere falsificata ma non verificata. Ricordando che ogni

conclusione che possiamo trarre è sempre di natura probabilistica, se possiamo considerare l’ipotesi

nulla probabilmente falsa, allora potremo ritenere probabilmente vera l’ipotesi alternativa; viceversa,

se non possiamo farlo, concluderemo che l’ipotesi alternativa debba essere respinta.

Test statistico & distribuzione campionaria:

Se dobbiamo compiere un passaggio dal dato campionario al parametro della popolazione, allora la

statistica ci permette di operare questo passaggio attraverso l’applicazione di test statistici che

consentono di riferire il dato campionario a distribuzioni di probabilità note, in modo da poter poi

associare a tale dato un valore di probabilità. Lavorando su statistiche tratte da campioni, le

distribuzioni di riferimento saranno le distribuzioni campionarie di quelle statistiche.

Procedura di verifica dell’ipotesi:

Occorre sottoporre a verifica l’ipotesi nulla che la popolazione alla quale appartiene il campione sia

uguale alla popolazione generale con una determinata media. Dal momento che il dato campionario

mi indica una media diversa da questa, devo stabilire se questa differenza è aleatoria, ovvero dovuta

al fatto che sto lavorando su un campione estratto casualmente dalla popolazione e per caso nel mio

campione sono confluiti soggetti con un atteggiamento verso la statistica mediamente diverso

rispetto alla popolazione generale, oppure è dovuta al fatto che in effetti la popolazione alla quale il

campione appartiene è diversa dalla popolazione complessiva. Per stabilire se la discrepanza tra 50

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

statistica e parametro sia o non sia da ricondurre alle variazioni casuali insite nel campionamento,

facciamo una valutazione in termini probabilistici, in relazione alla distribuzione campionaria di

riferimento, applicando il test statistico adeguato.

si calcola quindi la probabilità associata agli eventi osservati posto

Per prendere la decisione su H 0

sia vera

che H 0 H

- se la probabilità è alta accetto 0 H ed accetto H

- se la probabilità è bassa respingo 0 1

A questo punto dobbiamo definire cosa si intende per probabilità bassa ed alta, ovvero qual è il

criterio usato per stabilire se un’ipotesi ha una probabilità bassa oppure alta di essere vera.

Il livello di significatività α:

Entro la procedura di verifica dell’ipotesi dobbiamo prendere la nostra decisione di tipo probabilistico

sull’ipotesi nulla: tale decisione verrà presa fissando un valore minimo di probabilità, ovvero

definiamo un valore di soglia entro il quale l’ipotesi deve essere mantenuta, oltre il quale dobbiamo

rifiutarla. Per collocare questa soglia il criterio adottato è quello dei risultati improbabili posta vera

l’ipotesi nulla.

Si determina dunque il concetto di bassa probabilità a priori adottando dei criteri convenzionali che ci

dicono ad esempio di respingere l’ipotesi nulla quando la probabilità p che sia vera, in base ai dati

osservati, non supera il 5%, ovvero p ≤ 0,05. Possiamo invece stabilire un criterio ancora più

restrittivo decidendo di respingere l’ipotesi nulla solo quando la probabilità ad essa associata non

supera 1%, ovvero p ≤ 0,01 o ancora soltanto quando non supera lo 0,1%, ovvero p≤ 0,001.

Il valore di probabilità prefissato viene detto LIVELLO DI SIGNIFICATIVITA’ indicato con il

simbolo α (alfa) che esprime in termini probabilistici, il limite oltre il quale respingere l’ipotesi nulla.

Con α delimitiamo dunque una regione della distribuzione campionaria, detta regione di rifiuto

dell’ipotesi nulla, che contiene tutti quei risultati che possono essere considerati improbabili posta

sia vera è maggiore di α, H verrà accettata; viceversa,

vera tale ipotesi. Se la probabilità p che H 0 0

sia vera è uguale o minore di α, H verrà respinta. In sintesi, se p > α

se la probabilità p che H 0 0

; se p ≤ α, dobbiamo rifiutare H .

dobbiamo accettare H 0 0

Generalmente il livello di significatività viene fissato su valori molto bassi, ad esempio α = 0,05, α =

0,01 oppure α = 0,001. Questo perché fissando tale valore, stabiliamo la probabilità dell’errore che

accettiamo di correre nel prendere la nostra decisione. Infatti, anche quando la probabilità associata

all’ipotesi nulla è estremamente bassa, esiste comunque la possibilità che tale ipotesi sia vera.

Esempio: α = 0,05 accettiamo un 5% di possibilità di commettere un errore nel prendere la nostra

decisione.

Nella pratica della ricerca possiamo scegliere il livello di significatività più idoneo in base alla gravità

delle conseguenze di respingere un’ipotesi nulla che viceversa è vera. Nella ricerca in psicologia il

5% è un livello generalmente accettato.

RIASSUNTO DA SCHEMI DI STATISTICA: è alta o bassa ?

Come si stabilisce che la probabilità associata a H

0

si definiscono dei LIMITI:

Ö

- entro i quali accetto H 0

- oltre i quali rifiuto H 0

Il livello di significatività α definisce: 51

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

: regione della distribuzione campionaria

a) REGIONE DI RIFIUTO/ REGIONE CRITICA di H

0 è vera

composta dai risultati possibili che hanno una probabilità molto bassa quando H

0

: regione della distribuzione campionaria composta dai

b) REGIONE DI ACCETTAZIONE di H

0 è vera (1-α).

risultati possibili che hanno una probabilità molto alta quando H 0

Test monodirezionale o bidirezionale:

può essere:

L’ipotesi sperimentale H

1

1) semplice: si fissa un unico valore del parametro

2) composta: si fissano diversi valori possibili del parametro

monodirezionale (una coda): prevede la direzione della differenza

Ö bidirezionale (due code): non prevede direzione

Ö sostiene che c’è una differenza nell’esecuzione di una prova tra maschi e femmine.

Esempio H 1

: µ = 60 è semplice

H 1 < µ è composta monodirezionale

µ

F M

> µ è composta monodirezionale

µ

F M

≠ µ è composta bidirezionale

µ

F M

L’ipotesi alternativa viene formulata in termini di disuguaglianza e contrapposta all’uguaglianza

dal momento che la differenza

espressa nell’ipotesi nulla. Questa ipotesi viene detta bidirezionale,

può andare nelle due direzioni. o a due code, in quanto la

I test statistici utilizzati per la verifica vengono detti bidirezionali

dell’ipotesi nulla, definita da α viene ripartita equamente nelle due code della

regione di rifiuto

distribuzione di riferimento. ovvero

Tuttavia l’ipotesi alternativa può anche essere definita in termini monodirezionali,

l’ipotesi è monodirezionale destra, se

stabilendo la direzione della differenza: se maggiore

l’ipotesi è monodirezionale sinistra. I test statistici utilizzati per la verifica delle ipotesi

minore o a una coda, in quanto la regione di rifiuto dell’ipotesi nulla si

vengono detti monodirezionali

colloca in una delle due code della distribuzione di riferimento.

La scelta della formulazione delle ipotesi dipenderà dagli obiettivi della ricerca. Attualmente esiste un

dibattito relativo alla legittimità dei test monodirezionali. Alcuni sostengono che entro una

distribuzione normale esiste sempre la probabilità seppur minima che il campione abbia una media

con una direzione opposta a quella della popolazione e per questo non ha senso fondare la decisione

su un’unica coda. Tuttavia in ambito psicologico, cosi come in altre discipline, l’utilizzo della verifica

dell’ipotesi è funzionale alla validazione di teorie, ovvero i ricercatori hanno già un’idea su quale sia

la direzione della differenza, per cui si formulano ipotesi monodirezionali. I risultati che vanno

esattamente nella direzione opposta danno indicazioni per modificare l’impostazione generale della

ricerca e della teoria dalla quale sono partiti.

Come formulare l’ipotesi nulla e l’ipotesi alternativa

) postulando l’uguaglianza (=) tra due parametri,

1. Definire l’ipotesi nulla (H

0

quello della popolazione a cui il campione appartiene e quello della popolazione

rispetto alla quale avviene il confronto.

) specificando se si ipotizza che il parametro

2. Definire l’ipotesi alternativa (H 1

della popolazione del campione sia diverso (≠) o maggiore (>) o minore

(<) rispetto al valore della popolazione di riferimento. Se ipotizziamo che sia:

a) diverso, formuleremo un’ipotesi bidirezionale;

b) maggiore, formuleremo un’ipotesi monodirezionale destra;

c) minore, formuleremo un’ipotesi monodirezionale sinistra; 52

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Regola di decisione:

Le regole di decisione sono su base probabilistica e la decisione non è mai certa! La decisione è

sempre soggetta ad errore!

Nella verifica delle ipotesi il ragionamento viene condotto in termini probabilistici per cui le

conclusioni che possiamo trarre sono sempre soggette ad ERRORE.

Infatti accettare l’ipotesi nulla non significa avere provato con certezza che sia vera ma che le

informazioni a disposizione, lette in termini probabilistici, non supportano il suo rifiuto; analogamente

rifiutare l’ipotesi nulla non significa avere la certezza che sia falsa.

Dal momento che l’ipotesi nulla può essere vera o falsa e che può essere accettata o respinta, nel

prendere la nostra decisione sono quattro i casi possibili: due implicano una decisione corretta e

due rappresentano degli errori. Prendiamo una decisione corretta sull’ipotesi nulla se la accettiamo

quando è falsa.

quando è vera oppure se la rifiutiamo

Gli errori che possiamo compiere quando prendiamo una decisione in merito all’ipotesi nulla sono di

due tipi: l’errore di I tipo lo commettiamo se rifiutiamo l’ipotesi nulla (consideriamo vero un

fenomeno falso), quando è vera, l’errore di II tipo lo commettiamo, se accettiamo l’ipotesi

nulla, quando è falsa (consideriamo falso un fenomeno vero). ( vedi matrice p. 143)

La probabilità di commettere un errore di I tipo è data dal livello di significatività α che definisce la

l’ipotesi nulla quando è vera e di conseguenza 1- α è la

probabilità di respingere erroneamente

probabilità di accettarla correttamente. Quindi se α = 0,05 avremo il 5% di probabilità di

commettere tale errore e una probabilità del 95% di prendere una decisione corretta.

La probabilità di commettere un errore di II tipo la indichiamo con ß (beta), che esprime la

l’ipotesi nulla quando è falsa e di conseguenza, 1- ß è la

probabilità di accettare erroneamente

probabilità di respingerla correttamente.

Il valore 1-ß è viene definito POTENZA DEL TEST STATISTICO in quanto esprime in termini

sull’ipotesi alternativa, obiettivo

probabilistici la capacità del test di portare ad una decisione corretta

primario della procedura di verifica nella quale si ricerca la falsificazione dell’ipotesi nulla.

Tra α e ß esiste una relazione di complementarietà nel senso che tanto più restringiamo la regione α

tanto più aumenta ß e viceversa. Ciò significa che possiamo diminuire la probabilità di commettere

un errore di I tipo scegliendo un livello di significatività più basso, ma quando riduciamo α,

accresciamo automaticamente la probabilità ß di commettere un errore di II tipo.

( vedi esempio distribuzione normale p. 144)

Se α diminuisce, aumenta ß => evitare errori del I tipo può portare ad una elevata probabilità di

commettere errori di II tipo !

Esistono altri fattori che insieme al livello di significatività, influenzano la potenza del test.

Intuitivamente possiamo comprendere che se il campione con il quale stiamo lavorando è piccolo e/o

la variabilità osservata è elevata, aumenta la probabilità di commettere un errore nel trarre la nostra

inferenza. Infatti, una volta fissato α, ß e la potenza del test, dipenderanno dalla variabilità della

distribuzione di riferimento. Poiché tale variabilità è espressa dall’errore standard stimato a partire da

deviazione standard e ampiezza del campione, possiamo dedurre l’effetto di questi due fattori

sull’efficacia delle procedure statistiche adottate.

Sia p il valore di probabilità calcolato per l’evento osservato

e rifiuto H

- se p> α, accetto H 0 1

e accetto H

- se p< α, rifiuto H 0 1 53

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

CAPITOLO 11 VERIFICA DELL’IPOTESI CON UNA VARIABILE

Verifica delle ipotesi con una variabile dicotomica: test binomiale

Prendiamo un mazzo di carte, dubitiamo della sua regolarità e dobbiamo prendere una decisione in

proposito estraendo casualmente 10 carte. Queste costituiscono il nostro campione e la variabile in

esame su scala nominale dicotomica è il colore della carta (rossa/nera). Una volta compiuta

l’estrazione osserviamo che 9 carte sono rosse: questo risultato, la proporzione 9 su 10, costituisce il

nostro dato campionario. Con questi requisiti la distribuzione binomiale ci consentirà di associare

una probabilità al dato campionario e di condurre l’inferenza statistica. Il primo passo è la

formulazione delle ipotesi statistiche. Se sospettiamo che il mazzo sia irregolare, nell’ipotesi nulla

affermeremo il contrario, ovvero che vi sia la stessa proporzione di carte rosse e nere e quindi:

: p = 0,50 (la probabilità di estrarre una carta rossa è uguale al 50% ovvero la probabilità di

H 0 estrarre una carta rossa è uguale a quella di estrarre una carta nera).

Se, in relazione alla supposta irregolarità del mazzo, non si ha un’idea specifica su quali carte, tra le

rosse e le nere, siano in proporzione maggiore, l’ipotesi alternativa sarà bidirezionale:

: p ≠ 0,50 (la probabilità di estrarre una carta rossa è diversa dal 50%, ovvero la probabilità di

H 1 estrarre una carta rossa è diversa da quella di estrarre una nera).

Viceversa, se abbiamo un’idea più precisa sull’irregolarità del mazzo, ad esempio sospettiamo che ci

sia una prevalenza di carte rosse, l’ipotesi alternativa sarà monodirezionale:

: p > 0,50 (la probabilità di estrarre una carta rossa è maggiore del 50%, ovvero la probabilità

H 1 di estrarre una carta rossa è maggiore di quella di estrarre una nera).

Un volta formulate le ipotesi statistiche, è necessario fissare il livello di significatività. Scegliamo,

ad esempio, di prendere α = 0,05 e di definire conseguentemente la regione di rifiuto dell’ipotesi

nulla. In questo modo identifichiamo tutti quei risultati che hanno una probabilità p ≤ 0,05 di essere

veri posta vera l’ipotesi nulla e che determineranno il rifiuto di tale ipotesi. Se poniamo l’ipotesi

alternativa monodirezionale, la regione di rifiuto andrà collocata nella coda destra della distribuzione

teorica di riferimento, che è la distribuzione binomiale con p = 0,50 (la probabilità di successo

formulata nell’ipotesi nulla) e n = 10 (l’ampiezza campionaria).

Dopo aver definito le ipotesi statistiche e il livello di significatività, occorre scegliere un test

statistico che consenta di associare una probabilità al dato campionario posta vera l’ipotesi nulla. La

scelta si lega alla natura della variabile oggetto di studio e se, come in questo caso, la variabile è

dicotomica utilizzeremo il test binomiale:

k n-k

C p q

p(k) = n k

In questo modo confronteremo la regione definita da questi due risultati con la regione di rifiuto

definita con α. Quindi: 9 10

+ (0,50) = 0,011

p (almeno 9) = 10 (0,50) (0,50)

La decisione sull’ipotesi nulla si basa sul confronto con α : se α è fissato a 0,05 e il p calcolato è

. La procedura applicata porta a

0,011, siamo nel caso in cui p < α e, dunque, dobbiamo rifiutare H

0

concludere che la proporzione di carte rosse non sia del 50% mentre, per converso, avvalora l’ipotesi

che vi siano più carte rosse.

Se avessimo fissato il livello di significatività a 0,01 il confronto di p con α, avrebbe portato ad

accettare l’ipotesi nulla in quanto p > α (0,011 è maggiore di 0,01). Quindi saremmo arrivati alla

conclusione opposta rispetto alla precedente. Ponendo α = 0,01 infatti, solamente il risultato 10

rosse su 10 ci porta a dire che il mazzo è irregolare.

La scelta di livello di significatività ha un ruolo determinante sulla nostra decisione e si lega alla

natura della ricerca che stiamo svolgendo per cui stabiliamo il livello di significatività in relazione alla

gravità di commettere un errore per trarre le nostre conclusioni. In generale si cerca di ridurre la 54

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

probabilità di un errore di I tipo, ovvero di rifiutare l’ipotesi nulla quando è vera. Tuttavia diminuendo

la probabilità di un errore di I tipo, aumenta di conseguenza la probabilità di commettere un errore di

II tipo, ovvero di accettare l’ipotesi nulla quando è falsa, considerando il mazzo regolare quando non

lo è.

Come condurre la verifica delle ipotesi attraverso il test binomiale

1. Prerequisiti:

a. I casi che definiscono il campione sono stati estratti in modo casuale e

indipendente dalla popolazione di riferimento.

b. La variabile che stiamo considerando è su scala nominale dicotomica.

2. Si formulano le ipotesi statistiche:

) ponendo la probabilità uguale ad un

a. Definire l’ipotesi nulla (H

0

determinato valore in base allo scopo della ricerca.

) specificando se si ipotizza che la

b. Definire l’ipotesi alternativa (H

1

probabilità sia diversa (ipotesi bidirezionale) oppure maggiore vs minore

(ipotesi monodirezionale) rispetto al valore formulato nell’ipotesi nulla.

3. Fissare il livello di significatività.

4. Utilizzare il test statistico binomiale per associare una probabilità al dato

campionario: k n-k

C p q

p(k) = n k

5. Prendere una decisione confrontando il p calcolato con α secondo i seguenti

criteri: se p > α Accetto H

0

se p ≤ α Rifiuto H

0

Verifica delle ipotesi con una variabile metrica: test z della media

Prendiamo la ricerca sull’atteggiamento verso la statistica degli studenti di Psicologia e partiamo

dall’ipotesi che abbiano un diverso atteggiamento rispetto alla popolazione degli studenti universitari.

Conosciamo i parametri della popolazione degli studenti universitari che hanno una media di 35 con

una deviazione standard uguale a 8,4. Attraverso un’estrazione casuale, otteniamo un campione di

40 studenti di Psicologia con una media di 32. Dobbiamo formulare le ipotesi statistiche. La

procedura sottoporrà a verifica l’ipotesi contraria all’ipotesi di partenza: nell’ ipotesi nulla

affermeremo che gli studenti di Psicologia non differiscono dagli altri studenti universitari per quanto

concerne l’atteggiamento verso la statistica. Quindi:

: µ = 35 (la media della popolazione alla quale appartiene il campione è uguale alla media

H 0 psicologia della popolazione degli studenti universitari).

L’ipotesi alternativa può essere bidirezionale:

: µ ≠ 35 (la media della popolazione alla quale appartiene il campione è diversa dalla

H 1 psicologia media della popolazione degli studenti universitari). 55

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Viceversa, possiamo formulare un’ ipotesi monodirezionale sinistra:

: µ < 35 (la media della popolazione alla quale appartiene il campione è minore della

H 1 psicologia media della popolazione degli studenti universitari).

Fissiamo il livello di significatività α = 0,05, ovvero stabiliamo di respingere l’ipotesi nulla se la

probabilità che il campione estratto appartenga ad una popolazione con µ = 35 è del 5% o inferiore.

Questo porta, di conseguenza, a delineare la regione di rifiuto dell’ipotesi nulla, ovvero l’area della

distribuzione di riferimento che comprende tutti quei risultati che hanno una probabilità p ≤ 0,05 di

essere veri posta vera l’ipotesi nulla, mentre si definisce regione di accettazione l’area

complementare.

Dal momento che il campione sul quale abbiamo calcolato la media ha un’ampiezza maggiore di 30,

ci riferiamo alla distribuzione campionaria della media sapendo che tale distribuzione si

approssima alla normale per il teorema del limite centrale (ricorriamo al teorema del limite centrale

perché non conosciamo esattamente quale sia la distribuzione della variabile nella popolazione).

Se la nostra ipotesi è bidirezionale:

la verifica dovrà essere condotta riferendosi ad entrambe le code della distribuzione, ovvero i risultati

che portano al rifiuto dell’ipotesi nulla sono collocati nelle due aree estreme della distribuzione

ottenute ripartendo equamente la probabilità del 5% fissata con α (nella coda sinistra un’area del

2,5% e nella coda destra un’area del 2,5%). Tutti i valori che ricadono in queste due regioni

determineranno il rifiuto dell’ipotesi nulla. Utilizzando la Tavola 1b della distribuzione normale

possiamo risalire al valore critico di z, o z critico, che delimita ciascuna porzione di area. Per α =

= ± 1,96 indicando i due valori,

0,05 il valore critico è 1,96; riporteremo questo valore come z critico

uno di segno negativo sotto la media, uno di segno positivo sopra la media, che delimitano la regione

di rifiuto.

Se la nostra ipotesi è monodirezionale:

la regione di rifiuto si colloca in un’unica coda, della distribuzione: se monodirezionale sinistra,

delimiteremo una porzione di area uguale ad α nella regione sinistra della distribuzione; se

monodirezionale destra, delimiteremo una porzione di area uguale ad α nella regione destra della

distribuzione. Utilizzando la Tavola 1b della distribuzione normale possiamo ricavare che per α =

0,05 il valore critico è 1,65. A tale valore verrà posto il segno negativo se ci troviamo nella coda

= - 1,65, segno positivo se ci troviamo nella coda destra, ovvero z = +

sinistra, ovvero z critico critico

1,65. 56

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Come definire la regione di rifiuto dell’ipotesi nulla

) è bidirezionale, dobbiamo distribuire

1. Se l’ipotesi alternativa (H 1 ) nelle due code:

equamente la regione di rifiuto dell’ipotesi nulla (H 0

a. il livello di significatività deve essere diviso a metà, ottenendo un

valore di probabilità uguale ad α/2.

b. per trovare i valori critici dobbiamo cercare sulla Tavola 1b della

distribuzione normale il valore corrispondente all’area definita da α/2;

= ± (valore).

c. il valore identificato sarà riportato come segue: z

critico

) è monodirezionale dobbiamo collocare la

2. Se l’ipotesi alternativa (H

1 ) in una coda della distribuzione:

regione di rifiuto dell’ipotesi nulla (H 0

a. il livello di significatività definisce l’area della coda che delimita la

regione di rifiuto dell’ipotesi nulla;

b. per trovare il valore critico dobbiamo cercare sulla Tavola 1b della

distribuzione normale il valore corrispondente all’area definita da α;

c. nel caso in cui l’ipotesi sia monodirezionale sinistra, il valore identificato

= - (valore);

sarà riportato come segue: z critico

d. nel caso in cui l’ipotesi sia monodirezionale destra, il valore identificato

= + (valore);

sarà riportato come segue: z

critico

Dopo aver definito le ipotesi statistiche e il livello di significatività con i relativi valori critici, occorre

scegliere un test statistico per associare una probabilità al dato campionario. Dobbiamo

trasformare il dato campionario in un valore z da confrontare con lo z critico applicando il test z. La

formula è la seguente:

= M – µ

z M σ

√n

riprendendo i dati del nostro esempio, otteniamo:

= 32 – 35 = - 2,26

z M 8,4

√40

La decisione sull’ipotesi nulla viene presa confrontando z calcolato con z critico; per tale confronto,

considerando i due z in valore assoluto (per la particolare forma della distribuzione normale, tanto

più i valori sono elevati, indipendentemente dal segno, tanto più si allontanano dalla media e quindi

ricadono nelle code della distribuzione. Per questo motivo, qualsiasi sia il tipo di ipotesi alternativa

quando operiamo il confronto non teniamo conto del segno, ma prendiamo z in valore assoluto)

valgono le seguenti relazioni:

allora p > α : accettare H

se │,

│z│< │z

critico 0

allora p ≤ α : rifiutare H

se │,

│z│≥ │z

critico 0

Nel nostro esempio lo z calcolato -2,26 (in valore assoluto) è maggiore dello z critico -1,96 (in

valore assoluto) quindi la probabilità associata al nostro risultato è minore di α. Questo ci porta a

l’ipotesi nulla perché la probabilità che il campione appartenga ad una popolazione con

rifiutare

media uguale a 35 è minore del 5%. Ricercando sulla Tavola 1b la porzione di area nella coda 57

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

sinistra della distribuzione delimitata dal valore z= -2,26 ricaviamo p = 0,0119. Quindi, abbiamo

respinto l’ipotesi nulla in quanto p è minore di α/2, ovvero 0,0119 < 0,0250.

Nel caso di un test a due code, possiamo risalire ai due valori medi che delimitano la regione di

rifiuto come segue:

= 35+ [ -1,96 ( 8,4 )] = 32,4 M = 35+ [ 1,96 ( 8,4 )] = 37,6

M inf sup

√40 √40

Questo vuol dire che per α = 0,05, un campione con n = 40 può essere considerato appartenente

ad una popolazione con media uguale a 35 se la sua media è compresa tra 32,4 e 37,6 (il nostro

campione ha media 32 quindi si deve rifiutare l’ipotesi nulla).

Se l’ipotesi è monodirezionale, per α = 0,05 confrontiamo lo z calcolato (-2,26) con lo zeta critico

(-1,65) ed osserviamo che anche in questo caso lo z calcolato è maggiore dello z critico, pertanto

anche in questo caso dobbiamo respingere l’ipotesi nulla.

Essendo il valore critico per l’ipotesi bidirezionale sempre maggiore in valore assoluto rispetto

all’ipotesi monodirezionale è logico che se nel primo caso dobbiamo rifiutare l’ipotesi nulla,

giungeremo alla stessa conclusione anche nel secondo caso.

Nel caso di un test ad una coda, possiamo risalire al valore medio che delimita la regione di rifiuto

come segue: )] = 32,8

M = 35+ [ -1,65 ( 8,4

√40

Questo vuol dire che, per α = 0,05 un campione con n = 40 può essere considerato appartenente ad

una popolazione con media uguale a 35 se ha una media superiore a 32,8. Il nostro campione ha

media 32, quindi devo rifiutare l’ipotesi nulla.

Se avessimo posto α = 0,01 allora avremmo accettato l’ipotesi nulla (vedere esempio pag. 156).

Finora abbiamo illustrato la verifica dell’ipotesi sulla media nel caso in cui si conoscano i parametri µ

e σ della popolazione; se viceversa, σ non è noto, applichiamo la stessa procedura ma dobbiamo

stimare l’errore standard della distribuzione campionaria. Quindi, applicheremo il test z, utilizzando

la seguente formula con deviazione standard s del campione:

= M – µ

z M s

√n-1

Considerando il nostro esempio, sappiamo che il campione ha una deviazione standard uguale a 8,5.

Sostituendo i valori nella formula otteniamo:

= 32 – 35 = - 2,20

z M 8,5

√40-1

Procederemo confrontando lo z calcolato con z critico per prendere la decisione sull’ipotesi nulla, così

come illustrato in precedenza. 58

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Come condurre la verifica delle ipotesi attraverso il test z della media

1. Prerequisiti:

a.I casi che definiscono il campione sono stati estratti in modo casuale e

indipendente dalla popolazione di riferimento.

b. La variabile che stiamo considerando è su scala metrica.

c. La popolazione ha una distribuzione normale o il campione ha un n ≥ 30.

2. Formulare le ipotesi statistiche:

) in termini di uguaglianza tra parametro della

a. definire l’ipotesi nulla (H

0

popolazione a cui il campione appartiene e parametro della popolazione

rispetto alla quale avviene il confronto;

) formulando un’ipotesi:

b. definire l’ipotesi alternativa (H

1

- bidirezionale se si ipotizza che il parametro della popolazione del

campione sia diverso da quello della popolazione di confronto;

- monodirezionale se si ipotizza che sia maggiore (monodirezionale

destra) o minore (monodirezionale sinistra).

3. Fissare il livello di significatività α .

4. Identificare sulla Tavola 1b i valori critici di z in relazione al tipo di ipotesi

alternativa e ad α.

5. Applicare il test statistico z:

a. se conosciamo entrambi i parametri della popolazione:

= M – µ

z M σ

√n

dove:

µ= media della popolazione

σ= deviazione standard della popolazione

M = media del campione

n= ampiezza del campione

b. se non conosciamo il parametro σ:

= M – µ

z M s

√n-1

dove:

vedi sopra

s = deviazione standard del campione

6. Prendere una decisione in base ai seguenti criteri:

allora p > α : accettare H

│,

│z│< │z

critico 0

allora p ≤ α : rifiutare H

│,

│z│≥ │z

critico 0 59

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Verifica delle ipotesi con una variabile metrica: test t di Student sulla media:

Se non conosciamo la distribuzione della popolazione dalla quale il campione proviene e se il

campione, sul quale abbiamo calcolato le statistiche necessarie a condurre la verifica delle ipotesi,

ad una distribuzione campionaria

non ha un’ampiezza maggiore di 30, dovremo fare riferimento

della media che non è normale ma che ha le caratteristiche della distribuzione t di Student

(pseudonimo dello statistico William Gosset che la definì e sviluppò il test t per la media).

La distribuzione t di Student possiede le stesse caratteristiche della distribuzione normale:

- infinita= va da - ∞ a + ∞

- simmetriche rispetto alla media (µ) in quanto la funzione assume lo stesso valore per i valori di

x che si collocano ad una stessa distanza al di sotto o al di sopra della media.

- unimodale= la media coincide con la moda e la mediana (la funzione assume il suo punto

massimo in corrispondenza della media che risulta essere il valore più probabile e con la

frequenza più alta).

- asintotica = le code tendono all’infinito senza intersecare l’asse delle ascisse.

ma ha una forma più schiacciata che esprime una variabilità maggiore rispetto alla media. In una

distribuzione campionaria della media t di Student, la variabilità e lo schiacciamento della curva

dipendono dall’ampiezza campionaria, ovvero tanto più i campioni sono piccoli, tanto maggiore sarà

la variabilità e tanto più la curva risulterà schiacciata. Questo fa si che i valori critici di t utilizzati

nella verifica dell’ipotesi condotta applicando il test t dipendono dal campione. A parità di α, il valore

critico di t varia in modo inverso rispetto all’ampiezza campionaria: tanto è minore l’ampiezza

campionaria, tanto più aumenta il valore critico.

Esempio:

considerando un’ipotesi alternativa monodirezionale ed un livello di significatività α = 0,05: per n =

4, il valore di t critico è = 2,35, per n= 10 è 1,83, per n =30 è 1,70.

All’aumentare di n la distribuzione t si approssima alla normale: ad esempio, il valore critico t per α =

0,05 con n = 30 si avvicina a 1,65, lo z critico relativo alla distribuzione normale.

Per identificare i valori critici di t occorre utilizzare un’apposita tavola (Tavola 2) che riporta i valori

critici in relazione ad ipotesi bidirezionali vs monodirezionali, ad alcuni valori di α (ovvero, per 0,05,

0,01, 0,001) e ai gradi di libertà derivati dal numero di casi del campione. Se abbiamo

I gradi di libertà esprimono il numero di valori liberi di variare poste certe restrizioni.

un campione composto da n casi, i gradi di libertà (che indichiamo con l’acronimo gdl) saranno

sempre un valore in meno rispetto al n, ovvero:

gdl = n – 1

Esempio:

se sappiamo che la somma di una serie di 4 punteggi, ottenuti da 4 soggetti è 60, possiamo stabilire

i valori di tali punteggi in base al vincolo dato dalla somma. Infatti una volta scelti tre valori,

automaticamente otteniamo il quarto punteggio. Se i tre valori sono uguali a 15 ciascuno,

automaticamente anche il quarto dovrà essere quindici, se vogliamo rispettare il vincolo che la

somma sia 60. Pertanto se i gradi libertà sono quei valori liberi di variare poste certe restrizioni, in

questo caso n = 4, i valori liberi di variare saranno 3, poiché una volta fissati questi tre, il quarto è

automaticamente definito.

All’aumentare di gdl (o v = gradi di libertà) la distribuzione tende alla normale. 60

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Test statistico t:

Nella verifica delle ipotesi, dobbiamo procedere come illustrato nel caso della normale ma

utilizzeremo la tavola della distribuzione t (Tavola 2) per identificare i valori critici, ovvero quei valori

che delimitano la regione di rifiuto dell’ipotesi nulla. Infatti, essendo questa curva più schiacciata

rispetto alla normale, se, ad esempio, il 5% di una coda in una distribuzione normale è delimitato dal

valore critico 1,65, in riferimento al una distribuzione t di Student con 10 gradi di libertà, questo

stesso valore delimita il 6,5%. Quindi, la regione di rifiuto dell’ipotesi nulla per α = 0,05 in relazione

alla distribuzione t, è delimitata dal valore critico 1,81.

Una volta formulate le ipotesi statistiche, e quindi stabilito il tipo di ipotesi alternativa, e fissato il

livello di significatività, ricercheremo sulla tavola il valore critico t in relazione al tipo di ipotesi

alternativa, ad α e ai gradi di libertà ottenuti sottraendo 1 da n. Ad esempio, se n= 20 (quindi gdl=

bidirezionale e α = 0,01 : t = 2,86.

19) H

1 critico

Il test t prevede la stessa formula del test z, quindi se conosciamo σ:

= M – µ

t M σ

√n

Se non conosciamo σ :

= M – µ

t M s

√n-1

Prenderemo una decisione sull’ipotesi nulla confrontando t calcolato con t critico; i due t vanno

considerati in valore assoluto:

allora p > α : accettare H

se │,

│t│< │t critico 0

allora p ≤ α : rifiutare H

se │,

│t│≥ │t critico 0

Riprendiamo l’ esempio sopra citato relativo all’atteggiamento verso la statistica ma con un campione

n = 15. Fissiamo il livello di significatività α = 0,05 e identifichiamo sulla Tavola 2 i valori critici di t,

=

in relazione ai gradi di libertà che saranno 15-1 = 14 e all’ipotesi alternativa se bidirezionale t critico

= - 1,76. Si applica il test t per associare una probabilità alla

± 2,14 , se monodirezionale t critico

media campionaria:

= 32 –35 = - 1,38

t M 8,4

√15

Se l’ipotesi è bidirezionale:

1,38│ < 2,14│ allora p > α : accettare H

│- │- 0

Se l’ipotesi è monodirezionale:

1,38│ < 1,76│ allora p > α : accettare H

│- │- 0

Rispetto al test z, possiamo osservare che diminuendo l’ampiezza del campione cambia la decisione

sull’ipotesi nulla. Decidiamo, infatti, che gli studenti di Psicologia hanno un atteggiamento uguale al

resto degli studenti universitari se il nostro campione con media uguale a 32 è composto da 15 casi;

viceversa con un campione di 40 casi la stessa media ha portato a concludere che l’atteggiamento

era diverso e, nello specifico, più negativo. Questo accade perché se i campioni sono piccoli ci 61

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

attendiamo una maggiore dispersione attorno alla media, quindi esiste una probabilità maggiore del

5% che un campione con media 32 appartenga ad una popolazione con media uguale a 35. Viceversa

nella distribuzione normale la variabilità è minore per cui un campione con media 32 ha una

probabilità inferiore al 5% di appartenere a tale popolazione.

Per α = 0,05 un campione n = 40 appartiene ad una popolazione con media uguale a 35 se la sua

media è compresa tra 32,4 e 37,6. Se il campione è n= 15, dobbiamo fare riferimento alla

distribuzione t :

= 35+ [ -2,14 ( 8,4 )] = 30,4 M = 35+ [ 2,14 ( 8,4 )] = 39,6

M inf sup

√15 √15

Questo vuol dire che un campione composto da 15 casi lo possiamo considerare appartenente ad una

popolazione con media uguale a 35 se la sua media è compresa tra 30,4 e 39,6, ovvero entro un

intervallo molto più ampio rispetto al caso in cui la stessa media appartenga ad un campione

costituito da 40 casi.

Dobbiamo infine considerare il caso in cui non si conosca la deviazione standard della popolazione e

si debba utilizzare quella del campione. Sempre rifacendoci ai dati dell’esempio precedente (dove s =

8,5) applichiamo il test t:

= 32 –35 = - 1,32

t M 8,5

√15-1

Anche in questo caso dobbiamo accettare l’ipotesi nulla poiché la probabilità che il campione con

media 32 e deviazione standard 8,5 appartenga ad una popolazione con media uguale a 35 è

maggiore del 5% fissato con α, sia per un’ipotesi monodirezionale che bidirezionale.

In teoria, ogni volta che la deviazione standard della popolazione non è nota dovremmo riferirci alla

distribuzione t di Student. Nella pratica, se n è sufficientemente grande è possibile riferirsi alla

distribuzione normale standardizzata poiché il crescere di n e, dunque, dei gradi di libertà, la

distribuzione t si avvicina sempre più alla distribuzione normale. Questo significa che il test t deve

essere necessariamente utilizzato quando abbiamo dei campioni piccoli, mentre, se il parametro σ

non è noto, possiamo scegliere di utilizzare sempre la distribuzione t, oppure calcolare z se n > 30 e

t se n < 30. 62

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Come condurre la verifica delle ipotesi attraverso il test statistico t della media

1. Prerequisiti:

a.I casi che definiscono il campione sono stati estratti in modo casuale e

indipendente dalla popolazione di riferimento.

b. La variabile che stiamo considerando è su scala metrica.

c. Il campione ha un n < 30 e/o la popolazione ha una deviazione standard

non nota.

2. Vedi Box precedente.

3. Vedi Box precedente.

4. Identificare sulla Tavola 2 i valori critici di t in relazione a:

a. tipo di ipotesi alternativa

b. livello di significatività α

c. gradi di libertà calcolati in base all’ampiezza campionaria n:

gdl = n – 1

5. Applicare il test statistico t:

a. Se conosciamo entrambi i parametri della popolazione:

= M – µ

t M σ

√n

Dove:

µ = media della popolazione

σ = deviazione standard della popolazione

M = media del campione

n = ampiezza del campione

b. Se non conosciamo il parametro σ:

= M – µ

t M s

√n-1

Dove:

s = deviazione standard del campione

6. Prendere una decisione in base alle seguenti relazioni:

allora p > α : accettare H

│,

│t│< │t

critico 0

allora p ≤ α : rifiutare H

│,

│t│≥ │t

critico 0

Verifica dell’ipotesi e stima intervallare della media di una popolazione:

Possiamo trarre un’informazione diversa sul parametro in esame ricavando dai dati campionari una

stima intervallare, ovvero delimitando un intervallo di fiducia per la media. In questo modo, sempre

affidandosi alle distribuzioni campionarie possiamo definire una gamma di valori entro i quali ricade il

parametro che vogliamo conoscere. 63

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it

Se l’ampiezza del campione è maggiore di 30:

possiamo stabilire un intervallo di fiducia in relazione alla distribuzione campionaria della media

normale; quindi, utilizzeremo la seguente formula:

< µ < M + z ( s )

M – z ( s )

√n-1 √n-1

Scegliendo un livello di fiducia del 95%, z è uguale a ± 1,96 e sostituendo i dati campionari

dell’esempio sul test z, avremo:

< µ < 32 + 1,96 ( 8,5 )

32 – 1,96 ( 8,5 )

√40-1 √40-1

Quindi, la media dell’atteggiamento verso la statistica degli studenti di Psicologia, con un livello di

fiducia del 95%, ricadrà nel seguente intervallo: 29,33 < µ < 34,67. Se con la verifica delle ipotesi

eravamo giunti alla conclusione che la media non era 35, con la stima intervallare sappiamo che il

suo valore si colloca tra questi due estremi.

[Il valore z utilizzato è lo stesso che definisce la regione critica quando α = 0,05 e l’ipotesi

bidirezionale. Infatti, se delimitiamo la porzione di area attorno alla media che racchiude il 95%

della distribuzione lasciamo fuori la porzione del 5% equidistribuita nelle due code].

Se l’ampiezza del campione è minore di 30:

sappiamo che la distribuzione campionaria della differenza tra due medie ha le caratteristiche della t

di Student per cui possiamo stabilire l’intervallo di fiducia per la media sostituendo ai valori critici di z

quelli di t. Avremo dunque:

< µ < M + t ( s )

M – t ( s )

√n-1 √n-1

Come per la normale, se ho un intervallo di fiducia del 95% devo ricercare sulla Tavola 2 il valore t

corrispondente ad un’ipotesi bidirezionale con α = 0,05 se l’intervallo ricercato è del 95%, con α =

0,01 se l’intervallo è del 99%.

Quindi, riprendendo i dati dell’esempio sul test t, abbiamo gdl = 14 e, dunque, t = ± 2,14.

Sostituendo i dati della formula:

< µ < 32 + 2,14 ( 8,5 )

32 – 2,14 ( 8,5 )

√15-1 √15-1

Pertanto con una probabilità del 95%, ci aspettiamo che il parametro ricada nel seguente intervallo

27,1 < µ < 36,9.

Confrontando i due intervalli trovati rispetto alla media campionaria 32, possiamo notare che se

l’ampiezza campionaria è 40 abbiamo un intervallo più ristretto, e dunque più informativo, rispetto al

caso in cui l’ampiezza campionaria sia 15.

In sintesi: se lo scopo della statistica inferenziale è quello di trarre informazioni sui parametri della

popolazione, nel caso della verifica delle ipotesi decidiamo se il parametro sia o meno uguale ad un

valore ipotizzato basandoci sul dato campionario. Calcolando un intervallo di fiducia partiamo dalla

media campionaria per identificare un intervallo di valori entro il quale, molto probabilmente, ricade

tale parametro. 64

OPsonline.it: la Web Community italiana per studenti, laureandi e laureati in Psicologia

Appunti d’esame, statino on line, forum di discussione, chat, simulazione d’esame, valutaprof, minisiti web di facoltà, servizi di

orientamento e tutoring e molto altro ancora…

http://www.opsonline.it


ACQUISTATO

3 volte

PAGINE

96

PESO

739.82 KB

PUBBLICATO

+1 anno fa


DETTAGLI
Esame: Psicometria
Corso di laurea: Corso di laurea in scienze della formazione primaria
SSD:
A.A.: 2013-2014

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher BalboFonseca di informazioni apprese con la frequenza delle lezioni di Psicometria e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Suor Orsola Benincasa - Unisob o del prof Coluccia Emanuele.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea in scienze della formazione primaria

Riassunto esame Storia Moderna, prof. Fiorelli, libro consigliato Le Vie della Modernità, Musi
Appunto
Storia moderna - Riassunto esame
Dispensa
Storia moderna - Riassunto esame
Dispensa
Storia moderna - Riassunto esame
Dispensa