Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
LIVELLO DI SIGNIFICATIVITÀ
Come si stabilisce che la probabilità associata a H è alta o bassa? Si definiscono dei limiti
0
probabilistici, ovvero un’area, in cui si può accettare o rifiutare H 0
- entro certi livelli di probabilità accetto H 0
- oltre certi livelli di probabilità rifiuto H 0
Il livello di significatività = α
- definisce la regione di rifiuto di H 0
o α è una probabilità
o regione della distribuzione campionaria composta dai risultati che hanno una
probabilità molto bassa di essere osservati quando H è vera
0
- definisce la regione di accettazione di H 0
o regione della distribuzione campionaria composta dai risultati che hanno una
probabilità molto alta di essere osservati quando H è vera, data da 1 – α, ovvero 1
0
meno la probabilità di accettazione che abbiamo fissato di H 0
DECISIONE SU H : REGIONI DI ACCETTAZIONE/RIFIUTO PER IPOTESI MONODIREZIONALE
0
- l’area sotto la curva rappresenta una probabilità
- l’asse della ascisse rappresenta una statistica (z o f)
DECISIONE SU H : REGIONI DI ACCETTAZIONE/RIFIUTO PER IPOTESI BIDIREZIONALI
0
- l’area sotto la curva rappresenta una probabilità
- l’asse della ascisse rappresenta una statistica (z o f)
Livello di significatività. Sia p il valore di probabilità calcolato per l’evento osservato
- se p > α: accetto H e rifiuto H
0 1
- se p < α: rifiuto H e accetto H
0 1
REGOLE DI DECISIONE
Regole di decisione su base probabilistica la decisione non è mai certa la decisione è sempre
soggetta a errore il rischio di errore che ci sentiamo di correre è rappresentato da α
REGOLE DI DECISIONE: ERRORI DI I E II TIPO
Stabilire il livello di α significa stabilire il rischio che siamo disposti a correre di commettere
l’errore di respingere H quando è vera, ovvero dire che c’è una differenza quando in realtà non
0
c’è errore di I tipo. Si tende a stabilire un valore di α basso perché
- è preferibile non affermare l’esistenza di un fenomeno se non si è probabilisticamente
“sicuri” della sua presenza
- “andare appresso” a risultati apparentemente significativi (che dipendono da un eccesivo
errore di campionamento) è scientificamente una perdita di tempo
α = .05 rischio di sbagliare rifiutando H0 quando essa è vera = 5 volta su 100
α = .01 rischio di sbagliare rifiutando H0 quando essa è vera = 1 volta su 100
α = .001 rischio di sbagliare rifiutando H0 quando essa è vera = 1 volta su 1000
ERRORE DI I TIPO
Se H è vera
0
- si può decidere di accettare H = decisione corretta
0
- si può decidere di rifiutare H = decisione scorretta (errore di I tipo)
0 respingo H quando è vera
0
accetto H quando è falsa
1
Commettendo l’errore di I tipo si considera presente (ovvero come vero) un effetto assente (che
dunque è falso) nella popolazione. La probabilità di questo errore è α
- α = probabilità di evidenziare un fenomeno che in realtà non esiste
- α = probabilità di rintracciare un effetto presente solo in un campione (per errore di
campionamento), ma assente nella popolazione di riferimento
ERRORE DI II TIPO
Se H è falsa
0
- si può decidere di rifiutare H = decisione corretta
0
- si può decidere di accettare H = decisione scorretta (errore di II tipo)
0 accetto H quando è falsa
0
rifiuto H quando è vera
1
Commettendo l’errore di II tipo si considera assente (ovvero come falso) un effetto presente (che
è dunque vero) nella popolazione di riferimento. La probabilità di questo errore è β
- β = probabilità di non evidenziare un fenomeno che in realtà esiste
- β = probabilità di non rintracciare un effetto assente solo nel campione osservato, ma in
realtà presente nella popolazione di riferimento
Purtroppo il valore di β, a differenza di quello di α, non può essere determinato.
RELAZIONE TRA α E β
Se si confrontano i valori di due campioni (trattamento e noto) si avranno due distribuzioni
se non c’è differenza nella performance nel ricevere o meno il trattamento, le due
distribuzioni si andranno a sovrapporr
se le due distribuzioni non si sovrappongono si ha la situazione numero 1 (foto 1): la
distanza dei due picchi è un indicatore poichè quanto più sono distanti più c’è
differenza. Si ha area di 1-α, ovvero l’area dell’ipotesi significativa, e l’area dell’ipotesi
alternativa data da 1-β che è il parametro al di là del quale si ha l’altra distribuzione
(1-β è l’area di accettazione di H , ovvero quella parte che si distanzia dalla
1
distribuzione di riferimento). In questo caso si hanno dei livelli di sovrapposizione che
possono far incorrere negli errori: area bassa di sovrapposizione (incrocio) tra le linee
rosse e blu delle due distribuzioni quanto più la distanza di queste due linee è
maggiore, quanto più si è certi di non incorrere nel rischio di errore, ma essendoci
l’area di sovrapposizione è possibile incorrere negli errori di I e II tipo
Nel primo caso, al di là di α non c’è differenza tra i due campioni; nel secondo caso oltre α si dice
che c’è una differenza diversa da 0, ovvero che c’è differenza e che dunque i due campioni hanno
distribuzioni diverse, quindi il trattamento funziona perché i valori sono nettamente diversi.
REGOLE DI DECISIONE
Ipotesi H è vera H è falsa
0 0
Decisione
Accetto H Decisione corretta (1-α) Decisione errata: errore di II tipo (β)
0
Rifiuto H Decisone errata: errore di I tipo (α) Decisione corretta (1-β)
0
POTENZA DEL TEST
La potenza del test è la probabilità che respinge H quando è vera H 1- β.
0 1
La potenza del test è
- la capacità del test di condurre alla decisione corretta
- determinata fondamentalmente dalla grandezza del campione
- determinata dalla grandezza dell’effetto
- in parte influenzata dal tipo di analisi statistica effettuata
L’applicabilità delle tecniche di analisi dipende a sua volta da
- livello di misura
- grandezza campione
- distribuzione 2
DISTRIBUZIONE X (chi quadro)
È una distribuzione che riguarda dati categoriali e riguarda ipotesi in cui confrontiamo delle
osservazioni in base a delle variabili categoriali (es. confrontare se le persone cattoliche vs. non
cattoliche per vedere chi è più propenso alla pena di morte; per vedere se c’è una relazione tra
essere d’accordo e l’essere o meno cattolici, significa porsi la domanda relativa al fatto che quel
comportamento è un comportamento equi-distribuito tra i due gruppi o se invece ha una
relazione solo con uno dei due gruppi)
Data una distribuzione normale standardizzata (media = 0; deviazione = 1) i punti z rappresentati
sull’asse delle ascisse possono assumere sia valori negativi che positivi. Si definisce come X2 la
sommatoria della distanza della media sulla varianza, ovvero la sommatoria dei punti z.
2 21 22 2
X = z +z se andiamo a estrarre a caso punti z (abbiamo quindi tutti i valori positivi) per
2
costruire campioni con n = 2 ottengo una distribuzione (campionaria) teorica X con v = 2 (due
2
gradi di libertà, gdl = 2); estraendo a caso punti z per costruire campioni con n = 4 ottengo una
2 2 21 22 23 24
distribuzione (campionaria) teorica X con v = 4 (gdl= 4) [X = z + z + z + z ] estraendo
2
campioni di z maggiori si ottiene una distribuzione teorica con gdl e numerosità maggiore. Si
ottiene una famiglia di distribuzioni che variano al variare del parametro v = n (numero degli
2 21 22 2n 2 2
elementi del campione). In generale X = z + z + … + z X = ∑z
2
La distribuzione X
- è asimmetrica e non è basata su dati metrici
∞
- è una funzione continua che va da 0 a (entro il quadrate positivo degli assi cartesiani)
- la forma dipende da v (al crescere dei gradi di libertà tende alla simmetria)
2
- si usa la curva per calcolare la probabilità associata ai valori di X (porzioni di area),
sapendo che il valore sotteso sotto l’area è pari a 1:
GRADI DI LIBERTÀ
I gradi di libertà sono dati dal numero di valori liberi di variare entro un’equazione n + n + n =
1 2 3
N con k = 3 (n° addendi)
se N non è fisso, tutti gli addendi sono liberi di variare: v = k
se N è fisso, tutti gli addendi sono liberi di variare meno uno: v = k – 1
2
La distribuzione X si utilizza perché facciamo riferimento a delle osservazioni legate alla ricerca
che si devono confrontare con la distribuzione teorica. Si andrà quindi a ragionare su un confronto
2 2
tra le frequenze osservate, da cui si calcola il valore di X che andrà poi confrontato con X critico
2
della distribuzione teorica che si ricava dalla distribuzione X . Pearson dimostra che considerando
una distribuzione di frequenza con f (frequenze osservate), f (frequenze teoriche) e k (n° di
0 t
categorie della distribuzione): = la sommatoria della differenza tra le frequenze
osservate e le frequenze teoriche al quadrato sulle
2
frequenze teoriche (da cui si ottiene il valore di X da
confrontare con il valore della distribuzione) è
assimilabile alla sommatoria dei punti z al quadrato
Mettiamo caso che si fa una tabella 2x2 su 100 soggetti, cattolico-non cattolico, d’accordo-non
d’accordo: se non c’è relazione tra l’essere o meno cattolico e l’essere o meno d’accordo sulla
pena di morte, vuol dire che le frequenze che ci si deve aspettare sono 25-25-25-25 (25 per ogni
quadrante della tabella), quindi vuol dire che c’è una distribuzione di equi probabilità dettata solo
dal caso si osserva quindi se le frequenze osservate sono differenti da quelle teoriche
D’accordo Non d’accordo
Cattolico 25 25
Non cattolico 25 25
Ogni volta si debba confrontare una distribuzione teorica e una osservata si può fare riferimento
2
alla distribuzione teorica della probabilità del X . Disponendo di una distribuzione di frequenza è
2 2
possibile usare il X per la verifica delle ipot