Anteprima
Vedrai una selezione di 10 pagine su 83
Statistica sociale Pag. 1 Statistica sociale Pag. 2
Anteprima di 10 pagg. su 83.
Scarica il documento per vederlo tutto.
Statistica sociale Pag. 6
Anteprima di 10 pagg. su 83.
Scarica il documento per vederlo tutto.
Statistica sociale Pag. 11
Anteprima di 10 pagg. su 83.
Scarica il documento per vederlo tutto.
Statistica sociale Pag. 16
Anteprima di 10 pagg. su 83.
Scarica il documento per vederlo tutto.
Statistica sociale Pag. 21
Anteprima di 10 pagg. su 83.
Scarica il documento per vederlo tutto.
Statistica sociale Pag. 26
Anteprima di 10 pagg. su 83.
Scarica il documento per vederlo tutto.
Statistica sociale Pag. 31
Anteprima di 10 pagg. su 83.
Scarica il documento per vederlo tutto.
Statistica sociale Pag. 36
Anteprima di 10 pagg. su 83.
Scarica il documento per vederlo tutto.
Statistica sociale Pag. 41
1 su 83
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

LIVELLO DI SIGNIFICATIVITÀ

Come si stabilisce che la probabilità associata a H è alta o bassa? Si definiscono dei limiti

0

probabilistici, ovvero un’area, in cui si può accettare o rifiutare H 0

- entro certi livelli di probabilità accetto H 0

- oltre certi livelli di probabilità rifiuto H 0

Il livello di significatività = α

- definisce la regione di rifiuto di H 0

o α è una probabilità

o regione della distribuzione campionaria composta dai risultati che hanno una

probabilità molto bassa di essere osservati quando H è vera

0

- definisce la regione di accettazione di H 0

o regione della distribuzione campionaria composta dai risultati che hanno una

probabilità molto alta di essere osservati quando H è vera, data da 1 – α, ovvero 1

0

meno la probabilità di accettazione che abbiamo fissato di H 0

DECISIONE SU H : REGIONI DI ACCETTAZIONE/RIFIUTO PER IPOTESI MONODIREZIONALE

0

- l’area sotto la curva rappresenta una probabilità

- l’asse della ascisse rappresenta una statistica (z o f)

DECISIONE SU H : REGIONI DI ACCETTAZIONE/RIFIUTO PER IPOTESI BIDIREZIONALI

0

- l’area sotto la curva rappresenta una probabilità

- l’asse della ascisse rappresenta una statistica (z o f)

Livello di significatività. Sia p il valore di probabilità calcolato per l’evento osservato

- se p > α: accetto H e rifiuto H

0 1

- se p < α: rifiuto H e accetto H

0 1

REGOLE DI DECISIONE  

Regole di decisione su base probabilistica la decisione non è mai certa la decisione è sempre

soggetta a errore il rischio di errore che ci sentiamo di correre è rappresentato da α

REGOLE DI DECISIONE: ERRORI DI I E II TIPO

Stabilire il livello di α significa stabilire il rischio che siamo disposti a correre di commettere

l’errore di respingere H quando è vera, ovvero dire che c’è una differenza quando in realtà non

0

c’è errore di I tipo. Si tende a stabilire un valore di α basso perché

- è preferibile non affermare l’esistenza di un fenomeno se non si è probabilisticamente

“sicuri” della sua presenza

- “andare appresso” a risultati apparentemente significativi (che dipendono da un eccesivo

errore di campionamento) è scientificamente una perdita di tempo

 

α = .05 rischio di sbagliare rifiutando H0 quando essa è vera = 5 volta su 100

 

α = .01 rischio di sbagliare rifiutando H0 quando essa è vera = 1 volta su 100

 

α = .001 rischio di sbagliare rifiutando H0 quando essa è vera = 1 volta su 1000

ERRORE DI I TIPO

Se H è vera

0

- si può decidere di accettare H = decisione corretta

0

- si può decidere di rifiutare H = decisione scorretta (errore di I tipo)

0 respingo H quando è vera

0

accetto H quando è falsa

1

Commettendo l’errore di I tipo si considera presente (ovvero come vero) un effetto assente (che

dunque è falso) nella popolazione. La probabilità di questo errore è α

- α = probabilità di evidenziare un fenomeno che in realtà non esiste

- α = probabilità di rintracciare un effetto presente solo in un campione (per errore di

campionamento), ma assente nella popolazione di riferimento

ERRORE DI II TIPO

Se H è falsa

0

- si può decidere di rifiutare H = decisione corretta

0

- si può decidere di accettare H = decisione scorretta (errore di II tipo)

0 accetto H quando è falsa

0

rifiuto H quando è vera

1

Commettendo l’errore di II tipo si considera assente (ovvero come falso) un effetto presente (che

è dunque vero) nella popolazione di riferimento. La probabilità di questo errore è β

- β = probabilità di non evidenziare un fenomeno che in realtà esiste

- β = probabilità di non rintracciare un effetto assente solo nel campione osservato, ma in

realtà presente nella popolazione di riferimento

Purtroppo il valore di β, a differenza di quello di α, non può essere determinato.

RELAZIONE TRA α E β

Se si confrontano i valori di due campioni (trattamento e noto) si avranno due distribuzioni

 se non c’è differenza nella performance nel ricevere o meno il trattamento, le due

distribuzioni si andranno a sovrapporr

 se le due distribuzioni non si sovrappongono si ha la situazione numero 1 (foto 1): la

distanza dei due picchi è un indicatore poichè quanto più sono distanti più c’è

differenza. Si ha area di 1-α, ovvero l’area dell’ipotesi significativa, e l’area dell’ipotesi

alternativa data da 1-β che è il parametro al di là del quale si ha l’altra distribuzione

(1-β è l’area di accettazione di H , ovvero quella parte che si distanzia dalla

1

distribuzione di riferimento). In questo caso si hanno dei livelli di sovrapposizione che

possono far incorrere negli errori: area bassa di sovrapposizione (incrocio) tra le linee

rosse e blu delle due distribuzioni quanto più la distanza di queste due linee è

maggiore, quanto più si è certi di non incorrere nel rischio di errore, ma essendoci

l’area di sovrapposizione è possibile incorrere negli errori di I e II tipo

Nel primo caso, al di là di α non c’è differenza tra i due campioni; nel secondo caso oltre α si dice

che c’è una differenza diversa da 0, ovvero che c’è differenza e che dunque i due campioni hanno

distribuzioni diverse, quindi il trattamento funziona perché i valori sono nettamente diversi.

REGOLE DI DECISIONE

Ipotesi H è vera H è falsa

0 0

Decisione

Accetto H Decisione corretta (1-α) Decisione errata: errore di II tipo (β)

0

Rifiuto H Decisone errata: errore di I tipo (α) Decisione corretta (1-β)

0

POTENZA DEL TEST 

La potenza del test è la probabilità che respinge H quando è vera H 1- β.

0 1

La potenza del test è

- la capacità del test di condurre alla decisione corretta

- determinata fondamentalmente dalla grandezza del campione

- determinata dalla grandezza dell’effetto

- in parte influenzata dal tipo di analisi statistica effettuata

L’applicabilità delle tecniche di analisi dipende a sua volta da

- livello di misura

- grandezza campione

- distribuzione 2

DISTRIBUZIONE X (chi quadro)

È una distribuzione che riguarda dati categoriali e riguarda ipotesi in cui confrontiamo delle

osservazioni in base a delle variabili categoriali (es. confrontare se le persone cattoliche vs. non

cattoliche per vedere chi è più propenso alla pena di morte; per vedere se c’è una relazione tra

essere d’accordo e l’essere o meno cattolici, significa porsi la domanda relativa al fatto che quel

comportamento è un comportamento equi-distribuito tra i due gruppi o se invece ha una

relazione solo con uno dei due gruppi)

Data una distribuzione normale standardizzata (media = 0; deviazione = 1) i punti z rappresentati

sull’asse delle ascisse possono assumere sia valori negativi che positivi. Si definisce come X2 la

sommatoria della distanza della media sulla varianza, ovvero la sommatoria dei punti z.

2 21 22 2

X = z +z se andiamo a estrarre a caso punti z (abbiamo quindi tutti i valori positivi) per

2

costruire campioni con n = 2 ottengo una distribuzione (campionaria) teorica X con v = 2 (due

2

gradi di libertà, gdl = 2); estraendo a caso punti z per costruire campioni con n = 4 ottengo una

2 2 21 22 23 24

distribuzione (campionaria) teorica X con v = 4 (gdl= 4) [X = z + z + z + z ] estraendo

2

campioni di z maggiori si ottiene una distribuzione teorica con gdl e numerosità maggiore. Si

ottiene una famiglia di distribuzioni che variano al variare del parametro v = n (numero degli

2 21 22 2n 2 2

elementi del campione). In generale X = z + z + … + z X = ∑z

2

La distribuzione X

- è asimmetrica e non è basata su dati metrici

- è una funzione continua che va da 0 a (entro il quadrate positivo degli assi cartesiani)

- la forma dipende da v (al crescere dei gradi di libertà tende alla simmetria)

2

- si usa la curva per calcolare la probabilità associata ai valori di X (porzioni di area),

sapendo che il valore sotteso sotto l’area è pari a 1:

GRADI DI LIBERTÀ

I gradi di libertà sono dati dal numero di valori liberi di variare entro un’equazione n + n + n =

1 2 3

N con k = 3 (n° addendi)

 se N non è fisso, tutti gli addendi sono liberi di variare: v = k

 se N è fisso, tutti gli addendi sono liberi di variare meno uno: v = k – 1

2

La distribuzione X si utilizza perché facciamo riferimento a delle osservazioni legate alla ricerca

che si devono confrontare con la distribuzione teorica. Si andrà quindi a ragionare su un confronto

2 2

tra le frequenze osservate, da cui si calcola il valore di X che andrà poi confrontato con X critico

2

della distribuzione teorica che si ricava dalla distribuzione X . Pearson dimostra che considerando

una distribuzione di frequenza con f (frequenze osservate), f (frequenze teoriche) e k (n° di

0 t

categorie della distribuzione): = la sommatoria della differenza tra le frequenze

osservate e le frequenze teoriche al quadrato sulle

2

frequenze teoriche (da cui si ottiene il valore di X da

confrontare con il valore della distribuzione) è

assimilabile alla sommatoria dei punti z al quadrato

Mettiamo caso che si fa una tabella 2x2 su 100 soggetti, cattolico-non cattolico, d’accordo-non

d’accordo: se non c’è relazione tra l’essere o meno cattolico e l’essere o meno d’accordo sulla

pena di morte, vuol dire che le frequenze che ci si deve aspettare sono 25-25-25-25 (25 per ogni

quadrante della tabella), quindi vuol dire che c’è una distribuzione di equi probabilità dettata solo

dal caso si osserva quindi se le frequenze osservate sono differenti da quelle teoriche

D’accordo Non d’accordo

Cattolico 25 25

Non cattolico 25 25

Ogni volta si debba confrontare una distribuzione teorica e una osservata si può fare riferimento

2

alla distribuzione teorica della probabilità del X . Disponendo di una distribuzione di frequenza è

2 2

possibile usare il X per la verifica delle ipot

Dettagli
Publisher
A.A. 2016-2017
83 pagine
SSD Scienze economiche e statistiche SECS-S/05 Statistica sociale

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher valeria_1995 di informazioni apprese con la frequenza delle lezioni di Statistica sociale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Bergamo o del prof Caso Letizia.