Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
1 ANALISI DEI DATI: CHE FARE?
1. GUARDARLI E CONTROLLARLI
Errori dell’intervistatore
Omissioni ( volontarie o involontarie) del rispondente
Ambiguità: Risposte non leggibili, questionari non chiari
Incoerenze interne: risposte in contraddizione, es professione = avvocato, titolo
di studio= licenza media
Mancanza di collaborazione: es rispondenti annoiati che forniscono la stessa
risposta a intere batterie di item
Rispondente non eligibile: es un minore in indagini che prevedevano almeno 18
anni
Un altro modo di analizzare e guardare i dati è la DISTRIBUZIONE DI FREQUENZE
Ci dice quante osservazioni sono associate a ciascuna modalità di risposte delle variabili
Possiamo avere distribuzioni di frequente assolute (numero di unita che hanno dato
quella risposta) o relative ( percentuale di unità che hanno dato quella risposta)
Le tabelle che riportano la distribuzione di frequenza i una variabile si dicono anche “
tabelle a una via” o “ tabelle a un’ entrata”
Le tabelle a una via sono utili nel caso di variabili qualitative, ma diventano poco
leggibili per variabili quantitative, soprattutto se le possibili risposte sono molte ( es
reddito)
Se la variabile è ordinale, può essere utile riportare le frequenze cumulate, vale a dire la
frequenza delle risposte minori o uguali a ciascun valore.
Percentuale cumulata = percentuali fino a li
DESCRIVERE UN INSIEME DI DATI -1
Se vogliamo descrivere e sintetizzare una distribuzione di frequenza bisogna fare una misura
di centralità o tendenza centrale, che riassumono con un unico dato l’intera distribuzione,
indicandone il punto centrale.
Le comuni misure di centralità sono:
MODA: indica il valore che conta il maggior numero di osservazioni; ha senso solo per
variabili qualitative.
MEDIANA : indica il valore che si trova nel punto centrale della distribuzione, è quindi
tale per cui metà delle osservazioni sono più grandi di quel valore e metà più piccole;
non si può calcolare per variabili nominali.
MEDIA : la somma dei valori osservati divisa per il numero di osservazioni; si può
calcolare solo per variabili quantitative.
Per variabili quantitative con distribuzione molto asimmetrica, la mediana è un indice più
appropriato della media.
LEZIONE 3
D’ora in poi statistica differenziale
PASSAGGIO DAL CAMPIONE ALLA POPOLAZIONE
Cos’è una distribuzione e soprattutto una distribuzione normale?
È una curva che forma una specie di campana, immaginarla come un grafico di
frequenza, dove è alta capita spesso dove è bassa raramente dove è zero mai )
Fu scoperta nel 1720 e nel 1870 il matematico Quetelet ebbe l’idea di usare la
curva per misurare l’errore e ci dice che la maggior parte degli errori sono nulli
o piccolissimi e che è rarissimo quindi farne.
Caratteristiche:
Simmetria: a partire dal punto centrale scendono nella stessa materia da
tutti e due i lati
Valore media e mediana sono nello stesso punto, coincidono e si trovano
al centro.
La maggior parte delle osservazioni sta intorno al valore centrale
La curva non tocca mai la x, si avvicina senza mai toccarla ciò significa
che non c’è nessun valore che sia completamente impossibile.
Tutte le possibili curve normali hanno una curva simile e
Si possono descrivere usando due numeri: VALORE MEDIO E LO STATO
QUADRATICO MEDIO (quanto sono ripide/disperse o schiacciate)
Questi due parametri definiscono in maniera univoca una certa curva
normale che si può scrivere con un formula.
A COSA SERVE LA CURVA NORMALE?
Cruciale l’area sotto la curva normale perché serve a capire quanta
probabilità c’è che succeda un qualcosa. Area totale = 1.
Area sotto la cura normale a sinistra e a destra sarà 50 e 50
L’area che si trova tra … e … è 0,682. In altre parole il 68,2% delle
osservazioni si trova a una distanza massima di uno scarto quadratico
medio al valore medio.
L’area che si trova tra … e ..
La curva più famosa è la NORMALE STANDARDIZZATA che ha media 0 e scarto
quadratico medio 1.
Tutti i valori studiati di questa curva sono stati inseriti in tavole.
INCERTEZZA DELLE STIME
Se io vado a rilevare i dati sull’intera popolazione posso descrivere quella
popolazione basta, cioè so che quella popolazione ha una certa media.
Se non posso fare ciò rileviamo un campione e i risultati osservati possono
essere affetti da una certa misura di incertezza (incertezza di stime)
standard error
Lo misura questa incertezza perché è una misura della
dispersione di tutte e medie campionarie che potremmo trovare se entrassimo
un campione e ne calcolassimo la media per migliaia e migliaia di volte. Mi dice
se, io potessi rifare tantissime volte la media campionaria, quanto si
modificherebbe da campione a campione.
MEDIA CAMPIONARIA è la media aritmetica sul campione osservato.
La variabilità dovuta al campionamento è dovuta al fatto che abbiamo estratto
solo uno dei tantissimi campioni possibili.
La media campionaria segue una distribuzione normale e ciò vale
indipendentemente dalla distribuzione del fenomeno anche se la variabile è
asimmetrica.
Se abbiamo preso un numero ragionevole di campioni la media delle medie
campionarie sarà uguale al valore medio della popolazione.
Molti campioni avranno media campionaria uguale o vicina alla media
della popolazione (g)
Metà campioni avranno una media campionaria maggiore di g, metà
minore
Solo pochi campioni avranno una media campionaria molto distante dalla
media g.
DISPERSIONE MEDIE CAMPIONARIE
È una distribuzione normale con media uguale alla media della
popolazione, e uno scarto quadratico medio che prende il nome di
“standard error” (SE)
Lo standard error è minore dello scarto quadratico medio della
popolazione, perché l’uso delle medie attenua l’effetto dei valori estremi.
(U campione grande balla di meno, un campione piccolo viene trascinato
in alto o in basso)
TUTTO CIÒ E IL TEOREMA DEL LIMITE CENTRALE
Se da una popolazione estraiamo un numero differentemente elevato di
dimensione n, la media campionaria di questi campioni si distribuisce
come una distribuzione normale con media uguale alla media della
popolazione e scarto quadratico medio pari allo standard error:
Quando abbiamo a che fare con variabili dicotomiche, la popolazione di unità
della popolazione che presenta la relativa caratteristica si indica con pi greco, e
la proposizione di unità che presenta la caratteristica nel campione si indica
con p .
Teorema : se si estrae da una popolazione un campione di dimensione n, per n
abbastanza grande, la proporzione campionaria avrà distribuzione normale con
media uguale alla vera proporzione pi greco e standard error pari a :
Se la vera proporzione del carattere nella proporzione è ignota (come accade in
genere), è possibile utilizzare la proporzione campionaria, se il campione è
abbastanza grande questa approssimazione da buoni risultati.
Il TEOREMA DEL LIMITE CENTRALE vale solo se abbiamo estratto campioni
sufficientemente grandi:
Se il fenomeno presso la popolazione segue la distribuzione normale, il
campione deve essere di almeno 10 osservazioni
Se il fenomeno presso la popolazione ha una distribuzione non normale
(es. reddito, che è asimmetrico bisogna che il campione contenga
almeno 25 osservazioni.
Circa il 68% dei campioni possibili ha una media campionaria che
differisce da quella della popolazione per non più di uno standard error
Circa il 95% dei campioni possibili ha una media campionaria che
differisce da quella della popolazione per non più di due volte lo sesso
standard error
Circa il 99,7% dei campioni possibili ha una media campionaria che
differisce da quella della popolazione per non più di tre volte lo standard
error
INCERTEZZE DELLE STIME
È possibile indicare il livello di incertezza delle stime riportando, insieme alla
misura di centralità (tipicamente la media ) anche lo standard error o un
“INTERVALLO DI CONFIDENZA” (stima intervallare)
Finire
COSA POSSIAMO FARE CON I DATI ?
Verificare ipotesi
Fare confronti
CAMPIONE UNICO
VERIFICA DI IPOTESI –
Stabiliamo se il campione conferma o smentisce una teoria o ipotesi, stabilire
se il valore medio della popolazione è uguale a un certo valore oppure no, ci
sono 2 ipotesi:
Ho ipotesi nulla
H1 ipotesi alternativa
Nel caso fosse vera Ho abbiamo una probabilità alta o bassa di ottenere i dati
ottenuti. STATISTICA TEST
La verifica delle ipotesi si fa con una
Il valor che assume deve distribuirsi con 0 varianza 1.
t student
Il valore ottenuto si confronta con la distribuzione che è come una
normale distribuzione ma un po’ più piatta/ dispersa.
Il concetto chiave è il livello di significatività osservato, che è la probabilità che
io ho di osservare un campione estremo come il mio o più estremo, ovvero di
andare lontano dal valore teorico solo per il caso.
Quindi il LIVELLO DI SIGNIFICATIVITÀ OSSERVATO rappresenta la probabilità di
ottenere valori della statistica test uguali o più grandi di quello osservato (in
valore assoluto), cioè valori della media campionaria lontani dal valore teorico
quando quello osservato o più lontani, se Ho fosse vera.
Essendo una probabilità varia tra 0 e 1 p-value
Quindi se è grande i dati sono compatibili con Ho, se è piccolo il indica
che bisogna rifiutare H1
LIVELLO DEL TEST
Mi dice quanta evidenza contraria ad Ho voglio trovare per rifiutare l’ipotesi
nulla (Ho) p - value
Se il livello de test è 95% rifiuto Ho se il è + piccolo di 0,05
p - value
Se è 99% rifiuto Ho, se il è + piccolo di 0,01
Spesso si eseguono test del 95%
TEST PER PROPORZIONI
Variabile d’interesse è dicotomica, la statistica test t (oppure z ) è analoga:
p – value
Si otterrà un valore della statistica test e un
TEST UNILATERALI
I testi fatti finora servono per capire se il valore del campione è = o diverso da
“test bilaterali” “test a due code”
un valore teorico, quindi sono o
“unilaterali test a una coda
I test ” o “ ” servono per stabilire se il valore del
campione è maggiore o uguale, oppure minore o uguale, al valore teorico.