Anteprima
Vedrai una selezione di 6 pagine su 21
Appunti prima lezione di Tecniche di analisi e raccolta dati M2 Pag. 1 Appunti prima lezione di Tecniche di analisi e raccolta dati M2 Pag. 2
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Appunti prima lezione di Tecniche di analisi e raccolta dati M2 Pag. 6
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Appunti prima lezione di Tecniche di analisi e raccolta dati M2 Pag. 11
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Appunti prima lezione di Tecniche di analisi e raccolta dati M2 Pag. 16
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Appunti prima lezione di Tecniche di analisi e raccolta dati M2 Pag. 21
1 su 21
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

1 ANALISI DEI DATI: CHE FARE?

1. GUARDARLI E CONTROLLARLI

Errori dell’intervistatore

 Omissioni ( volontarie o involontarie) del rispondente

 Ambiguità: Risposte non leggibili, questionari non chiari

 Incoerenze interne: risposte in contraddizione, es professione = avvocato, titolo

 di studio= licenza media

Mancanza di collaborazione: es rispondenti annoiati che forniscono la stessa

 risposta a intere batterie di item

Rispondente non eligibile: es un minore in indagini che prevedevano almeno 18

 anni

Un altro modo di analizzare e guardare i dati è la DISTRIBUZIONE DI FREQUENZE

Ci dice quante osservazioni sono associate a ciascuna modalità di risposte delle variabili

 Possiamo avere distribuzioni di frequente assolute (numero di unita che hanno dato

 quella risposta) o relative ( percentuale di unità che hanno dato quella risposta)

Le tabelle che riportano la distribuzione di frequenza i una variabile si dicono anche “

 tabelle a una via” o “ tabelle a un’ entrata”

Le tabelle a una via sono utili nel caso di variabili qualitative, ma diventano poco

 leggibili per variabili quantitative, soprattutto se le possibili risposte sono molte ( es

reddito)

Se la variabile è ordinale, può essere utile riportare le frequenze cumulate, vale a dire la

 frequenza delle risposte minori o uguali a ciascun valore.

Percentuale cumulata = percentuali fino a li

DESCRIVERE UN INSIEME DI DATI -1

Se vogliamo descrivere e sintetizzare una distribuzione di frequenza bisogna fare una misura

di centralità o tendenza centrale, che riassumono con un unico dato l’intera distribuzione,

indicandone il punto centrale.

Le comuni misure di centralità sono:

MODA: indica il valore che conta il maggior numero di osservazioni; ha senso solo per

 variabili qualitative.

MEDIANA : indica il valore che si trova nel punto centrale della distribuzione, è quindi

 tale per cui metà delle osservazioni sono più grandi di quel valore e metà più piccole;

non si può calcolare per variabili nominali.

MEDIA : la somma dei valori osservati divisa per il numero di osservazioni; si può

 calcolare solo per variabili quantitative.

Per variabili quantitative con distribuzione molto asimmetrica, la mediana è un indice più

appropriato della media.

LEZIONE 3

D’ora in poi statistica differenziale

PASSAGGIO DAL CAMPIONE ALLA POPOLAZIONE

Cos’è una distribuzione e soprattutto una distribuzione normale?

È una curva che forma una specie di campana, immaginarla come un grafico di

frequenza, dove è alta capita spesso dove è bassa raramente dove è zero mai )

Fu scoperta nel 1720 e nel 1870 il matematico Quetelet ebbe l’idea di usare la

curva per misurare l’errore e ci dice che la maggior parte degli errori sono nulli

o piccolissimi e che è rarissimo quindi farne.

Caratteristiche:

Simmetria: a partire dal punto centrale scendono nella stessa materia da

 tutti e due i lati

Valore media e mediana sono nello stesso punto, coincidono e si trovano

 al centro.

La maggior parte delle osservazioni sta intorno al valore centrale

 La curva non tocca mai la x, si avvicina senza mai toccarla ciò significa

 che non c’è nessun valore che sia completamente impossibile.

Tutte le possibili curve normali hanno una curva simile e

 Si possono descrivere usando due numeri: VALORE MEDIO E LO STATO

 QUADRATICO MEDIO (quanto sono ripide/disperse o schiacciate)

Questi due parametri definiscono in maniera univoca una certa curva

normale che si può scrivere con un formula.

A COSA SERVE LA CURVA NORMALE?

Cruciale l’area sotto la curva normale perché serve a capire quanta

probabilità c’è che succeda un qualcosa. Area totale = 1.

Area sotto la cura normale a sinistra e a destra sarà 50 e 50

 L’area che si trova tra … e … è 0,682. In altre parole il 68,2% delle

 osservazioni si trova a una distanza massima di uno scarto quadratico

medio al valore medio.

L’area che si trova tra … e ..

La curva più famosa è la NORMALE STANDARDIZZATA che ha media 0 e scarto

quadratico medio 1.

Tutti i valori studiati di questa curva sono stati inseriti in tavole.

INCERTEZZA DELLE STIME

Se io vado a rilevare i dati sull’intera popolazione posso descrivere quella

popolazione basta, cioè so che quella popolazione ha una certa media.

Se non posso fare ciò rileviamo un campione e i risultati osservati possono

essere affetti da una certa misura di incertezza (incertezza di stime)

standard error

Lo misura questa incertezza perché è una misura della

dispersione di tutte e medie campionarie che potremmo trovare se entrassimo

un campione e ne calcolassimo la media per migliaia e migliaia di volte. Mi dice

se, io potessi rifare tantissime volte la media campionaria, quanto si

modificherebbe da campione a campione.

MEDIA CAMPIONARIA è la media aritmetica sul campione osservato.

La variabilità dovuta al campionamento è dovuta al fatto che abbiamo estratto

solo uno dei tantissimi campioni possibili.

La media campionaria segue una distribuzione normale e ciò vale

indipendentemente dalla distribuzione del fenomeno anche se la variabile è

asimmetrica.

Se abbiamo preso un numero ragionevole di campioni la media delle medie

campionarie sarà uguale al valore medio della popolazione.

Molti campioni avranno media campionaria uguale o vicina alla media

 della popolazione (g)

Metà campioni avranno una media campionaria maggiore di g, metà

 minore

Solo pochi campioni avranno una media campionaria molto distante dalla

 media g.

DISPERSIONE MEDIE CAMPIONARIE

È una distribuzione normale con media uguale alla media della

popolazione, e uno scarto quadratico medio che prende il nome di

“standard error” (SE)

Lo standard error è minore dello scarto quadratico medio della

popolazione, perché l’uso delle medie attenua l’effetto dei valori estremi.

(U campione grande balla di meno, un campione piccolo viene trascinato

in alto o in basso)

TUTTO CIÒ E IL TEOREMA DEL LIMITE CENTRALE

Se da una popolazione estraiamo un numero differentemente elevato di

dimensione n, la media campionaria di questi campioni si distribuisce

come una distribuzione normale con media uguale alla media della

popolazione e scarto quadratico medio pari allo standard error:

Quando abbiamo a che fare con variabili dicotomiche, la popolazione di unità

della popolazione che presenta la relativa caratteristica si indica con pi greco, e

la proposizione di unità che presenta la caratteristica nel campione si indica

con p .

Teorema : se si estrae da una popolazione un campione di dimensione n, per n

abbastanza grande, la proporzione campionaria avrà distribuzione normale con

media uguale alla vera proporzione pi greco e standard error pari a :

Se la vera proporzione del carattere nella proporzione è ignota (come accade in

genere), è possibile utilizzare la proporzione campionaria, se il campione è

abbastanza grande questa approssimazione da buoni risultati.

Il TEOREMA DEL LIMITE CENTRALE vale solo se abbiamo estratto campioni

sufficientemente grandi:

Se il fenomeno presso la popolazione segue la distribuzione normale, il

 campione deve essere di almeno 10 osservazioni

Se il fenomeno presso la popolazione ha una distribuzione non normale

 (es. reddito, che è asimmetrico bisogna che il campione contenga

almeno 25 osservazioni.

Circa il 68% dei campioni possibili ha una media campionaria che

 differisce da quella della popolazione per non più di uno standard error

Circa il 95% dei campioni possibili ha una media campionaria che

 differisce da quella della popolazione per non più di due volte lo sesso

standard error

Circa il 99,7% dei campioni possibili ha una media campionaria che

 differisce da quella della popolazione per non più di tre volte lo standard

error

INCERTEZZE DELLE STIME

È possibile indicare il livello di incertezza delle stime riportando, insieme alla

misura di centralità (tipicamente la media ) anche lo standard error o un

“INTERVALLO DI CONFIDENZA” (stima intervallare)

Finire

COSA POSSIAMO FARE CON I DATI ?

Verificare ipotesi

 Fare confronti

 CAMPIONE UNICO

VERIFICA DI IPOTESI –

Stabiliamo se il campione conferma o smentisce una teoria o ipotesi, stabilire

se il valore medio della popolazione è uguale a un certo valore oppure no, ci

sono 2 ipotesi:

Ho ipotesi nulla

H1 ipotesi alternativa

Nel caso fosse vera Ho abbiamo una probabilità alta o bassa di ottenere i dati

ottenuti. STATISTICA TEST

La verifica delle ipotesi si fa con una

Il valor che assume deve distribuirsi con 0 varianza 1.

t student

Il valore ottenuto si confronta con la distribuzione che è come una

normale distribuzione ma un po’ più piatta/ dispersa.

Il concetto chiave è il livello di significatività osservato, che è la probabilità che

io ho di osservare un campione estremo come il mio o più estremo, ovvero di

andare lontano dal valore teorico solo per il caso.

Quindi il LIVELLO DI SIGNIFICATIVITÀ OSSERVATO rappresenta la probabilità di

ottenere valori della statistica test uguali o più grandi di quello osservato (in

valore assoluto), cioè valori della media campionaria lontani dal valore teorico

quando quello osservato o più lontani, se Ho fosse vera.

Essendo una probabilità varia tra 0 e 1 p-value

Quindi se è grande i dati sono compatibili con Ho, se è piccolo il indica

che bisogna rifiutare H1

LIVELLO DEL TEST

Mi dice quanta evidenza contraria ad Ho voglio trovare per rifiutare l’ipotesi

nulla (Ho) p - value

Se il livello de test è 95% rifiuto Ho se il è + piccolo di 0,05

 p - value

Se è 99% rifiuto Ho, se il è + piccolo di 0,01

Spesso si eseguono test del 95%

TEST PER PROPORZIONI

Variabile d’interesse è dicotomica, la statistica test t (oppure z ) è analoga:

p – value

Si otterrà un valore della statistica test e un

TEST UNILATERALI

I testi fatti finora servono per capire se il valore del campione è = o diverso da

“test bilaterali” “test a due code”

un valore teorico, quindi sono o

“unilaterali test a una coda

I test ” o “ ” servono per stabilire se il valore del

campione è maggiore o uguale, oppure minore o uguale, al valore teorico.

Dettagli
Publisher
A.A. 2024-2025
21 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher mariazollino di informazioni apprese con la frequenza delle lezioni di Tecniche di Analisi e Raccolta Dati M2 e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Modena e Reggio Emilia o del prof Martini Maria Cristina.