Il campionamento
Metodi di campionamento – Non Probabilistici
Convenienza: la selezione degli elementi è basata su criteri di convenienza
temporale, economica o di altro genere.
A scelta ragionata: le unità campionarie sono selezionate solo in determinate aree di
analisi, sulla base di informazioni preliminari circa la popolazione indagata. È quindi un
campionamento basato sulla conoscenza del carattere oggetto di studio,
particolarmente adatto per campioni di piccole dimensioni.
Per quote : La popolazione viene suddivisa in gruppi omogenei in base ad alcune
variabili strutturali (sesso, età, residenza…). Si individua il numero di osservazioni da
(quote):
raccogliere in ogni gruppo gli intervistatori scelgono il campione allo interno
delle classi, in modo da rispettare le proporzioni prescelte. L’intervistatore ha totale
arbitrarietà nella scelta delle unità da intervistare nelle quote assegnate.
Il campionamento
Metodi di campionamento – Probabilistici
Campionamento casuale semplice: a ogni estrazione ogni elemento della
popolazione ha la stessa probabilità di essere selezionato, attraverso un meccanismo
che garantisce la casualità delle estrazioni. La probabilità di estrazione di un elemento
è: senza
- Campionamento ripetizione: P=1 / N*(N-1)*(N-2)*...*(N-i+1)
con
- Campionamento ripetizione: P= 1/ N
Stratificato : se si hanno informazioni suppletive sulla popolazione di riferimento, è
possibile dividerla in strati, al cui interno le unità sono omogenee secondo un
determinato criterio. Da ogni strato viene estratto, in modo indipendente, un
campione casuale.
A grappoli : le unità elementari della popolazione sono raggruppate in sottoinsiemi di
grappoli
unità contigue di osservazione, detti . Data una popolazione, viene estratto un
certo numero di grappoli e tutti gli elementi appartenenti ai gruppi selezionati entrano
a far parte del campione. Di solito sono utilizzati come grappoli dei gruppi naturali o
amministrativi già esistenti, per contenere i costi.
A due o più stadi : data una popolazione le cui unità elementari sono riunite in
gruppi, dapprima si seleziona un campione casuale di gruppi, e poi si estrae un certo
numero di unità elementari dai gruppi selezionati. Vi sono allora due livelli di
campionamento: al primo vengono scelti i gruppi o le unità di primo stadio, al secondo
vengono scelte le unità elementari, chiamate unità secondarie.
Sistematico: è necessario che le unità siano ordinate secondo un criterio qualsiasi;
solo la prima unità verrà estratta in modo casuale dalla popolazione, le altre verranno
selezionate in modo automatico secondo un criterio prefissato.
Le domande del questionario sono divise in sezioni:
1. Domande comportamentali (specifiche del tema in analisi e mirate agli obiettivi
preposti)
2. Domande anagrafiche/sociodemografiche (es: età, titolo di studio, provenienza
geografica...)
3. Domande attitudinali utili a caratterizzare il profilo dell’intervistato (es. tempo
libero, sport, personalità...)
Tipologie di dati
Qualitativi dati espressi in forma verbale, solitamente classificati in categorie
qualitativi,
Nominale: usato per dati che vengono così classificati in categorie
• distinte senza alcun ordine implicito (es. professione del cliente).
Ordinale: le categorie presentano un ordine implicito; consente di stabilire una
• relazione d’ordine tra le diverse categorie, ma nessuna asserzione numerica,
ovvero si può dire che un determinato valore è più grande di un altro, ma non di
quanto.
Quantitativi dati espressi in forma numerica. si distinguono in:
Discreti: dati caratterizzati da una quantità finita o infinita numerabile di
– classi di misura.
Continui: risposta numerica derivante da un processo di misurazione che
– continuum
fornisce indicazioni puntuali all’interno di un .
Scala di rapporti: con questa tipologia si può dire di quanto una categoria è
• spesa
maggiore di un’altra; è fissato un valore “0” della scala. (es. Le variabili
media e tempo impiegato sono misurate a livello di rapporto, ovvero rientrano
in una scala di valutazione comparativa).
Scala di intervalli presenta le stesse caratteristiche della precedente, ma non
• possiede un valore “0” fissato. (es. In una indagine sui clienti di un
supermercato, il loro livello di soddisfazione può essere adeguatamente
rappresentato mediante una scala di valutazione compresa tra 1 e 9, ciò che
posso asserire è che la differenza tra 2 e 3 è la medesima di quella tra 8 e 9, ma
non che 8 sia il doppio di 4).
Le tabelle sono strutture atte a contenere e disporre i dati e le informazioni da
elaborare in maniera ordinata.
Sono organizzate in righe e colonne.
• Ogni riga corrisponde a una osservazione (record).
• Ogni colonna corrisponde a una variabile (campo).
•
Ogni tabella deve avere un campo i cui valori permettano di identificare univocamente
le varie osservazioni.
L’analisi statistica dei dati
Statistica descrittiva: insieme dei metodi che riguardano la rappresentazione e
sintesi di un insieme di dati al fine di evidenziarne le caratteristiche principali.
Statistica inferenziale: stima
insieme dei metodi che permettono la di una
popolazione campione.
caratteristica di una basandosi sull’analisi di un
Le distribuzioni di frequenza
Frequenza assoluta : è un primo livello di sintesi dei dati, consiste
• nell’associare a ciascuna categoria, o modalità, il numero di volte in cui
compare nei dati.
Distribuzione di frequenza : insieme delle modalità e delle loro frequenze.
• Frequenza relativa : rapporto tra la frequenza assoluta ed il numero
• complessivo delle osservazioni effettuate.
I due tipi di frequenze vengono usati con dati quantitativi, qualitativi, quantitativi
discreti.
Rappresentazione grafica variabili qualitative:
Diagramma a barre: nell’asse delle ascisse ci sono le categorie, senza un ordine
preciso; in quello delle ordinate le frequenze assolute/relative corrispondenti alle
diverse modalità. Utilizzato per rappresentare la distribuzione di frequenze di una
variabile ordinale.
Diagramma a torta: la circonferenza è divisa proporzionalmente alle frequenze,
utilizzato per rappresentare la distribuzione di frequenze di una variabile categorica.
Le distribuzioni di frequenza:
Usate per variabili qualitative (meno spesso per variabili quantitative).
• È la combinazione di:
• Un grafico a barre, con categorie ordinate per frequenza discendente;
– l’altezza delle barre rappresenta la frequenza percentuale.
Un grafico a punti, dove l’altezza dei punti rappresenta la frequenza
– cumulata.
Usato per separare le cause rilevanti da quelle non rilevanti.
•
Rappresentazione grafica variabili quantitative:
Diagramma delle frequenze (variabili quantitative discrete): nell’asse delle
ascisse ci sono i valori assunti dalla variabile discreta (quindi ha un significato
quantitativo); l’altezza delle barre è proporzionale alle frequenze relative o assolute
del valore stesso.
Istogramma (variabili quantitative discrete e continue): nell’asse delle ascisse
ci sono le classi degli intervalli considerati; l’asse delle ordinate rappresenta la densità
di frequenza; l’area del rettangolo corrisponde alla frequenza della classe stessa.
Permette di visualizzare la forma della distribuzione di una variabile continua.
L’istogramma:
L’istogramma rappresenta graficamente la tabella con le distribuzioni di
• frequenza di una variabile quantitativa.
Gli intervalli delle classi sono rappresentati sull’asse orizzontale.
• L’asse verticale può rappresentare la frequenza, la frequenza relativa, la
• frequenza percentuale o la densità di frequenza (in questo caso l’area del
rettangolo rappresenta la frequenza).
Boxplot:
Permette infatti di evidenziare nella distribuzione, i quartili, la media, la differenza
interquartile e il campo di variazione.
Misure di tendenza centrale
Media:
La misura di tendenza centrale più comune.
• Media = somma dei valori diviso il numero di valori.
• Influenzata da valori estremi (outlier).
•
Mediana :
In una lista ordinata, la mediana è il valore “centrale” (50% sopra, 50% sotto).
• Non influenzata da valori estremi.
• Posizione della mediana: = (n + 1)/2.
• Notare che (n + 1)/2 non è il valore, ma la posizione della mediana nella
• sequenza ordinata di dati.
Se n è pari, il valore della mediana è dato dal valore dell’osservazione nella
• posizione.
Se n è dispari, il valore della mediana è dato dalla media dei valori delle
• osservazioni alle posizioni n/2 e n/2+1.
Moda :
Valore che occorre più frequentemente.
• Non influenzata da valori estremi.
• Usata sia per dati numerici che categorici. La moda può essere calcolata anche
• su una variabile qualitativa. Restituirà la categoria della variabile con la
frequenza assoluta più elevata.
Può non esserci una moda.
• Ci può essere più di una moda.
•
Misure di tendenza non centrali
I Quartili dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo
• stesso numero di valori.
Il primo quartile, Q , è il valore per il quale 25% delle osservazioni sono minori e
• 1
75% sono maggiori di esso.
Q coincide con la mediana (50% sono minori, 50% sono maggiori).
• 2
Solo 25% delle osservazioni sono maggiori del terzo quartile.
• Quantili : il quantile di ordine α è il valore che permette di dividere la
• popolazione in due parti.
Missing values
I valori mancanti sono dati di cui non si conosce il valore, generati:
se la risposta non è stata data
- se la risposta è ambigua o fuori range
-
I valori missing vanno evitati/limitati: in ogni calcolo statistico le osservazioni
• con missing NON vengono usate (il problema si amplifica nell’analisi
multivariata).
Trattamento dei missing:
• eliminare tutti i questionari con una o più variabili missing: suggerito se si
- hanno abbastanza dati.
imputazione dei missing (sostituire i missing con media/mediana se
- variabile quantitativa, con moda se qualitativa); in ogni caso i valori
missing non dovrebbero superare il 5% del totale.
Misure di variabilità
Campo di variazione :
La più semplice misura di variabilità
• Differenza tra il massimo e il minimo dei valori osservati:
• Campo di variazione = X(massimo) – X(minimo)
Ignora il modo in cui i dati sono distribuiti.
• Sensibile agli outlier.
•
Differenza interquartile :
Possiamo eliminare il problema degli outlier usando la differenza interquartile.
• Elimina i valori osservati più alti e più bassi e calcola il campo di variazione del
• 50% centrale dei dati. o o
Differenza Interquartile = 3 quartile – 1 quartile
Varianza :
Media dei quadrati delle differenze fra ciascuna osservazione e la media .
•
Scarto quadratico medio :
Misura di variabilità comunemente usata.
• Mostra la variabilità rispetto alla media (radice quadrata della varianza).
• Ha la stessa unità di misura dei dati originali.
• Viene calcolato usando tutti i valori nel set di dati.
• Valori lontani dalla media hanno più peso (poiché si usa il quadrato delle
• deviazioni dalla media).
Le stesse considerazioni valgono anche per il calcolo della Varianza.
•
Coefficiente di variazione :
Misura la variabilità relativa.
• Sempre in percentuale (%).
• Mostra la variabilità relativa rispetto alla media.
• Può essere usato per confrontare due o più set di dati misurati con unità di
• misura diversa.
Forma della distribuzione
La forma della distribuzione si dice simmetrica se le osservazioni sono
• bilanciate, o distribuite in modo approssimativamente regolare attorno al
centro.
La forma della distribuzione è detta asimmetrica se le osservazioni non sono
distribuite in modo simmetrico rispetto al centro:
una distribuzione con asimmetria positiva (obliqua a destra) ha una coda che
• si estende a destra, nella direzione dei valori positivi.
Una distribuzione con asimmetria negativa (obliqua a sinistra) ha una coda
• che si estende a sinistra, nella direzione dei valori negativi.
Misure di forma della distribuzione
Descrive come i dati sono distribuiti.
• Misure della forma:
• Simmetrica o asimmetrica
–
Skewness : indice che informa circa il grado di simmetria o asimmetria di una
distribuzione.
γ=0 ditribuzione simmetrica;
– γ<0 asimmetria negativa (mediana>media);
– γ>0 asimmetria positiva (mediana<media).
–
Kurtosis : indice che permette di verificare se i dati seguono una distribuzione di tipo
Normale (simmetrica).
β=3 se la distribuzione è “Normale”;
– β<3 se la distribuzione è iponormale (rispetto alla distribuzione di una
– Normale ha densità di frequenza minore per valori molto distanti dalla
media);
β>3 se la distribuzione è ipernormale (rispetto alla distribuzione di una
– Normale ha densità di frequenza maggiore per i valori molto distanti dalla
media).
Analisi bivariata
Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle
variabili indagate:
variabili qualitative/quantitative discrete: tavole di contingenza (o a doppia
• entrata).
variabili quantitative: analisi di correlazione lineare.
• una variabile qualitativa e una quantitativa: confronto tra le medie.
•
Statistica descrittiva bivariata
Tabelle di contingenza : sono tabelle a doppia entrata; i valori riportati all’interno
della tabella sono le frequenze congiunte assolute, e la loro somma è pari al totale dei
casi osservati.
Dalla tabella si possono ricavare inoltre le distribuzioni marginali P (x ) e P (y ),
x i y j
sommando per riga e per colonna le frequenze congiunte. Le frequenze relative
congiunte P(x ,y ), sono pari al rapporto tra le frequenze assolute congiunte e il totale
i j
dei casi osservati.
Dalle tabelle di contingenza si possono ricavare ulteriori distribuzioni unidimensionali:
Frequenze subordinate ovvero la frequenza di osservare il carattere x
– dato il carattere y e viceversa. Formalmente:
P y|x (x ,y ) = P (x ,y ) / P x(x )
i j i j i
P x|y (x ,y ) = P (x ,y ) / P y(y )
i j i j j
Indipendenza statistica se al variare di X le distribuzioni subordinate (Y|X=x ) sono
i
tutte uguali tra loro e uguali alla marginale corrispondente, si può concludere che la
distribuzione del carattere Y non dipende da X. Nel caso di indipendenza statistica, la
frequenza relativa congiunta è pari al prodotto delle marginali corrispondenti:
P(x ,y )=P (x )P (y )
i j x i y j
L’indipendenza statistica è un concetto simmetrico: se vale per X, vale anche per Y. Se
si verifica, vuol dire che l’analisi bivariata di X (Y) non dà informazioni aggiuntive
rispetto all’analisi univariata.
Perfetta dipendenza unilaterale : ad ogni valore di X corrisponde un solo valore di
Y, ma non è detto che si verifichi il contrario. In generale, quando il numero di colonne
(valori assunti dalla Y) è inferiore al numero di righe (valori assunti dalla X) non è mai
possibile che X dipenda perfettamente da Y.
Perfetta dipendenza bilaterale : ad ogni valore di X corrisponde un solo valore di Y
e viceversa; la perfetta dipendenza bilaterale si può avere allora solo per matrici
quadrate.
Indici di connessione
Nella realtà è difficile che si verifichi la condizione di indipendenza statistica. Pertanto,
è utile disporre di indici che misurino il grado di connessione tra le variabili.
χ² (chi-quadrato) assume valore nullo se i fenomeni X e Y sono
– indipendenti. Risente del numero delle osservazioni effettuate quindi al
crescere di N, l’indice tende a crescere. Indice Chi Quadro è sempre
maggiore di 0 e cresce all’aumentare della dipendenza.
Cramer V: basato sul χ², è un indice relativo (non risente del numero di
– osservazioni). Assume valori compresi tra 0 e 1: 0 nel caso di
indipendenza statistica, e ten
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Metodi quantitativi
-
Esercizi di metodi quantitativi, metodi quantitativi
-
Esercitazione Metodi quantitativi
-
Esercitazioni Metodi quantitativi