Estratto del documento

Il campionamento

Metodi di campionamento – Non Probabilistici

Convenienza: la selezione degli elementi è basata su criteri di convenienza

temporale, economica o di altro genere.

A scelta ragionata: le unità campionarie sono selezionate solo in determinate aree di

analisi, sulla base di informazioni preliminari circa la popolazione indagata. È quindi un

campionamento basato sulla conoscenza del carattere oggetto di studio,

particolarmente adatto per campioni di piccole dimensioni.

Per quote : La popolazione viene suddivisa in gruppi omogenei in base ad alcune

variabili strutturali (sesso, età, residenza…). Si individua il numero di osservazioni da

(quote):

raccogliere in ogni gruppo gli intervistatori scelgono il campione allo interno

delle classi, in modo da rispettare le proporzioni prescelte. L’intervistatore ha totale

arbitrarietà nella scelta delle unità da intervistare nelle quote assegnate.

Il campionamento

Metodi di campionamento – Probabilistici

Campionamento casuale semplice: a ogni estrazione ogni elemento della

popolazione ha la stessa probabilità di essere selezionato, attraverso un meccanismo

che garantisce la casualità delle estrazioni. La probabilità di estrazione di un elemento

è: senza

- Campionamento ripetizione: P=1 / N*(N-1)*(N-2)*...*(N-i+1)

con

- Campionamento ripetizione: P= 1/ N

Stratificato : se si hanno informazioni suppletive sulla popolazione di riferimento, è

possibile dividerla in strati, al cui interno le unità sono omogenee secondo un

determinato criterio. Da ogni strato viene estratto, in modo indipendente, un

campione casuale.

A grappoli : le unità elementari della popolazione sono raggruppate in sottoinsiemi di

grappoli

unità contigue di osservazione, detti . Data una popolazione, viene estratto un

certo numero di grappoli e tutti gli elementi appartenenti ai gruppi selezionati entrano

a far parte del campione. Di solito sono utilizzati come grappoli dei gruppi naturali o

amministrativi già esistenti, per contenere i costi.

A due o più stadi : data una popolazione le cui unità elementari sono riunite in

gruppi, dapprima si seleziona un campione casuale di gruppi, e poi si estrae un certo

numero di unità elementari dai gruppi selezionati. Vi sono allora due livelli di

campionamento: al primo vengono scelti i gruppi o le unità di primo stadio, al secondo

vengono scelte le unità elementari, chiamate unità secondarie.

Sistematico: è necessario che le unità siano ordinate secondo un criterio qualsiasi;

solo la prima unità verrà estratta in modo casuale dalla popolazione, le altre verranno

selezionate in modo automatico secondo un criterio prefissato.

Le domande del questionario sono divise in sezioni:

1. Domande comportamentali (specifiche del tema in analisi e mirate agli obiettivi

preposti)

2. Domande anagrafiche/sociodemografiche (es: età, titolo di studio, provenienza

geografica...)

3. Domande attitudinali utili a caratterizzare il profilo dell’intervistato (es. tempo

libero, sport, personalità...)

Tipologie di dati

Qualitativi dati espressi in forma verbale, solitamente classificati in categorie

qualitativi,

Nominale: usato per dati che vengono così classificati in categorie

• distinte senza alcun ordine implicito (es. professione del cliente).

Ordinale: le categorie presentano un ordine implicito; consente di stabilire una

• relazione d’ordine tra le diverse categorie, ma nessuna asserzione numerica,

ovvero si può dire che un determinato valore è più grande di un altro, ma non di

quanto.

Quantitativi dati espressi in forma numerica. si distinguono in:

Discreti: dati caratterizzati da una quantità finita o infinita numerabile di

– classi di misura.

Continui: risposta numerica derivante da un processo di misurazione che

– continuum

fornisce indicazioni puntuali all’interno di un .

Scala di rapporti: con questa tipologia si può dire di quanto una categoria è

• spesa

maggiore di un’altra; è fissato un valore “0” della scala. (es. Le variabili

media e tempo impiegato sono misurate a livello di rapporto, ovvero rientrano

in una scala di valutazione comparativa).

Scala di intervalli presenta le stesse caratteristiche della precedente, ma non

• possiede un valore “0” fissato. (es. In una indagine sui clienti di un

supermercato, il loro livello di soddisfazione può essere adeguatamente

rappresentato mediante una scala di valutazione compresa tra 1 e 9, ciò che

posso asserire è che la differenza tra 2 e 3 è la medesima di quella tra 8 e 9, ma

non che 8 sia il doppio di 4).

Le tabelle sono strutture atte a contenere e disporre i dati e le informazioni da

elaborare in maniera ordinata.

Sono organizzate in righe e colonne.

• Ogni riga corrisponde a una osservazione (record).

• Ogni colonna corrisponde a una variabile (campo).

Ogni tabella deve avere un campo i cui valori permettano di identificare univocamente

le varie osservazioni.

L’analisi statistica dei dati

Statistica descrittiva: insieme dei metodi che riguardano la rappresentazione e

sintesi di un insieme di dati al fine di evidenziarne le caratteristiche principali.

Statistica inferenziale: stima

insieme dei metodi che permettono la di una

popolazione campione.

caratteristica di una basandosi sull’analisi di un

Le distribuzioni di frequenza

Frequenza assoluta : è un primo livello di sintesi dei dati, consiste

• nell’associare a ciascuna categoria, o modalità, il numero di volte in cui

compare nei dati.

Distribuzione di frequenza : insieme delle modalità e delle loro frequenze.

• Frequenza relativa : rapporto tra la frequenza assoluta ed il numero

• complessivo delle osservazioni effettuate.

I due tipi di frequenze vengono usati con dati quantitativi, qualitativi, quantitativi

discreti.

Rappresentazione grafica variabili qualitative:

Diagramma a barre: nell’asse delle ascisse ci sono le categorie, senza un ordine

preciso; in quello delle ordinate le frequenze assolute/relative corrispondenti alle

diverse modalità. Utilizzato per rappresentare la distribuzione di frequenze di una

variabile ordinale.

Diagramma a torta: la circonferenza è divisa proporzionalmente alle frequenze,

utilizzato per rappresentare la distribuzione di frequenze di una variabile categorica.

Le distribuzioni di frequenza:

Usate per variabili qualitative (meno spesso per variabili quantitative).

• È la combinazione di:

• Un grafico a barre, con categorie ordinate per frequenza discendente;

– l’altezza delle barre rappresenta la frequenza percentuale.

Un grafico a punti, dove l’altezza dei punti rappresenta la frequenza

– cumulata.

Usato per separare le cause rilevanti da quelle non rilevanti.

Rappresentazione grafica variabili quantitative:

Diagramma delle frequenze (variabili quantitative discrete): nell’asse delle

ascisse ci sono i valori assunti dalla variabile discreta (quindi ha un significato

quantitativo); l’altezza delle barre è proporzionale alle frequenze relative o assolute

del valore stesso.

Istogramma (variabili quantitative discrete e continue): nell’asse delle ascisse

ci sono le classi degli intervalli considerati; l’asse delle ordinate rappresenta la densità

di frequenza; l’area del rettangolo corrisponde alla frequenza della classe stessa.

Permette di visualizzare la forma della distribuzione di una variabile continua.

L’istogramma:

L’istogramma rappresenta graficamente la tabella con le distribuzioni di

• frequenza di una variabile quantitativa.

Gli intervalli delle classi sono rappresentati sull’asse orizzontale.

• L’asse verticale può rappresentare la frequenza, la frequenza relativa, la

• frequenza percentuale o la densità di frequenza (in questo caso l’area del

rettangolo rappresenta la frequenza).

Boxplot:

Permette infatti di evidenziare nella distribuzione, i quartili, la media, la differenza

interquartile e il campo di variazione.

Misure di tendenza centrale

Media:

La misura di tendenza centrale più comune.

• Media = somma dei valori diviso il numero di valori.

• Influenzata da valori estremi (outlier).

Mediana :

In una lista ordinata, la mediana è il valore “centrale” (50% sopra, 50% sotto).

• Non influenzata da valori estremi.

• Posizione della mediana: = (n + 1)/2.

• Notare che (n + 1)/2 non è il valore, ma la posizione della mediana nella

• sequenza ordinata di dati.

Se n è pari, il valore della mediana è dato dal valore dell’osservazione nella

• posizione.

Se n è dispari, il valore della mediana è dato dalla media dei valori delle

• osservazioni alle posizioni n/2 e n/2+1.

Moda :

Valore che occorre più frequentemente.

• Non influenzata da valori estremi.

• Usata sia per dati numerici che categorici. La moda può essere calcolata anche

• su una variabile qualitativa. Restituirà la categoria della variabile con la

frequenza assoluta più elevata.

Può non esserci una moda.

• Ci può essere più di una moda.

Misure di tendenza non centrali

I Quartili dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo

• stesso numero di valori.

Il primo quartile, Q , è il valore per il quale 25% delle osservazioni sono minori e

• 1

75% sono maggiori di esso.

Q coincide con la mediana (50% sono minori, 50% sono maggiori).

• 2

Solo 25% delle osservazioni sono maggiori del terzo quartile.

• Quantili : il quantile di ordine α è il valore che permette di dividere la

• popolazione in due parti.

Missing values

I valori mancanti sono dati di cui non si conosce il valore, generati:

se la risposta non è stata data

- se la risposta è ambigua o fuori range

-

I valori missing vanno evitati/limitati: in ogni calcolo statistico le osservazioni

• con missing NON vengono usate (il problema si amplifica nell’analisi

multivariata).

Trattamento dei missing:

• eliminare tutti i questionari con una o più variabili missing: suggerito se si

- hanno abbastanza dati.

imputazione dei missing (sostituire i missing con media/mediana se

- variabile quantitativa, con moda se qualitativa); in ogni caso i valori

missing non dovrebbero superare il 5% del totale.

Misure di variabilità

Campo di variazione :

La più semplice misura di variabilità

• Differenza tra il massimo e il minimo dei valori osservati:

• Campo di variazione = X(massimo) – X(minimo)

Ignora il modo in cui i dati sono distribuiti.

• Sensibile agli outlier.

Differenza interquartile :

Possiamo eliminare il problema degli outlier usando la differenza interquartile.

• Elimina i valori osservati più alti e più bassi e calcola il campo di variazione del

• 50% centrale dei dati. o o

Differenza Interquartile = 3 quartile – 1 quartile

Varianza :

Media dei quadrati delle differenze fra ciascuna osservazione e la media .

Scarto quadratico medio :

Misura di variabilità comunemente usata.

• Mostra la variabilità rispetto alla media (radice quadrata della varianza).

• Ha la stessa unità di misura dei dati originali.

• Viene calcolato usando tutti i valori nel set di dati.

• Valori lontani dalla media hanno più peso (poiché si usa il quadrato delle

• deviazioni dalla media).

Le stesse considerazioni valgono anche per il calcolo della Varianza.

Coefficiente di variazione :

Misura la variabilità relativa.

• Sempre in percentuale (%).

• Mostra la variabilità relativa rispetto alla media.

• Può essere usato per confrontare due o più set di dati misurati con unità di

• misura diversa.

Forma della distribuzione

La forma della distribuzione si dice simmetrica se le osservazioni sono

• bilanciate, o distribuite in modo approssimativamente regolare attorno al

centro.

La forma della distribuzione è detta asimmetrica se le osservazioni non sono

distribuite in modo simmetrico rispetto al centro:

una distribuzione con asimmetria positiva (obliqua a destra) ha una coda che

• si estende a destra, nella direzione dei valori positivi.

Una distribuzione con asimmetria negativa (obliqua a sinistra) ha una coda

• che si estende a sinistra, nella direzione dei valori negativi.

Misure di forma della distribuzione

Descrive come i dati sono distribuiti.

• Misure della forma:

• Simmetrica o asimmetrica

Skewness : indice che informa circa il grado di simmetria o asimmetria di una

distribuzione.

γ=0 ditribuzione simmetrica;

– γ<0 asimmetria negativa (mediana>media);

– γ>0 asimmetria positiva (mediana<media).

Kurtosis : indice che permette di verificare se i dati seguono una distribuzione di tipo

Normale (simmetrica).

β=3 se la distribuzione è “Normale”;

– β<3 se la distribuzione è iponormale (rispetto alla distribuzione di una

– Normale ha densità di frequenza minore per valori molto distanti dalla

media);

β>3 se la distribuzione è ipernormale (rispetto alla distribuzione di una

– Normale ha densità di frequenza maggiore per i valori molto distanti dalla

media).

Analisi bivariata

Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle

variabili indagate:

variabili qualitative/quantitative discrete: tavole di contingenza (o a doppia

• entrata).

variabili quantitative: analisi di correlazione lineare.

• una variabile qualitativa e una quantitativa: confronto tra le medie.

Statistica descrittiva bivariata

Tabelle di contingenza : sono tabelle a doppia entrata; i valori riportati all’interno

della tabella sono le frequenze congiunte assolute, e la loro somma è pari al totale dei

casi osservati.

Dalla tabella si possono ricavare inoltre le distribuzioni marginali P (x ) e P (y ),

x i y j

sommando per riga e per colonna le frequenze congiunte. Le frequenze relative

congiunte P(x ,y ), sono pari al rapporto tra le frequenze assolute congiunte e il totale

i j

dei casi osservati.

Dalle tabelle di contingenza si possono ricavare ulteriori distribuzioni unidimensionali:

Frequenze subordinate ovvero la frequenza di osservare il carattere x

– dato il carattere y e viceversa. Formalmente:

P y|x (x ,y ) = P (x ,y ) / P x(x )

i j i j i

P x|y (x ,y ) = P (x ,y ) / P y(y )

i j i j j

Indipendenza statistica se al variare di X le distribuzioni subordinate (Y|X=x ) sono

i

tutte uguali tra loro e uguali alla marginale corrispondente, si può concludere che la

distribuzione del carattere Y non dipende da X. Nel caso di indipendenza statistica, la

frequenza relativa congiunta è pari al prodotto delle marginali corrispondenti:

P(x ,y )=P (x )P (y )

i j x i y j

L’indipendenza statistica è un concetto simmetrico: se vale per X, vale anche per Y. Se

si verifica, vuol dire che l’analisi bivariata di X (Y) non dà informazioni aggiuntive

rispetto all’analisi univariata.

Perfetta dipendenza unilaterale : ad ogni valore di X corrisponde un solo valore di

Y, ma non è detto che si verifichi il contrario. In generale, quando il numero di colonne

(valori assunti dalla Y) è inferiore al numero di righe (valori assunti dalla X) non è mai

possibile che X dipenda perfettamente da Y.

Perfetta dipendenza bilaterale : ad ogni valore di X corrisponde un solo valore di Y

e viceversa; la perfetta dipendenza bilaterale si può avere allora solo per matrici

quadrate.

Indici di connessione

Nella realtà è difficile che si verifichi la condizione di indipendenza statistica. Pertanto,

è utile disporre di indici che misurino il grado di connessione tra le variabili.

χ² (chi-quadrato) assume valore nullo se i fenomeni X e Y sono

– indipendenti. Risente del numero delle osservazioni effettuate quindi al

crescere di N, l’indice tende a crescere. Indice Chi Quadro è sempre

maggiore di 0 e cresce all’aumentare della dipendenza.

Cramer V: basato sul χ², è un indice relativo (non risente del numero di

– osservazioni). Assume valori compresi tra 0 e 1: 0 nel caso di

indipendenza statistica, e ten

Anteprima
Vedrai una selezione di 8 pagine su 35
Metodi quantitativi Pag. 1 Metodi quantitativi Pag. 2
Anteprima di 8 pagg. su 35.
Scarica il documento per vederlo tutto.
Metodi quantitativi Pag. 6
Anteprima di 8 pagg. su 35.
Scarica il documento per vederlo tutto.
Metodi quantitativi Pag. 11
Anteprima di 8 pagg. su 35.
Scarica il documento per vederlo tutto.
Metodi quantitativi Pag. 16
Anteprima di 8 pagg. su 35.
Scarica il documento per vederlo tutto.
Metodi quantitativi Pag. 21
Anteprima di 8 pagg. su 35.
Scarica il documento per vederlo tutto.
Metodi quantitativi Pag. 26
Anteprima di 8 pagg. su 35.
Scarica il documento per vederlo tutto.
Metodi quantitativi Pag. 31
1 su 35
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-P/08 Economia e gestione delle imprese

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher luca.franzini di informazioni apprese con la frequenza delle lezioni di Metodi quantitativi per economia, finanza e management e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università "Carlo Cattaneo" (LIUC) o del prof Saccardi Alberto.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community