DEFINIZIONI
Unità statistica = unità elementare su cui vengono osservati i caratteri (es: il soggetto, la famiglia, l’azienda,…)
Collettivo o popolazione = insieme delle unità statistiche omogenee rispetto ad un fattore
Carattere = caratteristica osservata sull’unità statistica di un collettivo. Il carattere deve presentare
un’attitudine a variare.
Modalità del carattere = modo di manifestarsi del carattere sull’unità statistica. Le modalità devono essere
esaustive e non sovrapposte →
1. Modalità non numeriche CARATTERE QUALITATIVO:
→ sconnesso o nominale (religione, luogo di nascita, facoltà, diploma di scuola superiore, …)
Si può dire solo se due modalità sono uguali o diverse.
→ ordinato (grado di soddisfazione, titolo di studio, giudizio, …)
Le modalità possono essere ordinate, ma la distanza tra due modalità consecutive non è costante. Si
può dire che una modalità è a un livello superiore rispetto ad un’altra.
− rettilineo
− ciclico (direzione del vento, mesi dell’anno…)
→
2. Modalità numeriche CARATTERE QUANTITATIVO:
Sono ordinabili.
Possono essere misurati:
− su scala di intervalli: lo zero della scala non è assoluto ma arbitrario (es. temperatura, quoziente di
→
intelligenza, …) lo zero è una convenzione
− su scala di rapporti: lo zero della scala è assoluto (es. reddito, peso, altezza…)
Si suddividono in:
→
continui : insieme delle modalità ammissibili può essere messo in corrispondenza con (insieme dei
numeri reali); misurato attraverso uno strumento (es. peso, altezza, reddito, distanza, …)
→ discreti : insieme delle modalità ammissibili può essere messo in corrispondenza con N (insieme dei
numeri interi); misurato attraverso un conteggio (es. numero di figli, numero di cellulari un soggetto)
VARI TIPI DI COLLETTIVO:
• di stato o di movimento (si precisa un istante di tempo o un arco di tempo)
• empirico o teorico (tutte le unità sono osservabili o non osservabili)
• finito o infinito
COME ACQUISIRE I DATI
Rilevazioni:
→ SPERIMENTALI (Medicina, Fisica, Chimica)
1. Ipotesi di lavoro
2. Possibilità di controllo
→ OSSERVAZIONALI (indagini di mercato, sondaggi): nel campo economico-sociale i dati vengono
acquisiti attraverso delle osservazioni che possono anche essere delle indagini.
Principale tecnica attraverso cui acquisire informazioni su un fenomeno.
Permette di conoscere un collettivo, inteso come insieme di u.s. su cui si manifesta il fenomeno oggetto di
studio.
INDAGINE STATISTICA
In campo socio-economico l’indagine statistica serve per conoscere un collettivo di unità, inteso come insieme
di u.s. sulle quali si manifesta il fenomeno oggetto di studio.
→ Indagine Totale o Censuaria = caratteri rilevati su tutte le u.s. del collettivo, es. il censimento. Richiede un
enorme lavoro sia in termini di tempo che in termini economici.
→ Indagine Campionaria = caratteri rilevati su un sottoinsieme di u.s. del collettivo, chiamato campione.
Dato un insieme di caratteri di interesse e una popolazione di riferimento, l’indagine va a osservare/misurare
le manifestazioni (o modalità) dei caratteri sulle singole unità statistiche. La statistica esiste dove ci sono i dati.
Il suo compito è quello di estrarre dai dati, informazioni utili a prendere decisioni!
FASI DELL’INDAGINE
1. Definizione degli obiettivi
− Definizione delle unità e delle variabili da rilevare
− Scelta del periodo di riferimento
2. Individuazione della popolazione e della lista delle unità statistiche
3. Definizione del piano di campionamento
4. Raccolta dei dati
− Scelta della tecnica di rilevazione
− Formulazione del questionario e pretest
− Rilevazione sul campo
5. Registrazione dei dati
− Registrazione su supporto magnetico
− Controllo e correzione
6. Elaborazione e analisi dei dati
La RACCOLTA DELLE INFORMAZIONI può essere completa oppure parziale.
È completa quando si esaminano tutte le unità statistiche che compongono la popolazione oggetto di studio.
Pregi:
− Accuratezza delle stime
− Ricchezza delle informazioni raccolte
− Esaustività
Difetti:
− Costo elevato
− Tempi di elaborazione dei dati molto lunghi
− Qualità dei dati non elevata
È parziale quando ci si limita a studiare un sottoinsieme, detto “campione” dell’insieme di riferimento.
Pregi:
− Continuità della rilevazione
− Economicità
− Indagini più mirate e approfondite
Difetti:
− Riferimento territoriale non spinto
− Variabilità campionaria
La statistica descrittiva fornisce gli strumenti per sintetizzare ed esplicitare in forma corretta il modo in cui il
fenomeno si è manifestato nel collettivo osservato.
Mediante l’inferenza statistica è possibile misurare e controllare l’attendibilità delle informazioni provenienti
→
da un campione. estrazione del campione
L’inferenza consiste nell’analizzare i dati del campione con l’obiettivo di estenderli a tutta la popolazione.
MATRICI
La stessa modalità può essere ripetuta nella stessa colonna anche molte volte.
Ogni colonna corrisponde alla distribuzione unitaria del carattere:
, , …, dove indica la modalità del carattere X osservata in corrispondenza dell’unità statistica i-
,
1 2
sima con i = 1, 2, …, n.
Scelto un carattere X tra quelli disponibili, dalla tabella è sempre possibile individuare la modalità assunta da
ogni unità statistica del collettivo.
Scelta una unità statistica del collettivo, è sempre possibile individuare la modalità che questa unità presenta
in corrispondenza di ogni carattere considerato.
DISTRIBUZIONE STATISTICHE
Le distribuzioni statistiche descrivono il modo in cui uno o più caratteri si manifestano in un dato collettivo.
− →
un singolo carattere distribuzioni semplici
− →
due caratteri distribuzioni doppie
− →
più di due caratteri distribuzioni multiple
L’elenco delle modalità osservate, unità per unità si chiama distribuzione unitaria.
FREQUENZE ASSOLUTE
→ Frequenza assoluta
Numero di volte in cui la modalità di un carattere viene osservata nel collettivo di numerosità n, per cui:
∑ =
=1
k indica il numero delle modalità tra loro diverse, presenti nella distribuzione unitaria
=frequenza assoluta della prima modalità
1 =frequenza assoluta della j-esima modalità
n = numero totale delle unità statistiche
→ Distribuzione delle frequenze assolute
Associa alle modalità che può assumere un carattere X le corrispondenti frequenze assolute.
La distribuzione di frequenza è una tabella dove sulla prima colonna abbiamo l’elenco delle modalità del
carattere X, sulla seconda colonna abbiamo le frequenze assolute.
FREQUENZE RELATIVE
→ Frequenza relativa
È data dal rapporto tra la frequenza assoluta e la numerosità n del collettivo, per cui:
= ∑ = 1
→
=1
< <
Se si moltiplicano le frequenze relative per 100 si ottengono le percentuali
Le frequenze relative indicano la proporzione delle unità statistiche con una certa modalità
→ Distribuzione delle frequenze relative
Associo alle modalità che può assumere un carattere X le corrispondenti frequenze relative
FREQUENZE CUMULATE
La frequenza cumulata di una modalità è data dalla somma della frequenza con quella delle modalità
precedenti. Le frequenze cumulate hanno senso se le modalità del carattere sono ordinabili.
Possono essere calcolate solo quando le modalità sono ordinabili (caratteri qualitativi ordinati e tutti i caratteri
quantitativi).
→ Frequenze assolute cumulate
= ∑
=1
→ Frequenze relative cumulate
= ∑
=1
DISTRIBUZIONE DI FREQUENZA
Con =
1 1
=
+
2 1 2
= Numero di unità statistiche con modalità ≤
3 3
DISTRIBUZIONE DI QUANTITÀ
Si parla di distribuzione di quantità quando viene ripartita una quantità totale e non la totalità delle unità
statistiche.
SERIE STORICHE
Si parla di serie storica quando un carattere viene osservato in istanti di tempo successivi.
SERIE TERRITORIALI
Si parla di serie territoriali quando un carattere viene osservato in luoghi geografici differenti. Come si
distribuisce un carattere in differenti aree geografiche.
RAPPRESENTAZIONI GRAFICHE
1. Grafici a nastri per caratteri qualitativi non ordinati
Asse x (ordinato): frequenze assolute o relative
Asse y (non ordinato): modalità (la distanza fra di esse non è importante)
MODA= modalità che ha frequenza più elevata
2. Grafici a barre per caratteri qualitativi ordinati
Asse x (ordinato): modalità (la distanza fra di esse non è importante)
Asse y (ordinato): frequenze assolute o relative
3. Grafici a bastoncini (o a spilli) per caratteri quantitativi discreti
Asse x (ordinato): modalità (la distanza fra di esse è importante) numeriche
Asse y (ordinato): frequenze assolute o relative
4. Grafici ad aree per caratteri quantitativi continui nel tempo
5. Istogrammi per caratteri quantitativi con modalità in classi
Asse x (ordinato): classi di modalità (i rettangoli non sono distanziati)
Asse y (ordinato): densità di frequenza (assolute o relative)
Per ogni rettangolo l’area è pari alla frequenza della classe Le densità di frequenza sono pari al rapporto
ℎ
tra la frequenza assoluta (o relativa) e l’ampiezza di classe , data dalla differenza tra estremo superiore ed
estremo inferiore della classe
ℎ =
6. Grafici a torta per caratteri qualitativi non ordinati o ordinati ciclici
7. Grafici radar per caratteri ciclici
8. Cartogrammi per serie territoriali
9. Diagrammi cartesiani per serie storiche
LA STATISTICA UNIVARIATA
La statistica inferenziale ci dice invece come trasferire le informazioni raccolte su un campione alla
popolazione.
La statistica descrittiva è l’insieme degli strumenti per studiare un insieme di dati.
La statistica descrittiva si divide in 3 parti: univariata, bivariata e multivariata.
La statistica univariata si descrive il carattere mediante:
1. I grafici
2. Le medie
3. La variabilità
4. I numeri indici
5. L’asimmetria
Le medie permettono di sintetizzare attraverso un solo valore le modalità di una distribuzione di dati (unitaria
o di frequenza) e forniscono informazioni sull’ordine di grandezza di un carattere.
La media è un valore di sintesi, che cerca di descrivere con un solo valore un insieme più grande di valori.
→ MEDIE ANALITICHE: aritmetica, geometrica…
Calcolate solo per caratteri quantitativi, richiedono operazioni algebriche sulle modalità
→ MEDIE DI POSIZIONE: moda, mediana, percentili
Calcolate sia per caratteri qualitativi che quantitativi, non richiedono operazioni algebriche sulle modalità
LE MEDIE ANALITICHE
1. LA MEDIA ARITMETICA
La media aritmetica di un insieme di n valori , , …, (distribuzione unitaria) di un carattere
,
1 2
quantitativo X è data da: con qualsiasi numero reale
= somma dei valori diviso n
Se il carattere X è rappresentato tramite una distribuzione di frequenza:
Non divido per n perché ho già diviso nel calcolo delle frequenze relative.
VALORE CENTRALE DI CLASSE
Nel caso di una distribuzione di frequenze per un carattere X con modalità in classi, possiamo approssimare la
media utilizzando come modalità il valore centrale della classe (dato dalla semisomma tra l’estremo inferiore
e l’estremo superiore.
LA MEDIA ARITMETICA PONDERATA
La media aritmetica ponderata di un insieme di valori k osservati (j=1,2, ..., k) di un carattere quantitativo X
con pesi non negativi è data da:
La media aritmetica dipende da tutti i valori osservati, attribuisce cioè lo stesso peso ad ognuno degli n valori,
e quindi risente dei valori estremi (valori anomali o outliers). I valori non hanno tutti lo stesso peso.
La media aritmetica sintetizza la distribuzione di un carattere con un solo valore.
PROPRIETÀ DELLA MEDIA ARITMETICA
proprietà di Cauchy
1. La media aritmetica gode della :
con se e solo se la distribuzione è degenere, cioè se tutte le unità statistiche
presentano la stessa modalità.
La media aritmetica è compresa tra il valore minimo e il valore massimo dei valori osservati.
L’unico caso in cui la media corrisponde sia al valore minimo che al valore massimo è quando la
distribuzione è degenere, ovvero tutte le unità osservate sono tra loro uguali.
2. La somma dei valori osservati è uguale al valore medio moltiplicato per il numero di unità:
per cui si può dire che la media aritmetica lascia invariata la somma dei valori osservati.
La media è quel valore che se sostituito a tutte le unità ne lascia invariata la somma.
3. La somma delle differenze tra i valori e la loro media aritmetica è pari a zero:
Proprietà di minimo
4. : la somma degli scarti al quadrato dei valori da una costante c è minima quando c è
uguale alla media aritmetica:
f(c)
min c proprietà associativa
5. La media aritmetica gode della :
un collettivo viene suddiviso in L sottoinsiemi disgiunti, allora la media complessiva è pari alla media
ponderata delle medie dei sottoinsiemi con pesi pari alla numerosità di ogni sottoinsieme :
Calcolo la media aritmetica per ogni gruppo. La media complessiva è uguale alla media aritmetica
ponderata delle medie dei sottogruppi.
6. La media aritmetica è un operatore lineare:
nnn con a, b numeri reali
La media della trasformazione lineare è la trasformazione lineare della media.
2. LA MEDIA GEOMETRICA
La media geometrica di un insieme di n valori , , …, ( > 0: può essere calcolata solo se tutti i valori
,
1 2
sono strettamente positivi!) di un carattere quantitativo X è data da:
Se il carattere è rappresentato mediante una distribuzione di frequenza:
con frequenze assolute
con frequenze relative
LE PROPRIETÀ DELLA MEDIA GEOMETRICA
proprietà di Cauchy
1. La media geometrica gode della :
con se e solo se la distribuzione è degenere.
La media geometrica è compresa tra il valore minimo e il valore massimo.
2. Il prodotto dei valori osservati è uguale al valore medio elevato al numero di unità:
La media geometrica lascia invariato il prodotto delle unità.
3. Il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi dei valori osservati:
4. La media aritmetica è sempre inferiore o uguale alla media aritmetica:
Con se e solo se la distribuzione è degenere.
LA TRIMMED MEAN = media troncata
La trimmed mean è la media aritmetica calcolata su una fissata percentuale di valori centrali di un insieme di
dati, in modo da eliminare l’influenza dei valori anomali.
Non considero nel calcolo della media valori che possono essere molto grandi o molto piccoli rispetto agli
altri.
Ad esempio nella trimmed mean al 90%, si escludono il 5% dei valori più piccoli e il 5% dei valori più grandi.
Esempio
Con valori del carattere (3, 5, 5, 6, 8, 8, 9, 150) la trimmed mean sarà ottenuta escludendo il valore più
piccolo e il valore più grande.
LE MEDIE DI POSIZIONE
1. LA MODA
La moda può essere calcolata per qualsiasi tipo di carattere (qualitativo o quantitativo).
Per caratteri qualitativi e quantitativi con modalità non in classi, la moda (o valore modale) è la modalità
prevalente, cioè la modalità a cui corrisponde la frequenza più elevata.
Per caratteri quantitativi con modalità in classi, la moda è la classe (classe modale) a cui corrisponde la densità
di frequenza più elevata. Spesso si considera come moda il valore centrale della classe modale.
La densità di frequenza è il rapporto tra la frequenza e l’ampiezza di classe.
La moda fornisce informazioni solo su una modalità del carattere, quella prevalente, e ignora le altre
La moda dipende solo dalle frequenze
La moda acquista validità solo se vi è una netta prevalenza di una modalità rispetto alle altre
La moda non esiste se tutte le modalità hanno la medesima frequenza/densità o se queste sono molto simili
Esistono distribuzioni bimodali o plurimodali.
2. LA MEDIANA
È la modalità presentata dall’unità centrale in un collettivo ordinato di valori ( con i= 1, 2,... ,n).
≤
+1
Essa divide il collettivo in due sottoinsiemi di uguale numerosità: uno con modalità di ordine più basso e
l’altro con modalità di ordine più alto.
Per questo la mediana è definita solo pe
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.