Statistica capitolo 1
La rilevazione dei fenomeni statistici
Caratteri unità statistiche e collettivo
La statistica è la scienza che studia in termini qualitativi i fenomeni collettivi, ossia i fenomeni il cui studio richiede l’osservazione di un insieme di statistiche individuali.
| Nome | Età | Sesso | Titolo di studio | Attività | Peso | Punteggio esercizi |
|---|---|---|---|---|---|---|
| Rossi | 32 | M | Laurea | Occupato | 72 | 65 |
| Bianchi | 39 | F | Laurea | Occupato | 55 | 55 |
| Nicoletti | 46 | M | Diploma | Disoccupato | 79 | 53 |
| Marcelli | 28 | M | Diploma | Studente | 63 | 78 |
| Petrone | 51 | F | Diploma | Casalinga | 64 | 21 |
Come si evince dalla tabella, nome, età, sesso, titolo di studio, attività, peso, punteggio sono le caratteristiche di un individuo. Questi caratteri assumono ad ogni individuo delle modalità (es. carattere = peso, modalità = 72). Le modalità possono essere numeriche che non numeriche. Nella tabella l’individuo è l’unità elementare (unità statistica) su cui sono osservati i caratteri. Un insieme di unità statistiche omogenee rispetto a uno o più caratteristiche costituisce un collettivo statico o una popolazione. I collettivi possono essere di stato (si individuano solo se si fissa un istante di tempo) o di movimento (se si parla di un intervallo di tempo). Le popolazioni possono anche essere empiriche (se osservabili) o teoriche, e possono racchiudere insiemi finiti o infiniti.
Classificazione dei caratteri statistici
Un carattere può assumere modalità differenti in corrispondenza delle diverse unità statistiche del collettivo. Le modalità devono essere esaustive (devono rappresentare tutti i possibili modi di manifestarsi di un carattere) e non sovrapposte (se ad ogni unità si può associare una sola modalità).
- Quantitativo (variabile)
- Caratteri con scala a intervalli: non esiste uno zero assoluto o arbitrale (temperatura in gradi centigradi)
- Caratteri con scala a rapporti: esiste uno zero assoluto (peso)
- Caratteri discreti: l’insieme delle modalità può essere messo in corrispondenza biunivoca con un sottoinsieme di numeri interi (numero dei figli)
- Caratteri continui: l’insieme di modalità può essere messo in corrispondenza biunivoca con un insieme di numeri reali (altezza)
- Caratteri trasferibili: si dice trasferibile se considerata un’unità statistica possa cedere tutto o in parte il suo carattere a un’altra unità statistica
- Caratteri non trasferibili
- Qualitativo (mutabile)
- Carattere sconnesso: se date due sue modalità è solo possibile affermare se queste sono uguali o diverse (sesso)
- Carattere ordinato: se date due sue modalità è possibile solo dare un ordine specificando che una precede l’altra (titolo di studio)
- Caratteri ordinati rettilinei che hanno una modalità di inizio e di fine
- Caratteri ordinati ciclici che possono essere ordinati ma non hanno un inizio o una fine (es. mese di nascita)
Suddivisione in classi di un carattere quantitativo
Se il carattere che si vuole analizzare presenta moltissime modalità distinte, si possono avere notevoli difficoltà nella comprensione dei dati osservati; in questi casi può essere conveniente fare un accorpamento delle modalità. Se il carattere è quantitativo si procede alla suddivisione in classi che consiste nel suddividere l’insieme dei possibili valori in intervalli tra loro disgiunti. Così il carattere quantitativo passa da un livello di misura su scala di intervalli a un livello ordinale. Le classi sono caratterizzate da un’ampiezza che si intende la differenza tra estremo superiore e estremo inferiore.
È opportuno definire le classi in modo tale che:
- Il numero sia abbastanza piccolo da fornire una sintesi adeguata ma sufficientemente grande da mantenere l’informazione con un livello accettabile;
- Siano tra loro disgiunte;
- Comprendano tutte le possibili modalità del carattere;
- Abbiano se possibile la stessa ampiezza.
Capitolo 2
Distribuzione di un carattere e sua rappresentazione
Dalle distribuzioni unitarie alle distribuzioni di frequenza
Dopo le fasi di acquisizione e di registrazione dei dati si passa alla loro elaborazione. La distribuzione unitaria semplice di un carattere è l’elencazione delle modalità osservate, unità per unità, nel collettivo preso in esame. Invece la distribuzione unitaria multipla si riferisce a più di un carattere. Per ottenere una maggiore sintesi delle modalità è utile scrivere una frequenze assolute (le modalità di un carattere vengono indicate con il numero di volte che si presentano). Tramite le frequenze possiamo ottenere una rappresentazione molto più sintetica una distribuzione di frequenze. Le distribuzioni di frequenza si dividono in:
- Semplici se è riferita ad un unico carattere
- Doppia se riferita a due caratteri congiuntamente
- Multipla se è riferita a più di due caratteri.
Frequenze relative, percentuali e cumulate
Dalle frequenze assolute si passa ad altre frequenze come quelle relative e percentuali; la prima è la frequenza assoluta diviso il numero di modalità osservate la seconda è la frequenza relativa per 100. Le frequenze relative e percentuali diventano significative se si vogliono confrontare due o più collettivi rispetto ad un carattere.
Data n unità statistiche dove n presentano la j-esima modalità, si definisce la frequenza relativa j-esima fj=nj/n, e frequenza percentuale pj = fj . 100. La somma delle relative è pari a 1 invece delle percentuali è 100.
Nel caso in cui le modalità di un carattere in esame siano ordinate si può usare la distribuzione di frequenza cumulata che consiste nella somma di tutte le frequenze relative delle modalità precedenti. Dato un carattere X con K modalità ordinate in senso crescente, si indica con Nj = n1 + n2 + … + nj la frequenza assoluta cumulata, con Fj = f1 + f2 + … + fj la frequenza relativa cumulata e con Pj = p1 + p2 + … + pj la frequenza percentuale cumulata.
Capitolo 3
Sintesi delle distruzione di un carattere – le medie
La media aritmetica
Nel caso in cui il carattere è quantitativo, la media più usata è la media aritmetica indicata con x̄. La media aritmetica di un insieme di n valori osservati di un carattere quantitativo X è pari alla somma dei valori osservati divisa per il loro numero: x̄ = (x1 + x2 + … + xm)/n.
Se il carattere è suddiviso in classi al posto della media aritmetica si può trovare il valore centrale, ossia il valore che si ottiene dalla semisomma degli estremi: x̄ = ∑cjnj dove cj è il valore centrale della classe e nj è la corrispondente frequenza assoluta. In alcuni casi si può dare importanza diversa alle diverse osservazioni attribuendogli un peso specifico in questo caso si usa la media ponderata x̄ = (x1p1 + x2p2 + … + xnpn)/(p1 + p2 + … + pn).
Ci sono alcune proprietà della media aritmetica molto importanti:
- La somma dei valori assunti da un insieme di unità statistiche è uguale al valore medio moltiplicato per le unità
- La somma delle differenze tra i valori delle x e la loro media aritmetica x̄ è pari a zero
- La somma degli scarti al quadrato dei valori xi da una costante c è minima quando c è uguale alla media aritmetica.
La media geometrica
La media geometrica è una media analitica utilizzata soprattutto nel caso in cui l’insieme dei dati è costruito da valori positivi generati da rapporti. La media geometrica di un insieme di n valori positivi x1, x2, …, xn di un carattere quantitativo X è pari alla radice n-esima del prodotto dei singoli valori: X = (x1x2…xn)1/n.
Le proprietà della media geometrica sono:
- Il prodotto dei valori assunti da un insieme di unità statistiche è uguale alla potenza n-esima della media geometrica
- Il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi.
La mediana
La mediana è una media aritmetica un po’ più “robusta” poiché non è condizionata dai valori più estremi. La mediana (M) di un insieme di unità ordinate è la modalità presentata dall’unità centrale, dove per unità centrale si intende quell’unità che divide il collettivo in due parti di uguale numerosità.
Per calcolare la mediana è necessario procedere nel seguente modo:
- Ordinare le n unità in senso crescente rispetto alle modalità del carattere;
- Individuare la posizione in graduatoria dell’unità centrale: se n è dispari, la posizione è (n+1)/2; se n è pari, si hanno due unità centrali con posizione n/2 e (n/2)+1;
- Osservare la modalità presentata dall’unità centrale: se n è pari, la mediana è M = (xn/2 + x(n/2)+1)/2.
Se l’unità statistica è visualizzata dalle frequenze, la mediana si trova così:
M ≈ I + ((0,5-Fm-1)/Fm-Fm-1)Δm.
- I è l’estremo inferiore della classe mediana;
- Fm-1 è la frequenza relativa cumulata fino alla classe precedente a quella mediana;
- Fm è la frequenza relativa cumulata fino alla classe mediana;
- Δm è l’ampiezza della classe mediana.
La moda
La moda è una media di posizione che può essere calcolata per qualsiasi tipo di carattere, in particolare anche per i caratteri qualitativi sconnessi. La moda è la modalità più frequente nel collettivo osservato. Anche se la moda ci dice quale è il carattere più frequente nell’unità, non ci dice però niente sugli altri caratteri. Per un’accuratezza migliore si può usare la classe modale che è definita come la classe alla quale corrisponde la frequenza più alta. Una distribuzione si dice unimodale se presenta un solo picco e bimodale se presenta due picchi di medesima altezza.
I percentili (quartili)
La mediana divide la distribuzione in due parti uguali, ognuna contenente il 50% delle unità. Si può dividere la distribuzione anche in cento parti, chiamando i valori suddivisi percentili. Si definiscono percentili quei valori che dividono la distribuzione in cento parti di uguale numerosità. In questa definizione si può considerare la mediana come cinquantesimo percentile. I percentili di uso più frequente sono il 25esimo e il 75esimo, detti primo quartile (Q1) e terzo quartile (Q3).
Se la distribuzione di frequenza è suddivisa in classi, non è possibile trovare l’esatto valore del quartile, ma possiamo avvalerci di una sua approssimazione, con la seguente formula:
Q ≈ I + ((0,25 - FQ1-1)/(FQ1 - FQ1-1))ΔQ1.
Capitolo 4
Sintesi della distribuzione di un carattere - la variabilità
La variabilità di una distribuzione
Come si sa la media è un indice che sintetizza la distribuzione del carattere, ma questo avviene soltanto se le unità presentano modalità vicine alla media. Bisogna quindi vedere il concetto di variabilità di un fenomeno. La variabilità di una distribuzione esprime la tendenza delle unità del collettivo ad assumere diverse modalità del carattere. Per misurare la variabilità di una distribuzione è possibile utilizzare degli indici di variabilità. Questi indici devono soddisfare almeno due requisiti:
- Deve assumere il suo valore minimo se e solo se tutte le unità della distribuzione presentano uguale modalità del carattere;
- Deve aumentare all’aumentare della diversità tra le due modalità assunte.
Indici basati sullo scostamento dalla media aritmetica
Tra gli indici di variabilità sono molto usati quelli che considerano le diversità dalla media aritmetica; la più nota è la varianza. La varianza di un insieme di n valori osservati x1, x2, …, xn di una variabile X con media aritmetica x̄ è data da:
σ² = (1/n) ∑(xi - x̄)²,
dove la varianza aritmetica è la media dei quadrati degli scarti della media aritmetica. Il numero della varianza è detto devianza. La deviazione standard è la radice quadrata della varianza:
σ = √σ².
Con questa operazione ci si riconduce a un indice di variabilità espresso nella stessa unità di misura della variabile considerata.
Il coefficiente di variazione CV della distribuzione di un carattere X di media x̄ > 0 e deviazione standard è dato dal rapporto tra la deviazione e la media moltiplicato per 100:
CV = (σ/x̄) . 100.
Altre misure di variabilità sono gli scostamenti semplici medi che si ottengono come media aritmetica delle differenze in valore assoluto tra i valori osservati e una media.
Si definisce scostamento semplice medio dalla media aritmetica la quantità:
Sx̄ = (1/n) ∑|xi - x̄|.
Si definisce scostamento semplice medio dalla mediana la quantità:
SMe = (1/n) ∑|xi - M|.
Anche in questo caso ci sono i due rispettivi indici percentuali:
Sx̄ . 100/x̄, SMe . 100/M.
C’è una relazione che lega lo scostamento semplice medio dalla media aritmetica e la deviazione standard infatti si dimostra che:
Sx̄ ≤ σ.
Il teorema di Chebyshev e la standardizzazione
Ci si può chiedere quali informazioni una media e un indice di variabilità ci forniscano congiuntamente su una distribuzione incognita. Se come media e indice di variabilità usiamo la media aritmetica x̄ e la deviazione standard σ, possiamo utilizzare il teorema di Chebyshev. Questo noto teorema afferma che, dato un carattere di cui si conoscono solamente la media aritmetica e la dev. sta., la frequenza relativa delle unità che presentano valori esterni a un intervallo simmetrico rispetto alla media non può essere superiore a una certa quantità. Data una distribuzione di valori dei quali si conoscono solo la media e la deviazione standard e dato un valore reale positivo k possiamo affermare che:
f(|xi - x̄| ≥ kσ) ≤ 1/2k²,
dove con f si intende la frequenza relativa dei valori del carattere X che soddisfano la diseguaglianza all’interno della parentesi. Al teorema di Chebyshev è collegato un altro teorema, quello di Markov.
Data una variabile X che assume solo valori non negativi xi dei quali è nota la media x̄, dato un qualsiasi valore a > 0, possiamo affermare che:
f(X ≥ a) ≤ x̄/a.
La concentrazione
Un carattere quantitativo trasferibile X con n valori osservati x1, x2, …, xn si dice equidistribuito se ognuna delle n unità possiede uno A/ndell’ammontare complessivo del carattere A = ∑xi, ossia per ogni i sia che xi = x̄.
Se non si verifica l’equidistribuzione, sussiste un certo grado di concentrazione del carattere, che non può essere misurato tramite opportuni indici. La concentrazione del carattere evidenzia in modo più efficace e più interpretabile la variabilità dei caratteri trasferibili. In effetti, tanto più un carattere è concentrato, tanto più è elevata la variabilità del carattere. La situazione di massima concentrazione si ha quando l’intero ammontare del carattere A è posseduto da una sola unità del collettivo, e cioè: x1 = x2 = … = xn-1 = 0 e xn = A.
Si consideri un carattere quantitativo trasferibile X osservato su un quantitativo di n unità, ordinate in senso non decrescente secondo l’ammontare di carattere posseduto, ossia:
x1 ≤ x2 ≤ … ≤ xn.
Indichiamo con:
- Ai = x1 + x2 + … + xi l’ammontare di carattere posseduto dalle i unità più povere.
- Qi = Ai/A la corrispondente frazione di ammontare.
- Fi = i/n la frequenza relativa cumulata delle prime i unità.
Qi e Fi hanno una stretta relazione evidenziata dalle seguenti proprietà:
- Fi ≥ Qi per ogni i.
- Fn = Qn = 1, oppure per ogni i se x1 = x2 = … = xn.
Possiamo sintetizzare tali differenze attraverso il seguente indice:
C = ∑(Fi - Qi) per i = 1, 2, …, n-1.
Notiamo che la sommatoria arriva fino al termine (n-1)esimo poiché l’ennesima differenza è sempre uguale a zero, essendo Qn = Fn = 1. Questo indice assume valore minimo quando tutte le differenze sono uguali a zero, cioè nel caso di equidistribuzione, e il suo valore di massimo nel caso di massima concentrazione, cioè quando Qi = 0.
Per trasformare l’indice C in un indice di concentrazione negativo (variabile tra 0 e 1), basterà dividerlo per il suo massimo valore (rapporto di concentrazione di Gini). Date le distribuzioni delle Fi e delle Qi relative alla distribuzione di un carattere quantitativo trasferibile X, osservato su n unità, con valori ordinati x1, x2, …, xn (con x1 ≤ x2), si definisce rapporto di concentrazione di Gini l’indice:
R = 1 - (∑i=1n-1 Qi/<∑i=1n-1 Fi).
Mediante le coppie di valore Qi e Fi possiamo realizzare un grafico. Si consideri un piano cartesiano, in cui l’asse delle ascisse rappresenti i valori di Qi e Fi.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.