Statistica sanitaria e analisi quantitativa
La statistica descrittiva è un metodo utilizzato per descrivere i dati e le relative caratteristiche, che organizza e sintetizza le osservazioni statistiche consentendo una visione di insieme delle caratteristiche generali di una serie di dati.
L’unità statistica è l’oggetto di osservazione del fenomeno di interesse. La popolazione è un insieme di unità che presentano alcune caratteristiche in comune.
Variabili e modalità
Una variabile è una caratteristica dell’unità statistica che, al variare dell’unità su cui è rilevata, può assumere almeno due valori. I valori che può assumere una variabile sono detti modalità. L’insieme di tali valori viene detto insieme delle modalità della variabile.
Classificazione delle variabili
- Qualitativa: le sue modalità sono espresse da nomi, aggettivi ed attributi. In questo caso si parla anche di mutabili.
- Sconnesse o nominali: modalità non ordinabili senza gerarchia (es.: sesso, gruppo sanguigno, colore degli occhi, professione).
- Ordinali: modalità ordinabili (es.: voto della licenza media, risposta ad un farmaco).
- Quantitativa: le sue modalità sono espresse da numeri.
- Discrete: lo spazio delle modalità è finito o numerabile (es.: numero di figli, numero di stanze di una casa, numero di auto).
- Continue: lo spazio delle modalità è teoricamente infinito e non numerabile (es.: altezza, età, peso, glicemia).
Frequenze e distribuzioni di frequenze
Se X è una variabile e x è una modalità osservata di X, si dice frequenza assoluta f di x il numero di volte che x risulta osservata sulle unità statistiche della popolazione. L’insieme delle coppie (x; f) è detta distribuzione di frequenza assoluta di X. Il campione considerato è pari a N = Σf e corrisponde alla somma delle frequenze assolute.
La frequenza relativa p di una modalità x, o di una classe di modalità (x - 1, x] di X, è la frazione o la proporzione di unità statistiche che presentano tale modalità, pari a p = f / N.
- 0 ≤ p ≤ 1 con j = 1, 2, 3, ..., N.
- N = Σp = 1.
Le frequenze relative facilitano la percezione del peso delle singole modalità e permettono il confronto tra popolazioni diverse. Se moltiplichiamo per 100 le frequenze relative, otteniamo le frequenze percentuali.
Le frequenze cumulative rappresentano la quantità di osservazioni che si possono contare sino ad un particolare intervallo o valore quando le osservazioni sono ordinate in ordine crescente. Sono date dalla frequenza assoluta della modalità considerata sommata alla frequenza cumulativa della modalità precedente.
Esercizio
| Oggetto | Peso (kg) | Distribuzione di frequenze assolute | Distribuzione di frequenze relative |
|---|---|---|---|
| 1 | 70 | 45 | 0.1 |
| 2 | 65 | 54 | 0.1 |
| 3 | 54 | 55 | 0.1 |
| 4 | 71 | 65 | 0.2 |
| 5 | 70 | 67 | 0.1 |
| 6 | 67 | 70 | 0.3 |
| 7 | 65 | 71 | 0.1 |
| 8 | 45 | Totale: 10 | Totale: 1 |
Esercizio
- Variabile di osservazione X: numero di famiglie residenti in un quartiere per numero di figli;
- Modalità: numero di figli con indice j da 1 a 7.
| Numero di figli | Numero di famiglie | Frequenza assoluta f | Frequenza relativa p | Percentuale % |
|---|---|---|---|---|
| 1 | 803 | 0.375 | 37.5% | |
| 2 | 945 | 0.441 | 44.1% | |
| 3 | 261 | 0.122 | 12.2% | |
| 4 | 89 | 0.041 | 4.1% | |
| 5 | 32 | 0.015 | 1.5% | |
| 6 | 12 | 0.005 | 0.5% | |
| 7 | 2 | 0.001 | 0.1% | |
| N = 2144 | N = 1 | N = 100% |
Classi di modalità
Per classe di modalità si intende ciascuno degli intervalli di prefissata ampiezza in cui risulta suddiviso l’insieme delle modalità di una variabile quantitativa.
- Aperta a destra e a sinistra: gli estremi sono esclusi dalla classe. Indicata con (a, b) o (a-b).
- Chiusa a destra e a sinistra: gli estremi sono inclusi nella classe. Indicata con [a, b] o [a-b].
- Chiusa a destra ed aperta a sinistra: soltanto l’estremo superiore dell’intervallo è incluso nella classe. Indicata con (a, b] o (a-b].
- Chiusa a sinistra ed aperta a destra: soltanto l’estremo inferiore è incluso nella classe. Indicata con [a, b) o [a-b).
L’utilizzo di classi di modalità è utile quando risulti necessario accorpare frequenze assolute troppo esigue in frequenze assolute per classi per cui si passa da una distribuzione di frequenza completa ad una distribuzione di frequenza ridotta.
Rappresentazioni grafiche
L’istogramma è la rappresentazione grafica di caratteri quantitativi continui in cui le modalità sono raggruppate in classi.
- Uguali: l’altezza dei rettangoli è proporzionale alla frequenza della classe corrispondente.
- Diverse: l’area dei rettangoli è proporzionale alla frequenza e non un’altezza proporzionale alla frequenza.
La frequenza specifica, o densità di frequenza, è data dal rapporto tra frequenza assoluta ed ampiezza della classe. La classe modale indica la classe con frequenza assoluta maggiore.
Misure sintetiche
Le misure sintetiche comprendono misure di posizione e misure di variabilità.
Misure di posizione
Sintetizzano la posizione di una distribuzione di frequenza mediante un valore reale rappresentativo della globalità del fenomeno e tale da riassumere gli aspetti ritenuti più importanti. Comprendono: moda, mediana, media e percentili.
La moda corrisponde alla modalità più frequente. Il calcolo della moda richiede di raggruppare le unità rispetto alle modalità del carattere. Risulta possibile calcolare la moda per ciascun tipo di carattere, anche per i caratteri sconnessi. Quando la moda rappresenta la modalità che compare con maggiore frequenza ha una distribuzione unimodale mentre nel caso di dati raggruppati in classi la moda si trova nella classe con il maggior numero di osservazioni. Quando ci sono più mode si ha una distribuzione multimodale.
La mediana è la modalità associata alla posizione centrale, ovvero è il valore che nella serie ordinata dei dati occupa l’osservazione di posizione e che ha il 50% delle osservazioni più piccole ed il 50% delle osservazioni più grandi. Il calcolo della mediana richiede l’ordinamento delle unità rispetto alle modalità del carattere. Risulta possibile calcolare la mediana per caratteri ordinabili ma non è possibile calcolare la mediana per caratteri sconnessi.
Per trovare la modalità in posizione centrale ci sono due metodiche diverse:
- Se N è dispari la posizione centrale corrisponde a (N + 1) / 2;
- Se N è pari abbiamo due posizioni centrali che corrispondono a: N / 2 e (N / 2) + 1. Individuate le due modalità che si trovano nelle due posizioni centrali per calcolare la mediana è sufficiente fare la media tra i due valori.
Esercizio
Calcolare la mediana dei seguenti dati.
| x | f | Frequenze cumulate |
|---|---|---|
| 7 | 4 | 4 |
| 8 | 6 | 10 |
| 13 | 3 | 13 |
| 15 | 1 | 14 |
| Totale | 14 | - |
Poiché N è 14, la mediana si trova tra le posizioni 7 ed 8. Osservando le frequenze cumulate, la prima a contenere la posizione 7 è quella corrispondente alla modalità 8 che è 10 mentre la prima che contiene la posizione 8 è sempre quella corrispondente alla posizione 8. Poiché i valori corrispondenti alle posizioni 7 ed 8 sono entrambi 8, la mediana è 8.