Statistica Teoria
Statistica descrittiva – Distribuzione univariata
La statistica serve per descrivere delle distribuzioni attraverso degli aggregati sintetici. Ecco alcune definizioni di termini di statistica:
Definizioni di termini statistici
Distribuzione: Argomento della statistica. Le distribuzioni sono relative a dei fenomeni da studiare (cioè ai caratteri).
Carattere: Tipo di dati sul quale si concentra uno studio statistico. È quindi una variabile oggetto di studio. Esempi di caratteri sono: età, sesso, altezza, colore degli occhi, segno zodiacale... i caratteri sono i fenomeni che costituiscono un aggregato.
Popolazione: Gruppo preso in considerazione.
Campione: Parte della popolazione che viene presa in esame.
Unità statistiche: Elementi della popolazione.
Modalità: È il valore che assume il carattere in studio in una determinata osservazione. In altre parole, la modalità è il mezzo (numerico o letterario) con cui viene descritto un carattere.
Esempio: il carattere “sesso” ha due modalità: maschile e femminile. Il carattere “mezzo di trasporto” ha più modalità: treno, autobus, scooter... anche l'età ha più modalità: 14-15-16...
Frequenze
Frequenza assoluta (n): È il numero di volte in cui un dato si presenta.
Frequenza relativa (fi): La frequenza relativa di una modalità è il rapporto fra la frequenza assoluta della modalità e il numero totale (sommatoria) delle n (unità statistiche). Si calcola così: frequenza assoluta/ totale delle frequenze.
Le frequenze relative si possono scrivere in base 1 o in base 100 (se si scrivono in base 1 si usa la proporzione; se si scrivono in base 100 si usa la percentuale). È sempre meglio usare la proporzione.
Esempio di frequenza relativa: 7 studenti (frequenza assoluta) su 28 sono accompagnati in auto, quindi la frequenza relativa sarà 7/28 = 0,25 e se si vuole esprimerla in percentuale (moltiplico per 100): 25%, e ciò significa che su un campione di 100 studenti, 25 verrebbero in auto.
Tipi di caratteri
I caratteri possono essere di due tipi:
- Qualitativi: se vengono descritti con la modalità delle parole. I caratteri qualitativi sono anche denominati “mutabile statistica”.
- Esempio di carattere qualitativo: sesso, il paese di provenienza, il mezzo di trasporto usato...
- Quantitativi: se vengono descritti mediante la modalità dei numeri. I caratteri quantitativi sono denominati “variabile statistica”.
- Esempio di carattere quantitativo: età, peso, altezza...
I caratteri quantitativi possono essere a loro volta:
- Discreti: se possono assumere un numero finito di valori (numeri interi).
- Continui: se possono assumere infiniti valori (non solo i numeri interi).
I caratteri qualitativi possono essere:
- Nominali: se le parole sono disconnesse (es. regioni).
- Ordinali: se le parole sono rettilinee (es. stadi delle lesioni da pressione), quindi in ordine sequenziale.
Esempi di distribuzione tipologia
- Sede ospedaliera di ricovero soggetti colpiti di IMA: Qualitativa nominale
- Distribuzione età pazienti in TAO: Quantitativa discreta
- Distribuzione età della popolazione: Quantitativa continua
- Distribuzione nazionalità del padre studenti universitari: Qualitativa nominale
- Distribuzione confezione di aceinibitori descritti prima di un episodio di IMA: Quantitativa discreta
- Distribuzione titolo di studio dei ricoverati: Qualitativa ordinale
Notazioni
- X: variabile
- xi: Singola osservazione dove “i” identifica la posizione dell'osservazione
- n: Numerosità (“i” potrà assumere valori da 1 a n)
- Σ: Sommatoria di xi per i che va da 1 a n. Si intende la somma dei valori contenuti nella variabile x per tutte le osservazioni con “i” che va da 1 a 5.
n Σ x i=i 1 dove n = numerosità e ultima osservazione xi = variabile in studio i=1 significa la prima osservazione.
Indici di posizione centrale
Sono quegli indici che ci danno un'idea della tendenza centrale della distribuzione (ci permettono di trovare la media). La moda è la modalità o il valore cui corrisponde la frequenza massima (con il numero maggiore). A seconda della moda, le distribuzioni possono essere:
- Unimodali: presenta una sola moda (o modalità)
- Bimodali: presenta due mode
- Plurimodali: presenta più di due mode
Gli indici di posizione sono: mediana, percentile, quartile, media aritmetica, media ponderata.
Mediana
È il valore che:
- Se n è dispari occupa il valore centrale e divide la distribuzione in due parti uguali. P = (n+1)/2
- Se n è pari è la media aritmetica dei due valori centrali. P1= n/2 P2= n/2+1 Con P1 e P2 si trovano le posizioni (rango) dei valori centrali; la loro mediana sarà la media aritmetica dei due valori e non delle due posizioni.
La mediana è una modalità esclusiva delle variabili quantitative.
Esempio: 4 – 14 – 9 – 10 -13 – 1 – 7- 21 – 2 – 15 – 19 rango valore n= 11 è dispari quindi uso la formula: P = (n+1)/2 1 1 P = (11+1)/2 = 6 2 2 P=6 vuol dire che il valore mediano è in posizione 6 quindi è 10 3 4 Mettiamo che n=12 (pari) allora la formula era: 4 7 P1 = n/2 = 12/2 = 6 5 9 P2 = n/2+1 = 12/3 = 7 Le posizioni cui corrispondono i valori sono 6 e 7 6 10 quindi i valori sono 10 e 13; trovo la loro media: 7 13 (10+13)/2 8 14 9 15 10 19 11 21
Percentile
È un valore che divide la variabile X in studio in 100 parti. Si distinguono:
- Percentile di ordine 50 = mediana (perché divide in 2 parti)
- Quartile = divide la distribuzione in 4 parti
Quartile
Dividono la distribuzione in n/4. Per trovare i 3 quartili (P25-P50-P75) si applicano le seguenti formule:
- Se n è dispari: Q1 = (¼)(n+1)
- Q2 = (½) (n+1) = è la mediana
- Q3 = (¾) (n+1)
- Se n è pari: P1 = ¼ n; P2 = (¼ n) + 1 e così via...
Anche in questo caso Q1,Q2,Q3 sono le posizioni in cui si trovano i valori quartili.
Media aritmetica
È la media normale: ovvero la somma dei valori/numero dei valori.
La media aritmetica ponderata dà un peso alle diverse numerosità. La media ponderata è il rapporto tra somma dei prodotti dei numeri per i loro pesi e la somma dei pesi stessi. Il valore che otterremo sarà leggermente diverso rispetto alla media aritmetica. La media ponderata è particolarmente significativa quando i pesi servono per indicare l'importanza dei diversi valori. Si può anche dire che la media ponderata deriva dalla somma delle frequenze.
Esempio di media ponderata:
- Reparto N° pazienti Temperatura media
- Medicina A 21 37,8
- Medicina B 18 38,2
- Medicina C 28 37,7
La media ponderata si calcola così: 1 / somma del n° dei pazienti moltiplicato per la sommatoria (Σ) di (temperatura media per numero di pazienti, es: 37,8 * 21 + 38,2*18 + 37,7 * 28) = 1/ 67 (2537) = 2537 / 67 = 37,9. Questa è la media ponderata.
Indici di dispersione o indici di variabilità
Sono indici che permettono di misurare la variabilità e quindi di capire quanto i valori siano vicini o lontani rispetto alla posizione centrale. Gli indici di variabilità sono: campo di variazione (o range), differenza interquartile, scarto, devianza, varianza, deviazione standard, variazione media (o coefficiente di variazione).
Campo di variazione o range
Il campo di variazione di una sequenza di numeri è la differenza tra il valore massimo e il valore minimo (Xmax – Xmin).