La statistica affronta problemi non deterministici, sono dei fenomeni non totalmente prevedibili si usa
quando si vuole fare una predizione
1. Raccogliere i dati
2. Riassumere e descrivere
3. Trovare degli indicatori che mi permettano di rispondere al quesito iniziale
È importante il concetto di variabilità
- Variabilità strumentale legata alla procedura e a chi rileva i dati.
- Variabilità biologica intrinseca al netto dell’errore di misura
CASO: pressione arteriosa del bambino
La variabilità strumentale può essere ridotta addestrando il personale che effettua le misurazioni, la
variabilità biologica può essere studiata andando ad individuare i fattori che possono modificare la
pressione arteriosa stessa (età, altezza, classe ponderale, famigliarità…)
Si definisce un universo ( popolazione di riferimento) che consiste nella totalità delle unità statistiche dove
si manifestano certe caratteristiche che si desidera studiare.
Il campione è il sottoinsieme della popolazione che si vuole studiare, il campione non deve essere
selezionato, ma deve essere scelto in modo casuale. il campione deve essere rappresentativo della
popolazione
Si definisce variabile ogni caratteristica che voglio andare a studiare mediante la sua conoscenza sulle unità
statistiche (ad esempio altezza e sesso) variabili con lettera maiuscola, ogni singolo dato andrà scritto in
minuscolo
Le variabili si dividono in variabili quantitative e variabili qualitative, a loro volta le variabili quantitative si
dividono in:
- Variabili discrete assumono come valore un qualsiasi numero naturale
- Variabili continue assumono come valore un qualsiasi numero reale
Le variabili qualitative possono essere suddivise in:
- Nominali prive di orientamento naturale (sesso, colore degli occhi)
- Ordinali possiedono un ordinamento naturale (titolo di studio…)
Il confine tra una variabile e l’altra non è netto a volte delle variabili continue vengono rese discrete
TABELLE DI FREQUENZA E RAPPRESENTAZIONI GRAFICHE
Prendiamo in considerazione dei dati derivanti da uno studio sulla sindrome metabolica (383 bambini)
- Ppas = pressione sistolica variabile quantitativa
- Acole qualitativo ordinale
Normopeso NW
o Sovrappeso OW
o Obeso OB
o
I dati devono essere riassunti per poter fare delle osservazioni
- Tabella di frequenza conteggiati il numero di bambini con le diverse modalità
vengono
Le frequenze assolute sono utili per una prima osservazione del fenomeno, ma è utile calcolare le
frequenze relative prendendo la frequenza assoluta e dividendola per il totale la somma delle frequenze
relative è 1. Per passare alle frequenze percentuali è sufficiente moltiplicare per 100.
Per la rappresentazione grafica si utilizza un grafico a torta sezioni proporzionali alla percentuale di
soggetti con le diverse modalità (NW OW OB).
In alternativa si possono usare dei diagrammi a barre, la base è decisa dal software e non ha nessun rilevo,
l’altezza è proporzionale alla frequenza assoluta. La somma delle altezze è la dimensione dello studio
Il grafico a barre può essere creato usando le frequenze percentuali, questo è utile per fare delle
comparazioni tra studi. La somma delle altezze è 100.
VARIABILI CONTINUE
Andiamo ad analizzare la variabile pressione sistolica che è una variabile di tipo continuo.
Se vado a considerare le frequenze assolute non è significativo poiché è una variabile sparsa, può essere
utile raggruppare la variabile in classi (intervalli di pressione sistolica con una ampiezza definita). Ottengo
in questo modo una frequenza assoluta della classe. Le classi vengono rappresentate tra parentesi, la
aprentesi tonda indica che il valore non è incluso mentre la quadra indica che il valore è compreso
- (95, 100] classe aperta a sinistra e chiusa a destra per cui 95 è escluso e 100 è incluso
Il raggruppamento in classi può essere pensato come una discretizzazione di una variabile continua
Posso calcolare che le frequenze relative e moltiplicarle per 100 in modo da avere la percentuale di soggetti
che appartengono alle classi che ho costruito. Vi sono classi più popolate e classi meno popolate.
La rappresentazione grafica di una variabile continua raggruppata in classi è particolare istogramma.
Per interpretare un istogramma bisogna considerare che la serie di rettangoli hanno delle aree pari alle
frequenze relative di ciascuna classe, le basi sono delle basi che hanno una ampiezza pari alla grandezza
delle classi. L’altezza è regolata in modo tale che l’area del rettangolo sia apri alla frequenza relativa della
singola classe. L’altezza si ricava dividendo la frequenza relativa per l’ampiezza della classe. Si costruisce un
istogramma con un area totale sottesa pari a 1, questo è importante poi per procedere con una
approssimazione a gaussiana
Gli istogrammi possono avere dei buchi, ma solo
a causa dei miei dati, se faccio un istogramma
con classi più piccole vi saranno più buchi, se
diminuisco le classi i buchi si chiudono.
Se io moltiplico la base per la percentuale invece
che per la densità non mi da un significato,
invece se ho la densità ho una interpretazione
per l’area.
Il vantaggio di fare un istogramma in density è
che riesco ad approssimare ad una variabile
continua gaussiana
I gradini dell’istogramma sono fittizi perché
abbiamo deciso noi come dividere le classi
INDICI RIASSUNTIVI
Indici riassuntivi che si possono usare per descrivere una variabile continua rappresentata con un
istogramma, ci danno una idea della grandezza del fenomeno e della sua dispersione. Questi due numeri
possono sostituire un istogramma per una rappresentazione più compatta.
I due indici riassuntivi corredano l’istogramma
- dando un idea dell’orine di grandezza media aritmetica
- e della sua dispersione deviazione standard
la media è indicata con la lettera minuscola che rappresenta i singoli dati e poi si aggiunge una barra sopra
la lettera. La media è definita come la somma delle singole unità diviso per il numero delle unità in analisi.
È sempre compresa tra il minimo e il massimo valore dei nostri dati
È il baricentro di un fenomeno quantitativo, se si conservano le distanze dei valori della media si
ottrieranno alcuni valori negativi, alcuni positivi, alcuni nulli. La somma di queste distanze con segno è
sempre pari a zero.
La deviazione standard ci dice quanto un fenomeno è disperso rispetto alla propria media
- Fenomeni poco dispersi le singole x sono molto vicine ad x medio
- fenomeni molto dispersi
è la somma di x meno x medio al quadrato saranno sempre numeri positivi quindi la somma non sarà
zero. Queste distanze al quadrato sono sommate e divise per n.
la parte interna della radice quadrata è una nuova media aritmetica, è la distanza delle medie dai valori di
appartenenza elevate al quadrato. Questo numero interno alla radice è tanto più elevato quanto il
fenomeno è disperso. X medio ha la stessa unità di misura del fenomeno stesso, mentre il contrnuto della
radice hanno una unità di misura elevata al quadrato per questo si applica la riadrie quadrata per avere
una unità di misura comparabile al fenomeno in analisi.
La deviazione standard è nulla quando tutte le x sono uguali tra i loro, tenderà ad avere un valore più
elevato tanto più il fenomeno è eterogeneo.
Pensando all’istogramma una dev