LE TABELLE DI SINTESI DEI DATI
è presentata la distribuzione di frequenza di
Tabelle a singola entrata UN SOLO carattere statistico
è presentata la distribuzione di frequenza di
Tabelle a doppia entrata DUE caratteri statistici
rappresentazione di tutte le modalità
Dati nominali ed ordinali possibili
Dato numerici discreti e continui dati aggregati per classi
Graphical elegance is often found in simplicity of design and complexity of data
DIAGRAMMI A TORTA
Può essere rappresentato un solo carattere.
Le modalità sono rappresentate da spicchi della
torta.
L’ area della torta è proporzionale alla frequenza
relativa della modalità
DIAGRAMMI A BARRE
Le modalità qualitative sono
riportate in ascissa: asse X qualitativo.
Per ogni gruppo si costruisce un rettangolo:
-la posizione della base del rettangolo (di larghezza costante) è
centrata sul nome della modalità
-l’area del rettangolo è proporzionale alla frequenza rilevata per il gruppo
La scala utilizzata per gli assi deve consentire la visualizzazione dei rettangoli interi
ISTOGRAMMA
I dati vengono divisi in classi: in questo caso 6 classi con un intervallo
non costante
Per ogni gruppo si costruisce un rettangolo:
-la posizione della base del rettangolo corrisponde ai margini dell’intervallo (è
quantitativa)
-l’area del rettangolo è proporzionale alla frequenza rilevata per il gruppo
La scala utilizzata per gli assi deve consentire la visualizzazione dei
rettangoli interi.
DIAGRAMMI DI DISPERSIONE
Distribuzioni di frequenza
Se la numerosità del campione che stiamo studiando aumenta possiamo costruire un
istogramma con classi di ampiezza via via più piccola fino a poter pensare ad una curva
continua che descrive la distribuzione della frequenza delle osservazioni.
INDICI (STATISTICHE)
Gran parte della analisi statistica consiste nel condensare delle osservazioni in un indicatore
che sia capace di riassumere una specifica caratteristica di tutte le rilevazioni in un singolo
numero.
In statistica descrittiva distinguiamo:
-INDICI DI TENDENZA CENTRALE che esprimono il valore “tipico”;
-INDICI DI DISPERSIONE che esprimono quanto i dati si raggruppano strettamente intorno al
valore” tipico” ;
-INDICI DI FORMA che esprimono le caratteristiche di “simmetria” e “curvatura” della
distribuzione dei dati.
IL VALORE ATTESO: INDICI DI TENDENZA CENTRALE
Media aritmetica: è la somma di tutti i valori rilevati in un campione divisa per la numerosità.
-Utilizza le proprietà delle relazioni aritmetiche (quantità, operazioni)
-Esiste solo per i dati numerici continui e discreti
-Sintetizza tutti i dati: è il valore più vicino a tutte le singole osservazioni
-È invariante per trasformazioni affini +k, - k, *k, /k sui dati (spostano nello stesso senso la
media)
-È valida soprattutto per i dati che seguono una distribuzione di frequenza normale
-È sensibile ai valori estremi
Mediana: il valore che, dopo aver posto le osservazioni in ordine crescente, divide il
campione in due gruppi di eguale numerosità.
Come si determina?
-Nelle serie dispari è il valore al centro della distribuzione ordinata
-Nelle serie pari è la media dei due valori al centro della distribuzione ordinata
-È detta anche 50° percentile
-Utilizza le relazioni di posizione dei dati (>,<) (esiste per i dati numerici continui e discreti e
per i dati categorici ordinali)
-Non è sensibile ai valori estremi
-È il migliore indice di sintesi nelle distribuzioni asimmetriche
Moda: è il valore che si presenta più frequentemente nella popolazione o nel campione
-Si determina contando la frequenza delle modalità
-Utilizza soltanto la relazione di identità dei dati (=, ≠)
-Esiste per i dati categorici binomiali, nominali e ordinali e per i dati numerici discreti (quando
le modalità osservate siano poche)
-Per i dati numerici continui, è necessario prima raggruppare in classi le osservazioni
-Non tiene conto di tutte le altre modalità
-È utile per sospettare la copresenza di più popolazioni
INDICI DI DISPERSIONE
CALCOLO DEL P-ESIMO PERCENTILE
Considerando n osservazioni ordinate ed intendendo calcolare il valore del p-esimo percentile
valutiamo l’espressione (n*p)/100
-se NON è un intero, il p-esimo percentile sarà l’osservazione che si trova alla posizione data
da np/100 approssimato per eccesso
-se è un intero, il p-esimo percentile sarà la media tra l’osservazione che si trova nella
posizione np/100 e l’osservazione che si trova nella posizione successiva
DIAGRAMMI A SCATOLA
VALUTARE LA DISTRIBUZIONE
Molte analisi statistiche applicabili ai dati continui sono basate sull’assunzione che i dati
disponibili siano un campione estratto casualmente da una popolazione a distribuzione
normale.
Prima di svolgere questi test, è dunque necessario verificare se tale assunzione è lecita sui
dati grezzi e su una loro trasformazione (es. Logaritmica)
LA “NORMALITÀ” SI VALUTA CON:
L
1. (se sovrapponibili la distribuzione
A POSIZIONE RELATIVA DI MEDIA E MEDIANA
sarà simmetrica)
L ’
2. A FORMA DELL ISTOGRAMMA
I 10%, 50%, 90%
3. o il box plot
L PERCENTILE
I “ ”
4. L NORMAL PLOT
L’
5. (simmetria) 0 = curva simmetrica, +1 = asimmetria a
INDICE DI SKEWNESS
destra, -1 = asimmetria a sinistra
L’
6. 3 = ok, >3 = dati concentrati intorno alla media, <3 = dati
INDICE DI KURTOSI
molto dispersi alle code
T
7. (Shapiro-Wilk, Shapiro-Francia, Kolmogorov-Smirnov)
EST STATISTICI STATISTICA INFERENZIALE
Praticamente tutti i test statistici sono basati sul calcolo di un rapporto SEGNALE/RUMORE dove il
segnale è il fenomeno di interesse ed il rumore la variabilità individuale.
EVENTO “ALEATORIO”
Si definisce evento l’elemento di base al quale può essere applicata la probabilità: è il
risultato di un’osservazione o di un esperimento o, più semplicemente, un potenziale risultato.
L’evento non è altro che una proposizione logica, suscettibile di essere verificata o meno, a
seconda del risultato dell’esperimento. PROBABILITÀ
Se un esperimento viene ripetuto “n” volte in condizioni sostanzialmente identiche e se
l’evento A si verifica “m” volte, all’aumentare di “n” la proporzione m/n si avvicina ad un limite
fisso che è la probabilità di A (limite per “n” che tende all’infinito di m/n).
La probabilità di un evento è dunque definita come la frequenza relativa con cui l’evento si
verifica in una lunga serie di esperimenti condotti in condizioni virtualmente identiche.
Il valore di una probabilità è un numero compreso tra zero ed uno, mentre l’evento certezza
(m/n=1). EVENTI E TEORIA DEGLI INSIEMI
Un “insieme” è una collezione di elementi aventi una proprietà in comune, più
specificamente, nel caso degli eventi e della probabilità, si tratta di realizzazioni dello
stesso evento. Ad un insieme generalmente si attribuisce una lettera maiuscola.
Si definisce “insieme spazio o universo”, l’insieme che comprende tutti i possibili eventi
e viene spesso rappresentato da un rettangolo che indica lo spazio finito dell’esperienza a
cui si sta facendo riferimento.
Un “sottoinsieme” è un insieme in cui ogni elemento di A è anche parte di B. Riportando
il concetto alla statistica, corrisponde ad asserire che l’evento A si verifica solo se si
verifica anche l’evento B.
Si definisce “insieme unione” quello che contiene tutti gli elementi di A e tutti gli elementi
di B (considerando una sola volta quelli eventualmente comuni sia ad A che a B). Si
esprime come A U B, in cui U corrisponde all’operatore booleano “OR”.
Si definisce “insieme intersezione” quello che contiene l’insieme di tutti gli elementi che
appartengono sia ad A che a B, esprimibile con l’operatore booleano “AND”.
Si definisce “insieme complementare” quello che contiene tutti gli elementi dell’universo
U che non appartengono ad A, comprendendo così tutti gli eventi che escludono A.
L’operatore booleano di riferimento è il “NOT”
EVENTI MUTUAMENTE ESCLUSIVI
Due eventi A e B che non possono verificarsi contemporaneamente sono definiti
“mutuamente esclusivi” e non si avrà mai sovrapposizione (la probabilità di avere un
insieme intersezione A e B è pari a 0).
Esempio:
Quando due eventi sono mutuamente esclusivi, la proprietà additiva della probabilità afferma
che:
la probabilità del verificarsi dell’uno oppure dell’altro evento è pari alla somma delle probabilità di
ciascuno dei due eventi.
Quando due eventi NON sono mutuamente esclusivi, la proprietà additiva della probabilità
afferma che la probabilità del verificarsi dell’uno oppure dell’altro evento è pari alla somma della
probabilità di ciascuno dei due eventi meno la probabilità dell’evento intersezione (che altrimenti
sarebbe contata due volte).
Prendiamo ora in esame un evento aleatorio esposizione ed un evento effetto: ad esempio
l’esposizione al fumo e la presenza di basso peso alla nascita.
Se i due eventi non sono associati, si combineranno allora casualmente, seguendo la proprietà
moltiplicativa della probabilità.
P (A AND B) = P(A) x P(B)
L’interesse biomedico tuttavia è capire se gli eventi si associno solo casualmente o ci sia un aumento
del “rischio”. Per tal motivo, l’epidemiologia costruttiva utilizza le misure di frequenza allo scopo di
stimare se due eventi si associano solo casualmente, o se l’esposizione all’evento X aumenta il rischio
o la frequenza di Y.
DENSITÀ DI PROBABILITÀ
Nel caso delle , i valori che possono essere assunti come
VARIABILI ALEATORIE CONTINUE
modalità sono infiniti, quindi, la probabilità di assumere un singolo specifico valore P(X=x) è
uguale a 0, ma è evidente che valori appartenenti ad alcuni range sono più probabili di altri se
si procede a raggruppare i dati in classi. Dunque, la funzione in cui la probabilità è sottesa
prende il nome di e la probabilità che X