INDICI DI VARIABILITÀ
La media e la mediana da sole ci dicono poco sulla distribuzione della variabile, è opportuno correlarle con gli indici di
variabilità per ottenere la variabilità dei soggetti intorno agli indici di tendenza centrale. Più un campione è grande, più
la variabilità è bassa mentre per campioni piccoli si può ottenere una variabilità più elevata. 18
In corrispondenza della mediana viene spesso fornito l’intervallo interquartile detto anche range, che equivale alla
differenza fra il terzo quartile (Q3) ed il primo quartile (Q1).
I quartili sono delle misure non parametriche e possono essere calcolati sulle variabili categoriche ordinali, numeriche
discrete e continue come la mediana. Si chiamano così perché Q1, Q2 e Q3 dividono la distribuzione in 4 parti ognuna
corrispondente al 25% del campione. Tra il minimo e il Q1 c’è un 25%, tra Q1 e Q2 c’è un 25%, tra Q2 e Q3 c’è un 25%
e tra Q3 e il massimo c’è un 25%. Ovviamente, quindi, fra il Q1 e il Q3 c’è il 50% delle osservazioni del campione, che
corrisponde all’intervallo interquartile.
- Q1 è il valore che lascia alla sua sinistra il 25% delle osservazioni e alla sua destra il 75% delle osservazioni.
Capiamo bene quindi che a sinistra del Q1 ci saranno tutti i valori più bassi di questo e a destra tutti i valori
più alti.
- Q2 è la mediana che lascia il 50% delle osservazioni a destra e a sinistra
- Q3 è il valore che lascia alla sua sinistra il 75% delle osservazioni e alla sua destra il 25% delle osservazioni.
Talvolta in aggiunta si calcola il range generale che corrisponde alla differenza fra il minimo e il massimo. Nel momento
in cui vengono presentati i dati in un articolo non è presente l’intervallo interquartile ma sono riportati solo i valori del
Q1 e del Q3 o del minimo e del massimo.
ATTENZIONE! Il range interquartile non può essere calcolato per le variabili categoriche ordinali perché prevede una
differenza che non posso svolgere su delle categorie. Quindi per le variabili categoriche ordinali si possono calcolare i
Q; tuttavia, non si può calcolare l’intervallo interquartile.
VARIANZA E DEVIAZIONE STANDARD
L’indice di variabilità associato alla media aritmetica è la varianza che è calcolata tramite la forma che vediamo sulla
slide: è la sommatoria degli scarti di tutte le osservazioni dalla media al quadrato / il n soggetti campione – 1.
Talvolta invece di parlare di varianza si parla di deviazione standard, che in realtà è la radice quadrata della varianza (che
ovviamente equivale al quadrato della deviazione standard).
La varianza si può calcolare usando la distribuzione di frequenza nel momento in cui non si hanno i singoli valori ma si
ha la tabella con le frequenze percentuali/assolute/ relative.
Consideriamo ora degli esempi.
1. VARIABILE CATEGORICA ORDINALE
Per calcolare i quartili, come faccio nella mediana, imposto
le osservazioni in senso crescente.
Per il Q1 devo cercare il valore dell’osservazione in posizione
(n+1) /4 perché lascia a sinistra il 25% delle osservazioni.
Per il Q3 devo cercare il valore dell’osservazione in posizione
(n+1) ∙ ¾ perché lascia a sinistra il 75% delle osservazioni.
Come per la mediana metto le info in ordine crescente e
cerco per il Q1 l’osservazione in posizione 13.5, che
corrisponde alla quattordicesima osservazione ed è pari a
negativo. Mentre, il Q3 è il valore dell’osservazione in
posizione 40.5 → 41esiema osservazione, che è moderato. 19
Nel gruppo senza trombosi abbiamo il valore il valore dell’osservazione in posizione 13.85 e 41.85 → approssimo a
14esima e 41esima osservazione: negativo e lieve.
ATTENZIONE! In questo caso NON si fa un’interpolazione come per la mediana nel caso delle variabili categoriche
ordinali.
Consideriamo un esempio visto precedentemente: Calcoliamo i Q per i livelli di stress, dalla tabella. Per
la mediana dobbiamo trovare il valore
dell’osservazione per cui la f cumulata superava il
50%. Per il primo Q, dobbiamo trovare il valore
dell’osservazione la cui % cumulata supera per la
prima volta il 25%. Il primo valore superiore al 25 è
il 54.5, che è lieve.
Il primo Q e la mediana in questo caso coincidono.
Il terzo Q è il valore dell’osservazione la cui %
cumulata supera per la prima volta il 75% → ho
81.8, ovvero stress moderato.
2. VARIABILE NUMERICA DISCRETA
In questo caso oltre a determinare primo e terzo
quartile posso anche calcolare il range interquartile, la
varianza e la deviazione standard.
Prendiamo in esame il gruppo SI TROMBOSI (stesso
ragionamento per il gruppo NO trombosi):
Pongo le osservazioni in ordine crescente e contando
nell’esempio, la 14esima osservazione corrisponde a 0
e la 41esima corrisponde a 12.
Il range interquartile e quindi la differenza fra i due
valori corrisponde a 12.
Per la varianza applicando la formula ottengo il valore
di 42,634 che corrisponde ad una variazione standard
di 6,529.
ATTENZIONE! Nel momento in cui voglio fare un confronto fra due gruppi diversi, dove l’unità di misura utilizzata per la
variabile deve essere la stessa, devo utilizzare gli stessi indici. Se per esempio confronto il range interquartile fra i due
gruppi capisco che il primo gruppo ha un range più ampio, ad indicare che sussiste una maggiore variabilità del numero
di sigarette fumate, questo è confermato anche dalla varianza e dalla deviazione standard. Nel secondo gruppo i valori
sono più concentrati intorno al valore centrale o comunque in un intervallo più limitato → variabilità più bassa. 20
3. VARIABILE NUMERICA CONTINUA
Come succedeva per la mediana anche per
il Q1 e il Q3 posso fare un’interpolazione
fra due valori vicini per calcolare un valore
intermedio fra due osservazioni.
SI TROMBOSI
Dopo aver calcolato il Q1 in posizione 13,5
andiamo a calcolare il valore intermedio fra
la 13esima e la 14esima osservazione.
Calcolo quindi:
X in posizione 13 + 0.5 (parte decimale) ∙ (x
in posizione 14 – x in posizione 13) = 19,6
Stessa cosa succede per il Q3.
Posso calcolare l’intervallo interquartile, la
varianza e la deviazione standard.
NO TROMBOSI
Calcolando, il primo quartile corrisponde ad un valore intermedio fra la 13esima e 14esima osservazione ma è poco più
spostato verso la 14esima posizione: nella formula si utilizza 0,75 e non 0.5. Attenzione, perché bisogna prendere i
decimali del numero che esce nel calcolo, non per forza 0.5.
Il terzo quartile è il valore intermedio fra la 41esima e la 42esima osservazione ma è poco più spostato verso la 41esima
posizione (si usa 0.25). Grazie alla formula prima applicata ottengo:
Q1= 18,175
Q3= 39,425
Posso calcolare l’intervallo interquartile, la varianza e la deviazione standard.
Dai dati, così come dal grafico qui a fianco (anche se è
più utile per vedere la forma della distribuzione), si nota
che il gruppo SI trombosi ha una variabilità più elevata
rispetto al gruppo NO trombosi.
Probabilmente, il gruppo con trombosi è anche più
eterogeneo. 21
BOX AND WHISKERS PLOT
Per vedere da un grafico la variabilità dell’osservazione è opportuno rappresentare il Box plot, anche detto Box and
Whiskers Plot (diagramma a scatole e baffi).
Analizziamo il grafico:
- A livello della box gli estremi rappresentano il Q1 e il Q3
- La linea marcata rappresenta la mediana. Se quest’ultima dovesse essere al centro della scatola significa
che la distribuzione è simmetrica, mentre se non lo è la distribuzione è asimmetrica.
- L’altezza del rettangolo corrisponde all’intervallo interquartile.
- Le linee tratteggiate (i baffi: whiskers) sono le distanze del Q1 e del Q3 di 1,5 volte il range interquartile.
Queste servono per vedere quanto le osservazioni sono distanti dal Q1 e dal Q3 e vengono troncate in
corrispondenza del minimo e del massimo. Se il valore di Q1- (1,5 x il range interquartile) è più piccolo del
minimo allora quello che rappresento nel box plot è il minimo, al contrario se il valore Q3+ (1,5 x il range
interquartile) è più alto del massimo allora come baffo del box plot rappresento il massimo.
- I valori oltre i due baffi sono gli outliers (valori estremi e anomali), che influenzano la media.
La scatola del primo gruppo è molto più grande (ha
un’altezza maggiore) rispetto a quella del secondo gruppo,
questo conferma quello che avevamo visto prima quando
gli indici di variabilità erano più alti nel gruppo SI trombosi.
Nel confronto fra due gruppi con il box plot posso
confrontare i valori degli indici di posizione (la mediana è
più elevata in un gruppo piuttosto che in un altro?).
Quando la distribuzione non è simmetrica, l’uso della media
è questionabile. È meglio invece usare la mediana e gli
intervalli interquartili. 22
In questo caso a maggior ragione, perché oltre ad una distribuzione asimmetrica, abbiamo anche valori anomali che
possono influenzare di molto il valore della media.
I Box and Wiskers Plot sono molto utili perché riassumono una serie di informazioni, sia sugli indici di posizione sia di
variabilità. Contengono infatti sia la mediana (possiamo vedere che la mediana dei valori di IgG è simile tra pz con e
senza trombosi), sia i quartili. Quindi posso fare confronti tra due distribuzioni e poi posso confrontare anche la
variabilità della mia variabile, che sono i valori di IgG in questo caso. Ad esempio, il primo Plot ha un scatola più grande
del secondo → la dispersione dei valori di IgG è più ampia rispetto al gruppo dei soggetti senza trombosi.
Se la distribuzione è simmetrica media e mediana
coincidono e la media è al centro, equidistanza tra
primo e terzo quartile.
Asimmetrica positiva → la mediana è inferiore alla
media, si trova + spostata verso il baffo inferiore e più
vicina a Q1.
Asimmetrica negativa → la media è inferiore alla
mediana. La mediana si trova più vicino al baffo
superiore e al Q3. Sono piu frequenti i valori elevati
rispetto a quelli bassi.
Ci sono casi in cui l’asimmetria può essere lieve,
magari la mediana può essere più spostata verso uno
dei due baffi ma senza una differenza elevata. Più la
mediana è spostata di netto, più l’asimmetria è forte.
VARIABILE ASIMMETRICA POSITIVA
Una variabile è detta asimmetrica positiva, dove sono più frequenti
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
 
                     
                                         
                                        