Estratto del documento

INDICI DI VARIABILITÀ

La media e la mediana da sole ci dicono poco sulla distribuzione della variabile, è opportuno correlarle con gli indici di

variabilità per ottenere la variabilità dei soggetti intorno agli indici di tendenza centrale. Più un campione è grande, più

la variabilità è bassa mentre per campioni piccoli si può ottenere una variabilità più elevata. 18

In corrispondenza della mediana viene spesso fornito l’intervallo interquartile detto anche range, che equivale alla

differenza fra il terzo quartile (Q3) ed il primo quartile (Q1).

I quartili sono delle misure non parametriche e possono essere calcolati sulle variabili categoriche ordinali, numeriche

discrete e continue come la mediana. Si chiamano così perché Q1, Q2 e Q3 dividono la distribuzione in 4 parti ognuna

corrispondente al 25% del campione. Tra il minimo e il Q1 c’è un 25%, tra Q1 e Q2 c’è un 25%, tra Q2 e Q3 c’è un 25%

e tra Q3 e il massimo c’è un 25%. Ovviamente, quindi, fra il Q1 e il Q3 c’è il 50% delle osservazioni del campione, che

corrisponde all’intervallo interquartile.

- Q1 è il valore che lascia alla sua sinistra il 25% delle osservazioni e alla sua destra il 75% delle osservazioni.

Capiamo bene quindi che a sinistra del Q1 ci saranno tutti i valori più bassi di questo e a destra tutti i valori

più alti.

- Q2 è la mediana che lascia il 50% delle osservazioni a destra e a sinistra

- Q3 è il valore che lascia alla sua sinistra il 75% delle osservazioni e alla sua destra il 25% delle osservazioni.

Talvolta in aggiunta si calcola il range generale che corrisponde alla differenza fra il minimo e il massimo. Nel momento

in cui vengono presentati i dati in un articolo non è presente l’intervallo interquartile ma sono riportati solo i valori del

Q1 e del Q3 o del minimo e del massimo.

ATTENZIONE! Il range interquartile non può essere calcolato per le variabili categoriche ordinali perché prevede una

differenza che non posso svolgere su delle categorie. Quindi per le variabili categoriche ordinali si possono calcolare i

Q; tuttavia, non si può calcolare l’intervallo interquartile.

VARIANZA E DEVIAZIONE STANDARD

L’indice di variabilità associato alla media aritmetica è la varianza che è calcolata tramite la forma che vediamo sulla

slide: è la sommatoria degli scarti di tutte le osservazioni dalla media al quadrato / il n soggetti campione – 1.

Talvolta invece di parlare di varianza si parla di deviazione standard, che in realtà è la radice quadrata della varianza (che

ovviamente equivale al quadrato della deviazione standard).

La varianza si può calcolare usando la distribuzione di frequenza nel momento in cui non si hanno i singoli valori ma si

ha la tabella con le frequenze percentuali/assolute/ relative.

Consideriamo ora degli esempi.

1. VARIABILE CATEGORICA ORDINALE

Per calcolare i quartili, come faccio nella mediana, imposto

le osservazioni in senso crescente.

Per il Q1 devo cercare il valore dell’osservazione in posizione

(n+1) /4 perché lascia a sinistra il 25% delle osservazioni.

Per il Q3 devo cercare il valore dell’osservazione in posizione

(n+1) ∙ ¾ perché lascia a sinistra il 75% delle osservazioni.

Come per la mediana metto le info in ordine crescente e

cerco per il Q1 l’osservazione in posizione 13.5, che

corrisponde alla quattordicesima osservazione ed è pari a

negativo. Mentre, il Q3 è il valore dell’osservazione in

posizione 40.5 → 41esiema osservazione, che è moderato. 19

Nel gruppo senza trombosi abbiamo il valore il valore dell’osservazione in posizione 13.85 e 41.85 → approssimo a

14esima e 41esima osservazione: negativo e lieve.

ATTENZIONE! In questo caso NON si fa un’interpolazione come per la mediana nel caso delle variabili categoriche

ordinali.

Consideriamo un esempio visto precedentemente: Calcoliamo i Q per i livelli di stress, dalla tabella. Per

la mediana dobbiamo trovare il valore

dell’osservazione per cui la f cumulata superava il

50%. Per il primo Q, dobbiamo trovare il valore

dell’osservazione la cui % cumulata supera per la

prima volta il 25%. Il primo valore superiore al 25 è

il 54.5, che è lieve.

Il primo Q e la mediana in questo caso coincidono.

Il terzo Q è il valore dell’osservazione la cui %

cumulata supera per la prima volta il 75% → ho

81.8, ovvero stress moderato.

2. VARIABILE NUMERICA DISCRETA

In questo caso oltre a determinare primo e terzo

quartile posso anche calcolare il range interquartile, la

varianza e la deviazione standard.

Prendiamo in esame il gruppo SI TROMBOSI (stesso

ragionamento per il gruppo NO trombosi):

Pongo le osservazioni in ordine crescente e contando

nell’esempio, la 14esima osservazione corrisponde a 0

e la 41esima corrisponde a 12.

Il range interquartile e quindi la differenza fra i due

valori corrisponde a 12.

Per la varianza applicando la formula ottengo il valore

di 42,634 che corrisponde ad una variazione standard

di 6,529.

ATTENZIONE! Nel momento in cui voglio fare un confronto fra due gruppi diversi, dove l’unità di misura utilizzata per la

variabile deve essere la stessa, devo utilizzare gli stessi indici. Se per esempio confronto il range interquartile fra i due

gruppi capisco che il primo gruppo ha un range più ampio, ad indicare che sussiste una maggiore variabilità del numero

di sigarette fumate, questo è confermato anche dalla varianza e dalla deviazione standard. Nel secondo gruppo i valori

sono più concentrati intorno al valore centrale o comunque in un intervallo più limitato → variabilità più bassa. 20

3. VARIABILE NUMERICA CONTINUA

Come succedeva per la mediana anche per

il Q1 e il Q3 posso fare un’interpolazione

fra due valori vicini per calcolare un valore

intermedio fra due osservazioni.

SI TROMBOSI

Dopo aver calcolato il Q1 in posizione 13,5

andiamo a calcolare il valore intermedio fra

la 13esima e la 14esima osservazione.

Calcolo quindi:

X in posizione 13 + 0.5 (parte decimale) ∙ (x

in posizione 14 – x in posizione 13) = 19,6

Stessa cosa succede per il Q3.

Posso calcolare l’intervallo interquartile, la

varianza e la deviazione standard.

NO TROMBOSI

Calcolando, il primo quartile corrisponde ad un valore intermedio fra la 13esima e 14esima osservazione ma è poco più

spostato verso la 14esima posizione: nella formula si utilizza 0,75 e non 0.5. Attenzione, perché bisogna prendere i

decimali del numero che esce nel calcolo, non per forza 0.5.

Il terzo quartile è il valore intermedio fra la 41esima e la 42esima osservazione ma è poco più spostato verso la 41esima

posizione (si usa 0.25). Grazie alla formula prima applicata ottengo:

Q1= 18,175

Q3= 39,425

Posso calcolare l’intervallo interquartile, la varianza e la deviazione standard.

Dai dati, così come dal grafico qui a fianco (anche se è

più utile per vedere la forma della distribuzione), si nota

che il gruppo SI trombosi ha una variabilità più elevata

rispetto al gruppo NO trombosi.

Probabilmente, il gruppo con trombosi è anche più

eterogeneo. 21

BOX AND WHISKERS PLOT

Per vedere da un grafico la variabilità dell’osservazione è opportuno rappresentare il Box plot, anche detto Box and

Whiskers Plot (diagramma a scatole e baffi).

Analizziamo il grafico:

- A livello della box gli estremi rappresentano il Q1 e il Q3

- La linea marcata rappresenta la mediana. Se quest’ultima dovesse essere al centro della scatola significa

che la distribuzione è simmetrica, mentre se non lo è la distribuzione è asimmetrica.

- L’altezza del rettangolo corrisponde all’intervallo interquartile.

- Le linee tratteggiate (i baffi: whiskers) sono le distanze del Q1 e del Q3 di 1,5 volte il range interquartile.

Queste servono per vedere quanto le osservazioni sono distanti dal Q1 e dal Q3 e vengono troncate in

corrispondenza del minimo e del massimo. Se il valore di Q1- (1,5 x il range interquartile) è più piccolo del

minimo allora quello che rappresento nel box plot è il minimo, al contrario se il valore Q3+ (1,5 x il range

interquartile) è più alto del massimo allora come baffo del box plot rappresento il massimo.

- I valori oltre i due baffi sono gli outliers (valori estremi e anomali), che influenzano la media.

La scatola del primo gruppo è molto più grande (ha

un’altezza maggiore) rispetto a quella del secondo gruppo,

questo conferma quello che avevamo visto prima quando

gli indici di variabilità erano più alti nel gruppo SI trombosi.

Nel confronto fra due gruppi con il box plot posso

confrontare i valori degli indici di posizione (la mediana è

più elevata in un gruppo piuttosto che in un altro?).

Quando la distribuzione non è simmetrica, l’uso della media

è questionabile. È meglio invece usare la mediana e gli

intervalli interquartili. 22

In questo caso a maggior ragione, perché oltre ad una distribuzione asimmetrica, abbiamo anche valori anomali che

possono influenzare di molto il valore della media.

I Box and Wiskers Plot sono molto utili perché riassumono una serie di informazioni, sia sugli indici di posizione sia di

variabilità. Contengono infatti sia la mediana (possiamo vedere che la mediana dei valori di IgG è simile tra pz con e

senza trombosi), sia i quartili. Quindi posso fare confronti tra due distribuzioni e poi posso confrontare anche la

variabilità della mia variabile, che sono i valori di IgG in questo caso. Ad esempio, il primo Plot ha un scatola più grande

del secondo → la dispersione dei valori di IgG è più ampia rispetto al gruppo dei soggetti senza trombosi.

Se la distribuzione è simmetrica media e mediana

coincidono e la media è al centro, equidistanza tra

primo e terzo quartile.

Asimmetrica positiva → la mediana è inferiore alla

media, si trova + spostata verso il baffo inferiore e più

vicina a Q1.

Asimmetrica negativa → la media è inferiore alla

mediana. La mediana si trova più vicino al baffo

superiore e al Q3. Sono piu frequenti i valori elevati

rispetto a quelli bassi.

Ci sono casi in cui l’asimmetria può essere lieve,

magari la mediana può essere più spostata verso uno

dei due baffi ma senza una differenza elevata. Più la

mediana è spostata di netto, più l’asimmetria è forte.

VARIABILE ASIMMETRICA POSITIVA

Una variabile è detta asimmetrica positiva, dove sono più frequenti

Anteprima
Vedrai una selezione di 18 pagine su 83
Appunti Statistica Pag. 1 Appunti Statistica Pag. 2
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 6
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 11
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 16
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 21
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 26
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 31
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 36
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 41
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 46
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 51
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 56
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 61
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 66
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 71
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 76
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 81
1 su 83
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher nicksanji di informazioni apprese con la frequenza delle lezioni di Biotecnologie nella diagnostica di laboratorio e fondamenti di statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano o del prof Orenti Annalisa.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community