Statistica sanitaria

Appunti di Statistica basati su appunti personali del publisher presi alle lezioni del prof. Fabbro dell’università degli Studi di Firenze - Unifi, della Facoltà di Medicina …

Esame Statistica

Facoltà Medicina e chirurgia

Dal corso del Prof. Fabbro Giancarlo

Università Università degli Studi di Firenze

Publisher alebgirl

A.A. 2016-2017

12 pagine

Appunto

Vota

Scarica

Estratto del documento

MISURE SINTETICHE

Le misure sintetiche comprendono misure di posizione e misure di variabilità.

Misure di posizione: sintetizzano la posizione di una distribuzione di frequenza mediante

un valore reale rappresentativo della globalità del fenomeno e tale da riassumere gli

aspetti ritenuti più importanti. Comprendono: moda; mediana; media; e percentili.

La moda corrisponde alla modalità più frequente. Il calcolo della moda richiede di raggruppare le

unità rispetto alle modalità del carattere. Risulta possibile calcolare la moda per ciascun tipo di

carattere, anche per i caratteri sconnessi. Quando la moda rappresenta la modalità che compare

con maggiore frequenza ha una distribuzione unimodale mentre nel caso di dati raggruppati in

classi la moda si trova nella classe con il maggior numero di osservazioni. Quando se ci sono più

mode si ha una distribuzione multimodale.

La mediana è la modalità associata alla posizione centrale, ovvero è il valore che nella

serie ordinata dei dati occupa l’osservazione di posizione e che ha il 50% delle

osservazioni più piccole ed il 50% delle osservazioni più grande. Il calcolo della mediana

richiede l’ordinamento delle unità rispetto alle modalità del carattere. Risulta possibile

calcolare la mediana per caratteri ordinabili ma non è possibile calcolare la mediana per

caratteri sconnessi. Per trovare la modalità in posizione centrale ci sono 2 metodiche

diverse:

- se N è dispari la posizione centrale corrisponde a (N + 1) / 2;

- se N è pari abbiamo 2 posizioni centrali che corrispondono a: N / 2; e (N / 2) + 1.

Individuate le 2 modalità che si trovano nelle 2 posizioni centrali per calcolare la mediana

è sufficiente fare la media tra i 2 valori.

Esercizio: calcolare la mediana dei seguenti dati.

x f frequenze cumulate

j j

7 4 4

8 6 10

13 3 13

15 1 14

totale 14 -

Poiché N è 14 la mediana si trova tra le posizioni 7 ed 8. Osservando le frequenze

cumulate la prima a contenere la posizione 7 è quella corrispondente alla modalità 8 che è

10 mentre la prima che contiene la posizione 8 è sempre quella corrispondente alla

posizione 8. Poiché i valori corrispondenti alle posizioni 7 ed 8 sono entrambi 8 la

mediana, dovuta alla media di questi 2 valori, è 8.

I dati della tabella potrebbero essere scritti come se ogni x avesse una frequenza unitaria:

- 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 13, 13, 13, 15.

Se si contano le posizioni ai numeri 7 ed 8 troviamo sempre la modalità 8 come se si

usano le frequenze cumulate.

La media esprime la posizione globale di una distribuzione ed è data dalla somma delle modalità

di tutte le unita diviso la loro numerosità. Poiché per calcolare la media si deve eseguire la somma

delle modalità risulta possibile calcolare la media soltanto per caratteri numerici e quindi

quantitativi. Non è possibile calcolare la media per caratteri sconnessi e per caratteri ordinabili. Le

formule per il calcolo della media variano in base al tipo di variabili e sono:

- distribuzione per unità: la media corrisponde a μ = Σxi / n;

- distribuzione di frequenze assolute: la media corrisponde a μ = [Σx n ] / n;

i i

- distribuzione di frequenze relative: la media corrisponde a μ = Σx f .

i i

La media ha 2 proprietà:

- la media aritmetica è sempre compresa tra il valore minimo ed il valore massimo;

- la somma algebrica degli scarti, cioè delle differenze tra i valori e la loro media,

moltiplicati eventualmente per la frequenza, è sempre nulla e corrisponde a Σ(x – x) f = 0.

j j

In una distribuzione perfettamente simmetrica media, mediana e moda hanno lo stesso

valore: In una distribuzione asimmetrica, la media si posiziona nella direzione

dell’asimmetria. La media è l’unica delle 3 misure che utilizza tutte le informazioni in una

serie di dati, ovvero riflette il valore di ciascuna osservazione della distribuzione.

La media è un indice meno robusto rispetto alla mediana perché viene influenzato dalla

presenza di osservazioni aberranti, o valori anomali, definiti outliers. Se ci fossero

troppi valori anomali è più opportuno calcolare la mediana poiché la media risulterebbe

troppo forviante.

I percentili sono degli indici di posizione che dividono una distribuzione di frequenza in

100 parti in modo che se x è il primo percentile allora l’1% dei soggetti del campione

possiede il carattere considerato in misura inferiore o uguale ad x . Il percentile x° è

l’osservazione che si trova, ordinando i dati in ordine crescente, in posizione (percentile

x° / 100) (n + 1) dove n è il numero di osservazioni. Se il numero di osservazioni è pari il

risultato della formula avrà dei decimali per cui dovremo considerare la posizione

precedente e quella seguente al risultato ottenuto e fare una proporzione tra le 2 posizioni

considerando i numeri decimali.

Esercizio: calcolare il 30° percentile delle seguenti 18 osservazioni:

- 35, 36, 37, 40, 40, 42, 42, 42, 45, 45, 46, 47, 49, 49, 51, 51, 53, 55.

Il 30° percentile sarà l’osservazione in posizione: 30/100 (18 + 1) = 5.7

Essendo il risultato 5.7 il 30° percentile sarà l’osservazione compresa tra la 5° e la 6° posizione,

cioè 0.7 parti dell’intervallo 40-42. Quindi il 30° percentile sarà: 40 + (42 – 40) 0.7 = 41.4

Esercizio: calcolare il 30°, 60° e 90° percentile.

età frequenza freq. cumulativa età frequenza freq. cumulativa

18 1 1 26 32 642

19 27 28 27 25 667

20 82 110 28 19 686

21 109 219 29 7 693

22 133 352 30 7 700

23 138 490 31 2 702

24 73 563 32 2 704

25 47 610 33 2 706

totale 706

Il 30° percentile corrisponde a 30/100 (706 + 1) = 212.1 contenuto dalla posizione corrispondente

a 21 anni. Il 60° percentile corrisponde a 60/100 (706 + 1) = 424.2 contenuto dalla posizione

corrispondente a 23 anni. Il 90° percentile corrisponde a 90/100 (706 + 1) = 636.3 contenuto dalla

posizione corrispondente a 26 anni. Il 30% di questo gruppo di studenti ha 21 anni o meno, il 60%

ne ha 23 o meno mentre il 10% di loro ha più di 26 anni.

Esistono dei percentili speciali come:

- decili: dividono la distribuzione in 10 parti uguali;

- quintili: dividono la distribuzione in 5 parti uguali;

- quartili: dividono la distribuzione in 4 parti, o distribuzioni parziali, uguali ciascuna

avente la quarta parte della numerosità totale. La modalità che fa da cardine fra la prima e

la seconda distribuzione parziale si chiama primo quartile. La modalità che fa da cardine

fra la seconda e la terza distribuzione parziale si chiama secondo quartile e coincide con

la mediana. La modalità che fa da cardine fra la terza e la quarta distribuzione parziale si

chiama terzo quartile. I quartili sono:

- quartile inferiore o QI: corrisponde al 25° percentile;

- mediana: corrisponde al 50° percentile;

- quartile superiore o QS: corrisponde al 75° percentile.

Se si riportano su un piano cartesiano le aree delimitate da ciascun quartile sono uguali.

Misure di variabilità: misurano la variabilità, o dispersione, di una distribuzione di

frequenza rispetto ad un centro rappresentativo e permettono di dare una misura

all’estensione della distribuzione. Comprendono: campo di variazione; scarto

quadratico medio; varianza; e coefficiente di variazione.

Il campo di variazione, o range, è la differenza tra l’osservazione più grande e quella più

piccola. Un problema di questa misura è l’estrema sensibilità alle osservazioni estreme.

Il range interquartile, o RIQ, è determinato dalla differenza tra il quartile superiore e

quello inferiore, per cui RIQ = QS – QI. Questa misura ci dice che il 50% delle

osservazioni mediane sono comprese nei 2 estremi. Rappresenta la lunghezza

del’intervallo in cui cade il 50% centrale della distribuzione variabile.

Lo scarto quadratico medio, detto anche deviazione standard, misura di quanto si

discostano, in media, le osservazioni della variabile dalla loro media, ed è espresso nella

stessa unità di misura in cui è espressa la variabile. Si calcola facendo la radice quadrata

della somma degli scarti al quadrato diviso il numero delle osservazioni secondo la

formula σ = √ Σ(x – x) / n, dove n è il numero di osservazioni, x sono le singole

j j

osservazioni ed x è la loro media.

Il denominatore può essere:

- n: permette di determinare lo scarto quadratico medio dell’intera popolazione;

- n – 1: permette di calcolare lo scarto quadratico medio di un campione poiché in genere

si lavora con campioni. Quando il campione è molto grande la differenza degli scarti

quadratici medi, usando n o n – 1, è irrisoria e l’effetto dell’arrotondamento rende

indifferente l’uso di n o n – 1.

Lo scarto quadratico medio per dati raccolti ijn una tabella di distribuzione di frequenza

usa la formula σ = √ Σ(x – x) f / Σf .

j j j

Esercizio: calcolare lo scarto quadrati medio dell’età di 706 individui sapendo che la

media delle età è 22.85 anni. 2 2

età frequenza f scarto (x – x) scarto al quadrato (x – x) (x – X) f

j j j j j

18 1 - 4.85 23.52 23.52

5 19 27 - 3.85 14.82 400.14

20 82 - 2.85 8.12 665.84

21 109 -1.85 3.42 372.78

22 133 - 0.85 0.72 95.76

23 138 0.15 0.02 2.76

24 73 1.15 1.32 96.36

25 47 2.15 4.62 217.14

26 32 3.15 9.92 317.44

27 25 4.15 17.22 430.50

28 19 5.15 26.52 503.88

29 7 6.15 37.82 264.74

30 7 7.15 51.12 357.84

31 2 8.15 66.42 132.84

32 2 9.15 83.72 167.44

33 2 10.15 103.02 206.04

Σf = 706 Σ = 4255.02

σ = √ 42255.02 / 706 = 2.46

Per calcolare lo scarto quadratico medio per classi di merito non cambia nulla se non la

necessità di calcolare il punto di mezzo, o valore centrale, della classe ed usare quello

al posto di x .

j 2

La varianza è il quadrato dello scarto quadratico medio ed è data da var(X) = σ = 1/n

Σ(x – x) . La varianza di una costante è pari a 0. La varianza è un numero sempre positivo

e si può calcolare usando solo la media infatti si dimostra che la varianza è uguale alla

differenza tra la media del quadrato ed il quadrato della media delle osservazioni: var(X) =

2 j2 2 2 2

σ = 1/n Σx – (1/n Σx ) = E (X ) – [E (X)] , dove E indica il valore atteso e quindi la media.

Esercizio:

Anteprima

Vedrai una selezione di 4 pagine su 12

Anteprima di 4 pagg. su 12.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 4 pagg. su 12.
Scarica il documento per vederlo tutto.

Scarica

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze mediche MED/01 Statistica medica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher alebgirl di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Firenze o del prof Fabbro Giancarlo.

Appunti correlati

Invia appunti e guadagna

Recensioni

Ti è piaciuto questo appunto?

Statistica sanitaria

MISURE SINTETICHE

Recensioni

Domande e risposte

I migliori insegnanti di Matematica

Salvatore F.

Daniele P.

Matteo S.