Riassunto esame Statistica, Prof. Di Bella Beatrice, libro consigliato Principles of Biostatistics, Marcello Pagano

Revisionato il 17/04/2023

di irenelogiudice26

Publisher

Vota

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Riassunto per l'esame di Statistica, basato sul corso e sullo studio autonomo del libro consigliato da Prof. Di Bella Beatrice: Principles of Biostatistics, Marcello Pagano. Università …

Esame Statistica

Facoltà Medicina e chirurgia

Dal corso del Prof. Di Bella Beatrice

Università Università degli Studi di Messina

A.A. 2022-2023

31 pagine

Appunti esame

Scarica

Estratto del documento

QUANTILI

Statistica descrittiva

La statistica descrittiva può essere di tipo numerico o grafico. Essa dipende dal tipo di

variabili, che possono essere categoriche o quantitative. Un esempio delle prime sono il

sesso e la scolarità ed esse possono essere espresse tramite le frequenze: si deve costruire

una tabella che dispone tutte le possibili categorie insieme con le frequenze assolute o

frequenze relative. La frequenza assoluta è il numero di volte che si presenta una certa

modalità nel data set, dunque è la moda: è il numero di volte che si verifica un evento a

prescindere dal numero totale delle prove. É importante però sapere come essa si presenta in

proporzione con il numero di osservazioni del data set, e allora si parla di frequenza

relativa, ovvero la frazione delle volte con cui una determinata categoria appare nel data

set, cioè il rapporto tra la frequenza assoluta e il numero di prove eseguite. Viene misurata

con un numero decimale compreso tra 0 e 1 o in percentuale. La frequenza cumulata,

invece, associata a una modalità o a una classe di modalità, è pari alla somma della sua

frequenza assoluta e di quelle delle modalità che la precedono.

Per esaminare una tabella, però, si potrebbe perdere un certo margine di tempo, perciò è

molto utile l’utilizzo di un grafico o bar chart. Esso ci permette di - : . _ ,

determinare categorie più o meno frequenti. ;

Un altro tipo di grafico che si può utilizzare è il pie chart o grafico

a torta. Regione 1 Regione 2

100

0 - - - -

Perché usare le frequenze relative? Per il confronto della distribuzione di una variabile in

campioni di dimensioni diverse.

Esempio: si vuole valutare l’efficacia di uno psico-farmaco nel curare forme di balbuzie.

L’esperimento coinvolge due gruppi randomizzati di pazienti (A e B). Viene somministrato

un farmaco a 150 pazienti del gruppo A e il placebo a 100 pazienti del gruppo B.

Questo è il grafico delle frequenze assolute. A primo impatto sembrerebbe che il primo

farmaco sia migliore del placebo, ma, osservando il grafico delle frequenze relative, si può

notare come in realtà non sia esattamente così: per questo sono importanti le frequenze

relative.

Una serie di dati numerici è compiutamente descritta da tre proprietà principali:

• La tendenza centrale o posizione;

• La dispersione o variabilità;

• La forma.

Queste misure descrittive sintetiche, riassuntive dei dati tabellari, sono chiamate:

• Statistiche, quando sono calcolate su un campione di dati (si esprimono con lettere

dell’alfabeto latino);

• Parametri, quando descrivono la popolazione (si esprimono con lettere greche).

Regione 1 Regione 2

0 migliorato Invariato Peggiorato

Indice di tendenza centrale

É quella caratteristica che permette di capire la tendenza di una caratteristica in una

popolazione, come la variabile si presenta in quel gruppo. Essa è costituita da media, moda

e mediana.

La media è la somma di tutti i valori delle variabili del campione diviso il numero di unità

del campione (n). Essa si suddivide in lasche e ferme: le prime utilizzano solo parte

dell’osservazione, le seconde utilizzano tutte le osservazioni. La media di una popolazione

si esprime con il simbolo µ (miù).

Quando si prendono in esame una popolazione e un campione di essa, non sempre i due

corrispondono o presentano valori simili, in quanto, per la normale variabilità biologica, il

campione può presentare un valore completamente diverso. Se si aggiunge un valore

estremo al nostro campione, la media di esso varia di molto: questo valore è detto outlayer.

Ciò avviene perché la media è molto sensibile agli outlayers, in quanto viene spostata

drasticamente da essi; per questo bisogna evitare di prendere i valori estremi quando si

vuole fare la media di un campione di una popolazione.

Distribuzione gaussiana: vi sono soggetti con frequenza molto variabile.

Distribuzione asimmetrica: vi sono molti soggetti con una determinata caratteristica e pochi

con un’altra ancora (si dividono in positiva/sulla destra e negativa/sulla sinistra, questi

ultimi con outlayers più bassi).

Per il calcolo della media aritmetica ponderata si tiene conto del peso di ciascun numero,

che influisce sul calcolo finale. Essa risulta essere spostata verso la variabile che ha il peso

maggiore.

La moda è la scelta fatta dalla maggioranza della popolazione. In statistica è la modalità

della variabile che ha la massima frequenza, ovvero la modalità più ricorrente della

variabile. Se si presenta graficamente la distribuzione delle nostre variabili, si ottiene un

grafico detto istogramma e la moda ne dimostra il picco.

La moda qua è 96

100

0 0 2 4 6

Tuttavia, a volte, non vi è un’unica moda. Si può parlare di andamento bimodale quando,

per due categorie, vi è una moda per ognuna di esse. Quando dei valori si presentano con la

stessa frequenza, si parla di andamento zeromodale.

La mediana è il valore che occupa la posizione centrale in un insieme ordinato di dati.

Per calcolare la mediana di un gruppo di dati, bisogna disporre i valori in ordine crescente

oppure decrescente (bisogna dunque ordinarli) e contare il numero totale n di dati: se il

numero n dei dati è dispari, la mediana corrisponde al valore numerico del dato centrale; se

n è pari bisogna fare la media dei due valori centrali (ovvero n/2 e n/2 + 1). Ad esempio, se

abbiamo 10 valori, bisogna fare la media tra il quinto e il sesto valore.

Vi è una relazione tra media, moda e mediana. Nelle distribuzioni simmetriche, esse hanno

tutti e tre i valori uguali. Se l’asimmetria è positiva (o a destra) o negativa (o a sinistra), la

moda è l’indice di tendenza con il valore maggiore, ma l’andamento del grafico è invertito.

L’asimmetria positiva, nel grafico, presenta un picco sulla sinistra e un appiattimento verso

destra; l’asimmetria negativa presenta, invece, un picco a destra e un appiattimento verso

sinistra.

I quantìli

La mediana fa parte della famiglia dei quantili, ovvero una famiglia di misure che divide

una distribuzione in parti uguali. Se una distribuzione viene divisa in quattro parti uguali

(ovvero si usano tre punti), si parla di quartili. Il primo quartile è definito come il numero

q1 per il quale il 25% dei dati statistici è minore o uguale a q1; il secondo quartile è definito

come il numero q2 per il quale il 50% dei dati statistici è minore o uguale a q2. Il secondo

quartile corrisponde alla mediana; il terzo quartile è definito come il numero q3 per il quale

il 75% dei dati statistici è minore o uguale a q3.

In una distribuzione, ad esempio, il primo quartile corrisponde alla mediana dei numeri al di

sotto della mediana della distribuzione; il secondo quartile corrisponde alla mediana della

distribuzione; il terzo quartile corrisponde alla mediana dei numeri al di sopra della mediana

della distribuzione.

In modo analogo si definiscono i decili, ovvero i 9 punti che dividono una distribuzione in

dieci parti, e centili i 99 punti che dividono una distribuzione in centro parti.

Sono molto importanti i percentili. Essi, infatti, sono utili nella pratica clinica per calcolare

l’intervallo di normalità di un parametro biologico e per le cure biologiche (esempio del

BMI).

In caso di differenza tra moda, media e mediana, a quale misura di tendenza centrale è

meglio riferirsi? Si sceglie in base a ciò che conviene.

La mediana è un indice di tendenza centrale, ma anche se fa parte dei quantili questi non

sono indici di tendenza centrale, bensì indici di posizione.

14/11/2022

Gli indici di variabilità

Gli indici di variabilità, o indici di dispersione, servono per poter capire se una variabile è

presente in maniera maggiore o minore nella popolazione o campione. Essi sono diversi:

• Il range;

• Devianza;

• Varianza;

• Deviazione standard;

• Coefficiente di variazione;

• Range interquantilico.

Il range è semplicemente la differenza tra il massimo e il minimo. Esso però potrebbe dare

dei problemi: ogni singolo outlayer potrebbe spostare drasticamente il range e, inoltre, esso

non dice cosa accade esattamente all’interno di una popolazione (se vi è una distribuzione

più o meno omogenea).

Si usa più comunemente allora la deviazione standard, la quale dice quanto sono disperse

le nostre osservazioni rispetto alla media, ma per arrivare a essa vi sono dei passaggi

intermedi. Per calcolarla, si parte dalla devianza, ovvero la somma degli scarti quadratici,

cioè si prende ogni singola osservazione, la si confronta con la media e infine si sommano

tutte le differenze. Si ottengono così valori sia positivi sia negativi, la cui somma dà 0,

dunque un valore inutilizzabile. Tutti questi valori, allora, si elevano al quadrato e in seguito

si sommano, determinando così la formula della somma degli scarti quadratici. Ogni volta

che si aggiunge un’osservazione, però, la devianza aumenta. Perciò, anziché basarsi sulla

somma degli scarti quadratici, ci si deve focalizzare più che altro sullo scarto quadratico

medio, ovvero la varianza.

La varianza di un campione è la misura che caratterizza molto bene la variabilità di un

campione. Al numeratore va messa la devianza, mentre al denominatore va messo n-1 (e si

indica la varianza con s², poiché si parla di “varianza di un campione”) oppure n (si indica la

varianza con ², poiché si parla di “varianza di una popolazione”).

Se si vuole calcolare la varianza, dunque, prima bisogna calcolare la media dei valori a

nostra disposizione per poter poi fare la somma degli scarti quadratici e, alla fine, ottenere

lo scarto quadratico medio dividendo per n o n-1, in base alla presenza di un campione o di

una popolazione.

La deviazione standard altro non è che la radice quadrata della varianza e viene indicata

con “s” o con “ ”. Avendo elevato al quadrato, significa che la varianza ha un’unità di

misura non più comparabile con il nostro indice di tendenza centrale, il quale esprime come

una variabile è caratteristicamente espressa nel gruppo e alla quale bisogna associare un

indice di tendenza variabile, in maniera tale da capire se la variabile è espressa in maniera

più o meno eterogenea nella popolazione o nel campione. Poiché la deviazione standard è

una misura di distanza dalla media, essa ha sempre valore po

Anteprima

Vedrai una selezione di 8 pagine su 31