Estratto del documento

STATISTICA

Lez. 1

L’obiettivo della statistica è saper distinguere reali differenze dalla semplice variabilità

naturale e casuale. La statistica la dividiamo in:

- Descrittiva, ci insegna a sintetizzare i nostri dati, descrivendoli ed ordinandoli

- Inferenziale, ci permette di dedurre dei risultati partendo da un campione e

generalizzando su tutta la popolazione.

L’inferenza statistica quindi è fondamentale, perché mi permette di dire che se su 100

persone tetraplegiche a cui ho messo il tape, 95 sono migliorate allora lo devo mettere

a tutti i tetra.

Le variabili all’interno di un’analisi statistica possono essere:

- Dipendenti, se questa si modifica in risposta ad un’altra

- Indipendente, che quando io modifico, si modifica la dipendente.

Esempio: se io esto un farmaco, la variabile dipendente saranno i suoi effetti sui

pazienti, la variabile indipendente sarà ad esempio la quantità di farmaco che

somministro.

Le variabili le possiamo distinguere in:

- Qualitative, cioè non numeriche, come il sesso, il colore dei capelli, le abitudini

- Quantitative, cioè numeriche, come l’età, il numero di persone o il loro peso.

Le variabili pe possiamo dividere infine come:

- Discrete, che possono assumere solo valori interi, come i membri di una

famiglia, il numero di gravidanze;

- Continue, che possono assumere valori decimali come l’altezza o il peso.

Per iniziare ad analizzare i dati utilizziamo l’indice di tendenza:

- Centrale, indica dove si trova il centro dei nostri valori

- Dispersione, quanto quel dato valore si allontana dal centro.

Ad esempio, due persone all’università hanno la media del 24, la prima ha preso solo

24 come votazione, la seconda ha preso diversi voti tra il 18 ed il 30; queste due

persone hanno lo stesso indice di centralità (24), ma nel primo caso l’indice di

dispersione è 0, nel secondo caso invece sarà alto.

La media aritmetica è uno degli indici di tendenza centrale, infatti si effettua

facendo la somma dei valori / la numerosità, la media è un indice fortemente

influenzato dai valori estremi.

La mediana è un altro indice di tendenza centrale ma che non viene distorto dai valori

estremi, perché rappresenta il numero che divide a metà la nostra distribuzione dei

dati ordinata. Se i numeri sono dispari sarà semplicemente il numero che si trova a

metà distribuzione, se i numeri sono pari, la mediana sarà il numero risultante della

media tra i due numeri centrali.

Lez. 2

La frequenza può essere:

- Assoluta, indica quante volte compare un carattere

- Relativa, indica il rapporto tra la frequenza assoluta ed il totale.

La moda invece è un indice che fa riferimento alla numerosità, quante volte si

presenta quella caratteristica. La moda è quindi rappresentata da quella categoria con

frequenza maggiore, se ci sono più categorie con la stessa frequenza allora la

distribuzione sarà multimodale. La moda la utilizziamo per osservare i dati qualitativi

tendenzialmente.

Nella tabella di distribuzione di frequenze tendenzialmente andiamo a trovare prima la

frequenza assoluta (quante volte si è presentato quel dato), poi la frequenza relativa

(la frequenza assoluta fratto il totale), e la percentuale della frequenza relativa.

Un altro tipo di frequenza che possiamo incontrare è la frequenza cumulata, questa

si effettua andando a fare la frequenza assoluta cumulata, dove sommiamo la

frequenza assoluta dei nostri dati ai dati precedenti, e la frequenza relativa cumulata,

dove sommiamo la frequenza relativa di un dato alle frequenze relative dei dati

precedenti.

Quando vado a fare queste tabelle per tanti valori diversi tra loro, è importante saper

dividere in classi: anziché utilizzare 120 colonne per scrivere l’età di 120 persone le

divido in 5 classi per 5 fasce d’età. Decidere le classi è difficile perché l’obiettivo è sia

schematizzare, sintetizzare, e rendere facile la comprensione della tabella, ma anche

effettuare un’analisi statistica, quindi non posso riassumere troppo, altrimenti potrei

disperdere dei dati significativi. Per prima cosa mi calcolo l’intervallo di variazione

(range), e si fa effettuando la differenza tra il valore più alto ed il più basso, poi decido

il numero di classi (gruppi), e poi divido l’intervallo di variazione per il numero delle

classi: questo mi darà come risultato (arrotondando per eccesso) quanti elementi

devono essere all’interno di ogni classe per aver quel numero di raggruppamenti.

I grafici più utilizzati sono:

- Gli istogrammi, si utilizzano per i dati continui, numerici;

- I grafici a barre servono invece per i dati nominali, diversi tra loro;

- Poligono di frequenza, è simile ad un istogramma ma anziché le barre si

utilizzano dei punti che poi si connettono con linee di modo da rappresentare la

continuità più esplicitamente.

Gli indici di dispersione più osservati sono:

- Il range (valore massimo- valore minimo)

- Gli intervalli interquartili

Gli intervalli interquartili li facciamo mettendo i nostri dati in ordine crescente e

calcoliamo la mediana. Ora abbiamo una prima metà ed una seconda metà, e

facciamo la mediana di questi due gruppi, così che mi sono ricavato 4 gruppi uguali

divisi da: un quartile inferiore, la mediana, ed un quartile superiore. Se io voglio

dividere i miei dati non in quattro parti ma in enne, allora anziché quartili li definisco

quantili, e divido il mio campione nel numero di gruppi che mi serve, i quantili più

utilizzati sono i percentili, che mi dividono in campione in 100 parti. Quindi quando

dico che ad esempio un bambino ha un peso al 20° percentile, vuol dire che in un

gruppo di 100 bambini della sua età, 80 pesano più di lui, e 19 meno. La mediana,

quindi, rappresenta il 50° percentile di un campione, il quartile inferiore il 25° ed il

quartile superiore il 75°.

Un altro indice di dispersione importante è la varianza.

Lo scarto grezzo è un valore che mi calcolo effettuando la media del campione e

sottraendola da ogni valore, con questo calcolo posso vedere quanto ogni mio valore si

discosta dalla media. Tornando all’esempio della media dei voti, se il primo caso in cui

la media è 24 ed ho sempre preso 24, lo scarto grezzo sarà 0, perché la differenza tra i

miei valori e la mia media è nulla, se invece guardiamo il secondo caso in cui a volte

ho preso 18 ed altre volte 30 allora avrò uno scarto grezzo differente per ogni voto. La

somma degli scarti grezzi è SEMPRE uguale a 0. Per andare a vedere lo scarto

assoluto quindi dovrò sommare il valore assoluto degli scarti grezzi, così che non avrò

i numeri negativi ma solo la distanza in positivo dei miei valori dalla media, per andare

a vedere poi lo scarto medio dovrò fare la media degli scarti grezzi in valore

assoluto, quindi lo scarto assoluto / la numerosità del campione.

Il problema dello scarto medio è che avendo lavorato con valori assoluti,

algebricamente non possiamo utilizzare questo valore, anche se a livello descrittivo è

molto utile, per utilizzare algebricamente dei valori negativi in positivi serve elevarli al

quadrato, e riaggiustare la formula, quindi faremo lo scarto grezzo meno lo scarto

medio, tutto elevato al quadrato. E la sommatoria degli scarti grezzi meno lo scarto

medio al quadrato diviso la numerosità, corrisponde alla varianza.

Il nostro numero al quadrato però non è risolto, quindi per controbilanciare

l’aggiustamento algebrico dovremo mettere tutto sotto radice quadrata, e questo

risultato lo definiamo DEVIAZIONE STANDARD detta anche scarto quadratico

medio.

Il concetto da cui sono partita quindi è lo scarto, che mi indica proprio la differenza dei

miei valori rispetto la media, e cerco di sommarlo per avere un’idea globale di quanto

variano i miei dati, ma la somma degli scarti grezzi è sempre zero perché la media

divide esattamente a metà i miei valori, è il baricentro, quindi per avere uno scarto

globale devo elevare tutto al quadrato così da rendere positivi i numeri negativi, alla

fine ho quindi la sommatoria degli scarti al quadrato che divido per la quantità di

numeri presa in esame così da avere un valore bilanciato al mio campione e pongo

tutto sotto radice quadrata.

La formula più precisa al denominatore contiene N-1 e non N e basta, perché? N-1 lo

definiamo il grado di libertà, e rappresenta quanti numeri possono variare per

mantenere uguale la media, infatti se io ho una media, una numerosità, ma mi manca

un numero del mio campione, potrò risalirci con certezza a quell’ultimo numero, che è

per forza quello. Quindi se ho una media di 80 ed ho 4 valori che sono 90, il quinto

valore anche se non lo so è per forza 40, i primi 4 numeri quindi avrebbero potuto

Anteprima
Vedrai una selezione di 4 pagine su 15
Statistica medica Pag. 1 Statistica medica Pag. 2
Anteprima di 4 pagg. su 15.
Scarica il documento per vederlo tutto.
Statistica medica Pag. 6
Anteprima di 4 pagg. su 15.
Scarica il documento per vederlo tutto.
Statistica medica Pag. 11
1 su 15
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze mediche MED/01 Statistica medica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Giadaferraz di informazioni apprese con la frequenza delle lezioni di Statistica medica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Roma La Sapienza o del prof Raimondo Domenico.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community