Anteprima
Vedrai una selezione di 8 pagine su 33
Appunti rielaborati del corso di Statistica medica   Pag. 1 Appunti rielaborati del corso di Statistica medica   Pag. 2
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Appunti rielaborati del corso di Statistica medica   Pag. 6
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Appunti rielaborati del corso di Statistica medica   Pag. 11
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Appunti rielaborati del corso di Statistica medica   Pag. 16
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Appunti rielaborati del corso di Statistica medica   Pag. 21
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Appunti rielaborati del corso di Statistica medica   Pag. 26
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Appunti rielaborati del corso di Statistica medica   Pag. 31
1 su 33
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

MODA

La moda è la modalità maggiormente frequente in una distribuzione. È utilizzata quasi esclusivamente per variabili qualitative nominali. In una distribuzione si possono avere anche più valori modali (si potrebbero avere 2 o più modalità che si presentano con frequenza uguale).

Una distribuzione è unimodale se ha un solo valore modale, bimodale se sono presenti due valori modali (si hanno due picchi di stessa altezza, in corrispondenza di due modalità diverse (moda, mediana e media non coincidono)), trimodale se ne ha tre, ecc.

Una distribuzione può anche non avere moda. Nel caso di variabili quantitative continue, è possibile calcolare tutte e 3 queste misure di posizione. Non sempre, però, forniscono lo stesso risultato.

Se media, mediana e moda coincidono, la distribuzione è una distribuzione simmetrica. La più famosa delle distribuzioni simmetriche è la distribuzione Gaussiana.

Una distribuzione che ha due valori modali,

è una distribuzione bimodale. Ha due picchi di stessa altezza, incorrispondenza di due modalità diverse. (moda, mediana e media non coincidono)

Se invece media, mediana e moda non coincidono, la distribuzione è una distribuzione asimmetrica. Può essere:

  • distribuzione asimmetrica destra (o d. a. positiva). Ha una coda che si estende verso destra, verso numeri grandi. Mo ≤ Me ≤ media aritmetica. La media aritmetica è spostata verso dx, perché trascinata dai valori grandi. La più famosa d.a.d. è la distribuzione del chi quadrato.
  • una distribuzione asimmetrica sinistra (o d. a. negativa). Ha una coda che si estende verso sx, verso numeri piccoli. media aritmetica ≤ Me ≤ Mo. La media aritmetica è spostata verso sx, perché sarà trascinata da valori piccoli. La moda è il picco più alto del grafico.

QUANTILI

È possibile generalizzare il concetto di mediana. Come la mediana divide

La distribuzione in 2 parti uguali, i quantili dividono la distribuzione in più parti uguali, in modo che in ciascuna parte è contenuto lo stesso numero di unità statistiche. Quando dividono la distribuzione ordinata in 4 parti uguali, questi indicatori prendono il nome di quartili. Quando dividono in 10 parti uguali prendono il nome di decili. Se dividono in 100 parti uguali, si parla di percentili. Si utilizzano soprattutto i quartili. Dividono la distribuzione in 4 parti uguali. Ogni parte contiene il 25% delle unità statistiche (=osservazioni). Il primo quartile (Q1) è un valore della variabile tale da lasciare alla sua sinistra ¼ = 25% delle unità statistiche, il secondo quartile (Q2) lascia il 50% delle unità statistiche a sinistra, e il 50% alla sua destra, e corrisponde alla mediana, mentre il terzo quartile (Q3) lascia alla sua destra ¼ = 25% delle unità statistiche. Non bisogna dividere in 4 parti uguali.

l’asse delle x /il range della variabile, ma il numero delle unitàstatistiche!!!Se i quartili sono molto vicini, vuol dire che li ci sono molto soggetti, con valori molto simili.

Box-plot o diagramma a scatola è un tipo di grafico molto usato nella letteratura scientifica.
Ha l’obiettivo di graficare queste misure. La linea al centro della scatola, è il valore della mediana(che corrisponde al secondo quartile), mentre il box hacome estremo inferiore il primo quartile e come estremosuperiore il terzo quartile. Nella scatola è quindi contenutoil 50% dei soggetti, che assume un valore compreso tra ilprimo quartile e il terzo quartile. Il 25% dei soggettiassume un valore più piccolo del primo quartile, e ilrestante 25% assume un valore più grande del valore delterzo quartile.

Sono presenti poi dei segmenti, chiamati baffi, cheindividuano all’incirca il minimo e il massimo.

I valori lontani o molto lontani (valori anomali), sepresenti.

Vengono segnalati individualmente nel box-plot per evidenziarne la presenza e la posizione. Queste scatole possono essere molto ampie o molto strette. Scatole molto ampie rappresentano fenomeni molto dispersi, con molta variabilità.

In merito alla scelta dell'indice più adeguato alla rappresentazione della distribuzione di dati si può evidenziare quanto segue:

  • La media aritmetica è indicata quando i dati quantitativi presentano "abbastanza" simmetria (si pensi alla distribuzione simmetrica) e anche quando tali dati sono in progressione aritmetica (la differenza tra un dato e il precedente è costante)
  • La mediana può essere calcolata per caratteri qualitativi ordinali e caratteri quantitativi; si presta meglio di altri valori medi per esprimere il valore centrale di distribuzioni di caratteri che non possono essere misurati "esattamente" (ad es. i caratteri psicologici graduabili) oppure quando la distribuzione di una
carattere rappresenta valori "anomali" o asimmetria (in sostanza, non si può far riferimento alla distribuzione normale), in quanto essa non risulta influenzata dai valori estremi della distribuzione. La moda può essere calcolata per un carattere statistico qualunque (sia qualitativo che quantitativo) e non risente dei valori estremi (ad esempio è indicata per caratteri per i quali non si conoscono i valori estremi); tuttavia risulta l'indice con minor contenuto informativo. MISURE DI VARIABILITÀ O INDICI DI VARIABILITÀ O MISURE DI DISPERSIONE Le misure di sintesi (media, mediana, moda) permettono di sintetizzare una distribuzione statistica. Tali misure, non sono tuttavia sufficienti a descrivere completamente una distribuzione; sono necessarie altre misure che quantificano la variabilità (o dispersione) dei dati della mia distribuzione, cioè le misure di variabilità. Questi indici di variabilità, permettono di capire

Quanto le diverse unità statistiche sono distanti dal valore medio (devianza, varianza, dev. standard), oppure esprimono la distanza tra 2 valori caratteristici della distribuzione.

Le misure di variabilità sono:

  1. Campo di variazione (range)
  2. Devianza
  3. Varianza
  4. Deviazione Standard
  5. Coefficiente di variazione (variabilità relativa)

Il CAMPO DI VARIAZIONE O RANGE: è semplicemente la differenza tra la modalità più grande e la modalità più piccola della distribuzione.

R = Xmax - Xmin

In letteratura è riportata non come differenza, ma come intervallo, quindi troveremo scritto: il min. è 10, il max è 70 perché più facile da interpretare; però il range è definito come differenza.

È un misura di variabilità molto semplice da calcolare, ma ha dei limiti:

  • Tiene conto dei due soli valori estremi, trascurando tutti gli altri
  • È troppo influenzato dai valori estremi

(quindi dai valori anomali che sono sempre agli estremi delladistribuzione)

Questo problema si acuisce al crescere della numerosità campionaria, perché più grande sarà la numerositàdei soggetti che entrano a far parte del mio studio, maggiore sarà la probabilità di trovare qualche soggettocon valori anomali.

Occorre allora un indice di dispersione che consideri tutti i dati (e non solo quelli estremi), confrontandoquesti con il loro valor medio.

Ho bisogno di una misura che permetta di quantificare quanto le diverse unità statistiche del mio campionesono lontane dalla media aritmetica.

La DEVIANZA: è la somma dei quadrati degli scarti della media aritmetica. Ovviamente ogni scarto èmoltiplicato per la sua frequenza assoluta.

Faccio la somma delle differenze di ciascuna modalità con la media.

Scelgo di utilizzare la somma dei quadrati degli scarti della media aritmetica, perché c’è una regola che

quantità di osservazioni.

numerosità campionaria. Si indica con il simbolo S. È indipendente dalla numerosità campionaria. Il denominatore n è quasi sempre sostituito da (n-1). Questo perché se lavoro su un campione piccolo, è come se volessi tutelarmi del fatto che sto lavorando su un campione piccolo. Infatti su un campione piccolo, dividendo per n-1 anziché per n (es 9 anziché 10) il valore della variabilità cambia, in particolare aumenta, e questo permette di sovrastimare un po' la variabilità, in modo da tutelarmi in termini di interpretazione. Se invece il campione è grande, il risultato non cambia. La varianza però, come misura di dispersione ha ancora il problema dell'unità di misura. Per questo motivo spesso si utilizza come misura di variabilità non la varianza ma la deviazione standard, che ha la stessa unità di misura dei dati e della media aritmetica.

lità non sono più valide. In questi casi, si utilizza la deviazione mediana, che è la somma delle differenze tra ciascun valore e la mediana, divisa per il numero totale di valori. La deviazione mediana è una misura di dispersione robusta, che non viene influenzata da valori anomali o estremi. Un'altra misura di dispersione molto utilizzata è l'intervallo, che rappresenta la differenza tra il valore massimo e il valore minimo di un insieme di dati. L'intervallo fornisce un'indicazione della variabilità totale dei dati, ma non tiene conto della distribuzione dei valori all'interno dell'intervallo. Infine, esiste anche la varianza, che è la media dei quadrati delle differenze tra ciascun valore e la media aritmetica. La varianza fornisce una misura della dispersione dei dati rispetto alla media, ma è espressa in unità di misura al quadrato, quindi non è facilmente interpretabile. Per ottenere una misura di dispersione più facilmente interpretabile, si calcola la radice quadrata della varianza, ottenendo così la deviazione standard. In conclusione, esistono diverse misure di dispersione che possono essere utilizzate per valutare la variabilità dei dati. La scelta della misura dipende dal tipo di dati e dall'obiettivo dell'analisi.
Dettagli
Publisher
A.A. 2022-2023
33 pagine
SSD Scienze mediche MED/01 Statistica medica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Pucone92 di informazioni apprese con la frequenza delle lezioni di Statistica medica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi Gabriele D'Annunzio di Chieti e Pescara o del prof Di Nicola Marta.