vuoi
o PayPal
tutte le volte che vuoi
MODA
È l’osservazione più frequente
MEDIA PESATA ff
I valori più grandi in uenzano fortemente la media. La mediana mostra meglio le caratteristiche
della distribuzione.
Inoltre, in presenza di un insieme di osservazioni simmetrico con una sola moda, le tre misure di
posizione tendono ad essere simili. In presenza di un insieme di osservazioni asimmetrico, è buon
norma riportare media e mediana. La media è una misura a dabile, ossia quando si estraggono
campioni dalla stessa popolazione, le medie campionarie tendono ad essere simili, non variano
tanto quanto le altre misure di posizione.
QUANTILI
I quantili sono un’estensione del concetto di mediana. Per ottenerli bisogna suddividere dei dati in
parti uguali.
• Quartili (suddivisione dei dati in 4 parti uguali): Q1, Q2, Q3
• Percentili (suddivisione dei dati in 100 parti uguali): P1, P5, P10
Intervallo di riferimento o range di riferimento o range di normalità: intervallo di valori che
comprende la maggior parte dei soggetti. In genere viene calcolato al 90% o al 95% o al 99%
(vale a dire che comprende il 90% o il 95% o il 99% lasciando fuori i soggetti con valori più
estremi). Si può calcolare a partire dalla distribuzione di frequenza cumulativa di una determinata
variabile (ma non solo ...).
curve di accrescimento
Le sono elaborate dai centri auxologici delle di erenti nazioni.
Rappresentano il modo in cui la popolazione cresce in funzione dell’età. Indicano a quali percentili
corrispondono le altezze e i pesi di soggetti di sesso femminile e maschile.
fl ffi ff
MISURE DI DISPERSIONE E Z-SCORES
variabilità.
Una misura di dispersione è la
Esempio: tempi di attesa di tre pazienti in due ospedali:
La media è la stessa, ma i tempi di attesa variano molto di più nell’ospedale con code separate di
quanto varino nell’ospedale in cui c’è un’unica coda
Fonti di variabilità
Biologiche: età, sesso, razza, fattori genetici, dieta, stato socioeconomico, anamnesi medica,
remota
Temporali: stato emotivo, stato di attività, clima, ritmi circadiani
Errori di misura: osservatori, strumenti di misura, condizioni dei laboratori, stabilità dei reagent
RANGE O CAMPO DI VARIAZIONE
valore massimo osservato - valore minimo osservato
• molto suscettibile agli OUTLIERS
• trascura tutta l’informazione contenuta nei dati
deviazione standard
La (ds) è la misura di dispersione più importante e utilizzata per variabili
quantitative
De nizione: è una misura della variazione dei valori rispetto alla media. Si tratta di una “media”
delle di erenze delle osservazioni della variabile dalla media calcolata sul campione.
Formula:
Proprietà della deviazione standard
• È una misura della variazione i tutti i valori rispetto alla media
• Non può essere negativa. Vale 0 solo quando tutte le osservazioni ella variabile calcolata sono
uguali; maggiore è la ds, maggiore è la variazione dei dati da cui è stata calcolata
• Il valore della ds aumenta in presenza di uno o più outlier
• L’unità di misura della ds è la stessa della variabile
Procedura del calcolo
1. Calcolare la media
2. Sottrarre la media da ciascuna osservazione della variabile, ottenendo in questo modo gli
scarti della media
3. Elevare al quadrato tutti gli scarti ottenuti al passo 2. Si ottengono gli scarti della media al
quadrato
4. Sommare le quantità ottenute al punto 3. Si ottiene la sommatoria degli scarti al quadrato
5. Dividere il totale ottenuto al punto 4 per (N-1), dove N è il numero di unità statistiche del
campione
fi ff 6. Calcolare la radice quadrata del risultato del punto 5
Formula per il calcolo della deviazione standard se l’abbiamo dati in una tabella
VARIANZA: è il quadrato della ds
(Minuti al quadrato)
Variabili quantitative
Si utilizza la ds:
• Se la ds è sensibile si valori anomali
• Se i dati sono distribuiti in modo normale, si usa la media
• Nei casi in cui la distribuzione non segue una distribuzione normale si usa la mediana come
misura di posizione e IQ come misura di dispersione
• Intervallo o range interquantile (IQ): misura della di erenza tra il primo quartile e terzo quartile
Coe ciente di variazione: fornisce una misura della ds rispetto alla media
Z-SCORE O PUNTEGGIO STANDARDIZZATO
Traduce l’osservazione della variabile in un valore standardizzato
De nizione: è il numero di ds di cui una data osservazione è sopra o sotto la media
BOXPLOT: è un metodo gra co usato per visualizzare caratteristiche più importanti di una
distribuzione di frequenza. La lunghezza dei “ba ” è determinata da:
- Ba o inferiore: Q1 – 1,5*IQR
- Ba o superiore Q3 – 1,5*IQR
IQR= intervallo interquartile (di erenza tra primo e terzo inerquartile)
Si de nisce outlier un valore che giace fuori dei valori Q1 – 1,5*IQR o Q3 – 1,5*IQR
(rivelatori di informazioni importanti, in uiscono su media e deviazione standard)
I boxplot sono meno dettagliati degli istogrammi, sono utilissimi per confrontare tra loro due o più
insiemi di dati (è necessario usare la stessa scala per rendere possibili i confronti)
Come posso determinare il legame tra due o più variabili? COEFFICIENTE DI CORRELAZIONE (r).
Esempio: massimo consumo di ossigeno e prestazione nelle gare, indice di forza relativa e
capacità
di salto.
Il coe ciente di correlazione è un numero compreso tra -1 e 1.
- Se r=0 indica assenza di correlazione
- Se r>0 le due variabili covariano
- Se r<0 le due variabili controvariano
- R=1 o r=-1 esiste una relazione matematica tra le due variabili
fi ff
ff
ffi fi ffi fi ff fl ffi ff
CORRELAZIONE E REGRESSIONE
correlazione
La considera la forza dell’associazione lineare che tra due variabili numeriche;
entrambe le variabili sono dipendenti.
regressione
La considera l’esistenza di una relazione lineare tra due variabili numeriche; una
variabile indipendente e una dipendente.
Per convenzione la variabile dipendente è l’asse Y; la variabile indipendente è l’asse X.
Sia per la correlazione che per la regressione ha senso descrivere la relazione tra due variabili
ssando una retta sui punti. La retta mostra il trend dei dati.
Y = β 0 + β1X + ε
retta di regressione
La è una retta che minimizza le distanti verticali dei punti, questo metodo è
minimi quadrati
detto dei
Esempio:
Nell’asse delle X abbiamo l’età, mentre nell’asse delle Y abbiamo i valori di pressione. Possiamo
costatare che la pressione aumenta con l’aumentare dell’età.
fi L’intercetta è la media predetta della variabile dipendente Y quando X è uguale a zero. Per
questo esempio la media della pressione è quando l’età è zero.
pendenza
La è la variazione media stimata della variabile Y per variazione unitaria X. Per questo
esempio all’aumentare di un anno di età, la pressione aumenta di circa 1mmHg.
L’interferenza è applicabile solo entro l’intervallo sperimentale dei valori X.
La mancanza di pendenza non signi ca mancanza di relazione.
coe ciente angolare
Per calcolare il di una retta si utilizza questa formula:
Esempi:
Regressione lineare multipla
È di cile determinare il modello migliore, è impossibile visualizzare questo modello, il modello
ssato può essere di cile da interpretare nella realtà, i calcoli non possono essere fatti a mano.
Regola del pollice per calcolo sample size: almeno 20 casi per variabile indipendente analizzata.
coe ciente di correlazione di Pearson:
Il
• -1 < r < +1
• r = 0 indica assenza di correlazione
• Se r > 0 le due variabili covariano
• Se r < 0 le due variabili controvariano
• r = 1 o r = -1 esiste una relazione matematica tra le due variabili
Per il calcolo di r, quindi per la misura della forza della associazione tra due variabili utilizziamo la
seguente formula:
fi ffi ffi ffi ffi fi
Non ha unità di misura, la correlazione perfetta è quando vi è esatta relazione lineare tra x e y , r è
uguale a -1 o +1. È positivo se la pendenza è positiva, è negativo se la pendenza è negativa.
Misura quando i punti clusterizzano intorno alla retta di regressione.
L’interpretazione:
• 0 < r < 0,25 poca o nessuna associazione
• 0,25 < r < 0,50 discreta associazione
• 0,50 < r < 0,75 moderata/buona
• > 0, 75 molto buona/eccellente
La mancanza di correlazione non signi ca mancanza di relazione, ma solo di una relazione di tipo
lineare. Non si estrapola una correlazione al di fuori dell’intervallo di osservazione delle variabili X
e Y. Correlazione non signi ca relazione causale.
REGRESSIONE
La è il metodo che ci permette di stimare la relazione numerica tra variabili. In
questo esempio, vogliamo sapere qual è la media (valore atteso) del FEV1 per gli studenti di una
certa altezza e qual è l’incremento del FEV1 all’aumento unitario dell’altezza.
FEV1 è la variabile di risposta o dipendente
Altezza è la variabile esplicativa o indipendente
FEV1 = a+b x altezza (regressione lineare semplice)
VARIABILITÀ
La non è del tutto imprevedibile: molti fenomeni naturali seguono un modello
teorico de nito “curva di distribuzione normale” o “gaussiana”. In presenza di dati che seguono
una distribuzione normale, si può risalire ai caratteri della popolazione che ha generato i suddetti
dati, conoscendo soltanto media
e deviazione standard.
fi fi fi
La distribuzione normale o gaussiana
• Famiglie di curve de nite unicamente da 2 parametri: MEDIA, DEVIAZIONE STANDAR
• Curve simmetriche intorno alla media, a forma di campana
• La DS indica quanto la curva è più o meno schiacciata
• La maggior parte delle variabili biologiche seguono una distribuzione normale
Quali sono le caratteristiche di questa distribuzione e perché è così importante?
• La curva normale può essere utilizzata per stimare le probabilità associate a variabili che si
distribuiscono “normalmente”.
• Ad esempio in una popolazione in cui i livelli di colesterolo si distribuiscono normalmente con
media µ=220 e deviazione standard σ=21, potremmo voler conoscere qual è la probabilità che
un individuo scelto a caso abbia un valore di colesterolo maggiore a 250 mg/100ml.
• Poich&eacut