Anteprima
Vedrai una selezione di 5 pagine su 20
Statistica  Pag. 1 Statistica  Pag. 2
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
Statistica  Pag. 6
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
Statistica  Pag. 11
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
Statistica  Pag. 16
1 su 20
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

MODA

È l’osservazione più frequente

MEDIA PESATA ff

I valori più grandi in uenzano fortemente la media. La mediana mostra meglio le caratteristiche

della distribuzione.

Inoltre, in presenza di un insieme di osservazioni simmetrico con una sola moda, le tre misure di

posizione tendono ad essere simili. In presenza di un insieme di osservazioni asimmetrico, è buon

norma riportare media e mediana. La media è una misura a dabile, ossia quando si estraggono

campioni dalla stessa popolazione, le medie campionarie tendono ad essere simili, non variano

tanto quanto le altre misure di posizione.

QUANTILI

I quantili sono un’estensione del concetto di mediana. Per ottenerli bisogna suddividere dei dati in

parti uguali.

• Quartili (suddivisione dei dati in 4 parti uguali): Q1, Q2, Q3

• Percentili (suddivisione dei dati in 100 parti uguali): P1, P5, P10

Intervallo di riferimento o range di riferimento o range di normalità: intervallo di valori che

comprende la maggior parte dei soggetti. In genere viene calcolato al 90% o al 95% o al 99%

(vale a dire che comprende il 90% o il 95% o il 99% lasciando fuori i soggetti con valori più

estremi). Si può calcolare a partire dalla distribuzione di frequenza cumulativa di una determinata

variabile (ma non solo ...).

curve di accrescimento

Le sono elaborate dai centri auxologici delle di erenti nazioni.

Rappresentano il modo in cui la popolazione cresce in funzione dell’età. Indicano a quali percentili

corrispondono le altezze e i pesi di soggetti di sesso femminile e maschile.

fl ffi ff

MISURE DI DISPERSIONE E Z-SCORES

variabilità.

Una misura di dispersione è la

Esempio: tempi di attesa di tre pazienti in due ospedali:

La media è la stessa, ma i tempi di attesa variano molto di più nell’ospedale con code separate di

quanto varino nell’ospedale in cui c’è un’unica coda

Fonti di variabilità

Biologiche: età, sesso, razza, fattori genetici, dieta, stato socioeconomico, anamnesi medica,

remota

Temporali: stato emotivo, stato di attività, clima, ritmi circadiani

Errori di misura: osservatori, strumenti di misura, condizioni dei laboratori, stabilità dei reagent

RANGE O CAMPO DI VARIAZIONE

valore massimo osservato - valore minimo osservato

• molto suscettibile agli OUTLIERS

• trascura tutta l’informazione contenuta nei dati

deviazione standard

La (ds) è la misura di dispersione più importante e utilizzata per variabili

quantitative

De nizione: è una misura della variazione dei valori rispetto alla media. Si tratta di una “media”

delle di erenze delle osservazioni della variabile dalla media calcolata sul campione.

Formula:

Proprietà della deviazione standard

• È una misura della variazione i tutti i valori rispetto alla media

• Non può essere negativa. Vale 0 solo quando tutte le osservazioni ella variabile calcolata sono

uguali; maggiore è la ds, maggiore è la variazione dei dati da cui è stata calcolata

• Il valore della ds aumenta in presenza di uno o più outlier

• L’unità di misura della ds è la stessa della variabile

Procedura del calcolo

1. Calcolare la media

2. Sottrarre la media da ciascuna osservazione della variabile, ottenendo in questo modo gli

scarti della media

3. Elevare al quadrato tutti gli scarti ottenuti al passo 2. Si ottengono gli scarti della media al

quadrato

4. Sommare le quantità ottenute al punto 3. Si ottiene la sommatoria degli scarti al quadrato

5. Dividere il totale ottenuto al punto 4 per (N-1), dove N è il numero di unità statistiche del

campione

fi ff 6. Calcolare la radice quadrata del risultato del punto 5

Formula per il calcolo della deviazione standard se l’abbiamo dati in una tabella

VARIANZA: è il quadrato della ds

(Minuti al quadrato)

Variabili quantitative

Si utilizza la ds:

• Se la ds è sensibile si valori anomali

• Se i dati sono distribuiti in modo normale, si usa la media

• Nei casi in cui la distribuzione non segue una distribuzione normale si usa la mediana come

misura di posizione e IQ come misura di dispersione

• Intervallo o range interquantile (IQ): misura della di erenza tra il primo quartile e terzo quartile

Coe ciente di variazione: fornisce una misura della ds rispetto alla media

Z-SCORE O PUNTEGGIO STANDARDIZZATO

Traduce l’osservazione della variabile in un valore standardizzato

De nizione: è il numero di ds di cui una data osservazione è sopra o sotto la media

BOXPLOT: è un metodo gra co usato per visualizzare caratteristiche più importanti di una

distribuzione di frequenza. La lunghezza dei “ba ” è determinata da:

- Ba o inferiore: Q1 – 1,5*IQR

- Ba o superiore Q3 – 1,5*IQR

IQR= intervallo interquartile (di erenza tra primo e terzo inerquartile)

Si de nisce outlier un valore che giace fuori dei valori Q1 – 1,5*IQR o Q3 – 1,5*IQR

(rivelatori di informazioni importanti, in uiscono su media e deviazione standard)

I boxplot sono meno dettagliati degli istogrammi, sono utilissimi per confrontare tra loro due o più

insiemi di dati (è necessario usare la stessa scala per rendere possibili i confronti)

Come posso determinare il legame tra due o più variabili? COEFFICIENTE DI CORRELAZIONE (r).

Esempio: massimo consumo di ossigeno e prestazione nelle gare, indice di forza relativa e

capacità

di salto.

Il coe ciente di correlazione è un numero compreso tra -1 e 1.

- Se r=0 indica assenza di correlazione

- Se r>0 le due variabili covariano

- Se r<0 le due variabili controvariano

- R=1 o r=-1 esiste una relazione matematica tra le due variabili

fi ff

ff

ffi fi ffi fi ff fl ffi ff

CORRELAZIONE E REGRESSIONE

correlazione

La considera la forza dell’associazione lineare che tra due variabili numeriche;

entrambe le variabili sono dipendenti.

regressione

La considera l’esistenza di una relazione lineare tra due variabili numeriche; una

variabile indipendente e una dipendente.

Per convenzione la variabile dipendente è l’asse Y; la variabile indipendente è l’asse X.

Sia per la correlazione che per la regressione ha senso descrivere la relazione tra due variabili

ssando una retta sui punti. La retta mostra il trend dei dati.

Y = β 0 + β1X + ε

retta di regressione

La è una retta che minimizza le distanti verticali dei punti, questo metodo è

minimi quadrati

detto dei

Esempio:

Nell’asse delle X abbiamo l’età, mentre nell’asse delle Y abbiamo i valori di pressione. Possiamo

costatare che la pressione aumenta con l’aumentare dell’età.

fi L’intercetta è la media predetta della variabile dipendente Y quando X è uguale a zero. Per

questo esempio la media della pressione è quando l’età è zero.

pendenza

La è la variazione media stimata della variabile Y per variazione unitaria X. Per questo

esempio all’aumentare di un anno di età, la pressione aumenta di circa 1mmHg.

L’interferenza è applicabile solo entro l’intervallo sperimentale dei valori X.

La mancanza di pendenza non signi ca mancanza di relazione.

coe ciente angolare

Per calcolare il di una retta si utilizza questa formula:

Esempi:

Regressione lineare multipla

È di cile determinare il modello migliore, è impossibile visualizzare questo modello, il modello

ssato può essere di cile da interpretare nella realtà, i calcoli non possono essere fatti a mano.

Regola del pollice per calcolo sample size: almeno 20 casi per variabile indipendente analizzata.

coe ciente di correlazione di Pearson:

Il

• -1 < r < +1

• r = 0 indica assenza di correlazione

• Se r > 0 le due variabili covariano

• Se r < 0 le due variabili controvariano

• r = 1 o r = -1 esiste una relazione matematica tra le due variabili

Per il calcolo di r, quindi per la misura della forza della associazione tra due variabili utilizziamo la

seguente formula:

fi ffi ffi ffi ffi fi

Non ha unità di misura, la correlazione perfetta è quando vi è esatta relazione lineare tra x e y , r è

uguale a -1 o +1. È positivo se la pendenza è positiva, è negativo se la pendenza è negativa.

Misura quando i punti clusterizzano intorno alla retta di regressione.

L’interpretazione:

• 0 < r < 0,25 poca o nessuna associazione

• 0,25 < r < 0,50 discreta associazione

• 0,50 < r < 0,75 moderata/buona

• > 0, 75 molto buona/eccellente

La mancanza di correlazione non signi ca mancanza di relazione, ma solo di una relazione di tipo

lineare. Non si estrapola una correlazione al di fuori dell’intervallo di osservazione delle variabili X

e Y. Correlazione non signi ca relazione causale.

REGRESSIONE

La è il metodo che ci permette di stimare la relazione numerica tra variabili. In

questo esempio, vogliamo sapere qual è la media (valore atteso) del FEV1 per gli studenti di una

certa altezza e qual è l’incremento del FEV1 all’aumento unitario dell’altezza.

FEV1 è la variabile di risposta o dipendente

Altezza è la variabile esplicativa o indipendente

FEV1 = a+b x altezza (regressione lineare semplice)

VARIABILITÀ

La non è del tutto imprevedibile: molti fenomeni naturali seguono un modello

teorico de nito “curva di distribuzione normale” o “gaussiana”. In presenza di dati che seguono

una distribuzione normale, si può risalire ai caratteri della popolazione che ha generato i suddetti

dati, conoscendo soltanto media

e deviazione standard.

fi fi fi

La distribuzione normale o gaussiana

• Famiglie di curve de nite unicamente da 2 parametri: MEDIA, DEVIAZIONE STANDAR

• Curve simmetriche intorno alla media, a forma di campana

• La DS indica quanto la curva è più o meno schiacciata

• La maggior parte delle variabili biologiche seguono una distribuzione normale

Quali sono le caratteristiche di questa distribuzione e perché è così importante?

• La curva normale può essere utilizzata per stimare le probabilità associate a variabili che si

distribuiscono “normalmente”.

• Ad esempio in una popolazione in cui i livelli di colesterolo si distribuiscono normalmente con

media µ=220 e deviazione standard σ=21, potremmo voler conoscere qual è la probabilità che

un individuo scelto a caso abbia un valore di colesterolo maggiore a 250 mg/100ml.

• Poich&eacut

Dettagli
Publisher
A.A. 2024-2025
20 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher asiet123 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Pavia o del prof Montomoli Cristina.