Statistica medica per la ricerca sperimentale e tecnologica
Programma
- I. Statistica inferenziale: definizioni e concetti base
- II. Probabilità e variabili aleatorie
- Distribuzione binomiale
- Distribuzione normale
- III. Teoria della stima: stima puntuale e intervallare
- Distribuzione e intervalli di confidenza per la media campionaria
- Distribuzione e intervalli di confidenza per la frequenza relativa
- IV. Verifica e ipotesi
- Come si definisce e formalizza un test statistico
- Verifica di ipotesi sulla media
- Verifica di ipotesi sulla frequenza relativa
Appunti a cura di Marioncini Gaia
I. Statistica inferenziale: definizione e concetti di base
1. Statistica descrittiva: si occupa di riassumere e rappresentare i dati, in questo modo, organizzando i dati, si è in grado di leggerli ed effettuare una prima indagine sulle loro caratteristiche.
2. Statistica inferenziale: rappresenta un passaggio successivo a quella descrittiva, e si pone obiettivi complementari ad essa. Si occupa di generalizzare le informazioni raccolte su un campione con la statistica descrittiva. Fra i principali obiettivi abbiamo:
- Comprendere i fondamenti dell’approccio statistico alla ricerca scientifica; la statistica fornisce pressappoco gli stessi strumenti, in qualsiasi ambito si vada ad applicarla (ad es. ambito ecologico, tecnologico, ecc.).
- Imparare come si definiscono e impostano i test statistici per verificare le ipotesi di ricerca.
- Essere in grado di leggere i risultati di un'analisi statistica nei lavori scientifici.
Alcuni concetti base
- Popolazione (o universo statistico): insieme di individui o elementi del quale si è interessati a rilevare uno o più aspetti. In alcuni casi può essere:
- Insieme finito
- Insieme potenzialmente infinito
- Campione statistico: sottoinsieme di individui o elementi tratti da una popolazione.
- Inferenza statistica: procedimento attraverso il quale si estendono alla popolazione le informazioni fornite da uno o più campioni. Questo procedimento può essere definito induttivo, in quanto passa dal particolare al generale.
Esempi di applicazione della statistica inferenziale
A. Intervistare un campione di 1000 studenti iscritti all’Università di Pavia chiedendo loro quante volte a settimana utilizzano la bicicletta. I 1000 studenti sono un sottoinsieme della totalità degli iscritti all’Università di Pavia. L’obiettivo di questa ricerca è però stimare la media del numero di utilizzi settimanali della bicicletta di tutti gli studenti dell’università di Pavia. Ci si focalizza quindi su un sottoinsieme, ma l’obiettivo è quello di carpire informazioni sulle abitudini di un insieme più ampio (popolazione), che è quello di tutti gli iscritti all’Unipv. In questo caso la popolazione è un insieme finito.
B. Considerare un certo numero di pazienti trattati con un determinato farmaco (es. 50 soggetti), e un certo numero di pazienti non trattati. Tutti i soggetti considerati sono affetti da una patologia. Si deve calcolare la percentuale di guarigioni nei 50 pazienti trattati, e nei 50 non trattati. L’obiettivo finale non riguarda solo i soggetti presi in considerazione, ma verificare più in generale se questo farmaco è efficace. In questo caso la popolazione è un insieme potenzialmente infinito; intendendo anche, ad esempio, soggetti a cui non è ancora stata diagnosticata la patologia.
II. Probabilità e variabili aleatorie
La teoria della probabilità permette di trarre conclusioni riferite alla popolazione, partendo dai campioni. Si possono quindi stimare alcune caratteristiche della popolazione (parametri), come ad esempio la media o la frequenza relativa, partendo dai dati che vengono raccolti sui campioni.
Parliamo di esperimenti aleatori, quando si è incerti riguardo l’esito dell’esperimento, e che originano un certo numero di risultati possibili, ovvero gli eventi. Gli eventi, però, sono già noti prima di effettuare l’esperimento.
La probabilità ha due definizioni
1. Definizione classica: la probabilità è rapporto fra il numero di casi favorevoli e il numero di casi possibili. Dove il caso favorevole è il caso di cui voglio calcolare la probabilità. Questa definizione classica di probabilità NON è sempre applicabile, ad esempio quando non possiamo definire a priori casi possibili e favorevoli.
2. Definizione frequentista: la probabilità è la frequenza relativa del verificarsi di un evento, quando il numero delle ripetizioni del verificarsi dell’evento tende a infinito. Quando un esperimento aleatorio è ripetuto molte volte, la frequenza di un evento che ci attendiamo si avvicina alla probabilità dell’evento. Il calcolo della probabilità frequentista è dato dall’osservazione di un dato evento. Questa probabilità è data dal rapporto fra il numero di casi favorevoli ottenuti e il numero di prove effettuate.
Proprietà della probabilità
- È un numero compreso fra 0 e 1, in cui:
- 0 è il valore della probabilità di un caso IMPOSSIBILE
- 1 è il valore della probabilità di un caso CERTO
- Regola della somma: quando consideriamo due eventi mutuamente esclusivi (il verificarsi di uno, esclude il verificarsi dell'altro), la probabilità che si verifichi o uno o l'altro è uguale alla somma della probabilità dei singoli eventi.
- Regola del prodotto: quando consideriamo due eventi tra loro indipendenti (il verificarsi di uno non influenza in alcun modo il verificarsi dell'altro), la probabilità dell’evento congiunto (ovvero che si verifichino entrambi contemporaneamente) è uguale al prodotto delle probabilità dei singoli eventi.
La variabile aleatoria è una variabile casuale che può assumere dei valori, per ognuno dei quali è possibile calcolare la probabilità.
Esistono due tipi di variabili aleatorie
- Variabile aleatoria discreta: quando assume un numero finito di valori, oppure un’infinità numerabile di valori (interi); ad ognuno di questi valori è associata una probabilità (probabilità che si verifichi quel determinato valore) maggiore di 0, e la somma di tutte le probabilità dei singoli valori=1. Associando ad ogni valore (x) una probabilità (p) si applica a X una funzione, che associa ad ogni valore possibile di X, la probabilità che questo valore si verifichi. Questa funzione f( )= è chiamata funzione di probabilità o distribuzione di probabilità.
- Distribuzione binomiale: è una variabile aleatoria discreta. Considerando un esperimento aleatorio indipendente, ripetuto più volte, per ogni prova effettuata l'esito potrà essere:
- Un successo, se si verifica l'evento che si è scelto, prima di svolgere la prova
- Un fallimento nel caso in cui non si verifichi il successo.
La distribuzione binomiale, associa ad ogni possibile evento una probabilità; in questo caso però l'evento è un certo numero di successi in n prove. E quindi, con la funzione di probabilità binomiale, possiamo associare una probabilità ad ogni possibile numero di successi in n prove, sapendo che per ogni singola prova la probabilità di successo p. Il numero di prove e la probabilità di successo della singola prova, sono i parametri della distribuzione binomiale.
Per rappresentare delle variabili aleatorie si utilizza un istogramma, che lungo l'asse delle X riporta delle classi di valori, è sull'asse delle Y, non conoscendo l'esito dell’evento, troviamo delle probabilità. La distribuzione binomiale varia all'aumentare del numero di prove. Rappresentandola su un istogramma si nota che il valore del numero di successi a cui è associata una probabilità più elevata tende ad aumentare, e cambia la variabilità. Questo perché una distribuzione binomiale è descritta da 2 parametri: il numero di prove effettuate (n) e la probabilità di successo di ogni singola prova (p).
Parametri di una variabile aleatoria
- Media (o valore atteso): si calcola moltiplicando ogni possibile valore della variabile per la sua probabilità; quindi si pesa ogni valore possibile della variabile (i) per la sua probabilità. E(X)=∑ Il calcolo tiene conto della probabilità di ogni singolo evento xi. Si dice anche valore atteso, perché è il valore medio (che ci si aspetta) che la variabile aleatoria assume nel lungo periodo.
- Varianza: di una variabile dà un’idea della sua variabilità, intesa come la sua tendenza ad assumere valori differenti dal suo valore medio. Si può calcolare anche per una variabile aleatoria, sostituendo alla media il valore atteso. La varianza è la somma dei discostamenti di ogni valore della x dal valore atteso (che è 1 solo) al quadrato, e ogni discostamento possibile è moltiplicato per la sua probabilità. VAR(X)= E(X - E(X))2 = ∑(xi - E(X))2 pi
- Deviazione standard: è la radice quadrata della varianza, in modo tale da avere un risultato espresso con la stessa misura della variabile.
Proprietà della media e della varianza, quando consideriamo la somma di variabili aleatorie
- La somma delle due variabili aleatorie (definizione di una nuova variabile), è pari alla somma delle medie.
- Se le variabili aleatorie che si sommano sono indipendenti, la varianza (della nuova variabile data dalla somma delle due variabili) della loro somma è pari alla somma delle singole varianze.
Media e varianza di una distribuzione binomiale
Per calcolare la media e la varianza di una distribuzione binomiale è utile partire da un caso semplice, in cui la prova è effettuata 1 sola volta, e quindi n=1; si parla in questo caso di distribuzione di Bernoulli, ovvero un caso particolare della distribuzione binomiale in cui si ha sempre una probabilità (p) che si verifichi un certo evento (detto successo) in una probabilità in cui ci sia un fallimento (1-p), ma in questo caso n=1.
| Valore | Probabilità |
|---|---|
| 0 | 1-p |
| 1 | p |
Media = 0 × (1-p) + 1 × (p) = p
Varianza = (0-p)2 × (1-p) × p = p(1-p)
Quando si passa a un caso in cui n>1, stiamo considerando la somma di n variabili binomiali in cui n=1. Applicando le proprietà della media e della varianza:
- La media di una distribuzione binomiale di parametri n e p= n × p che equivale a sommare n volte la media di una variabile aleatoria indipendente con n=1
- La varianza di una variabile binomiale di parametri n e p= n × p(1-p) che equivale a sommare n volte la varianza di una variabile aleatoria indipendente con n=1
Variabile aleatoria continua: il valore della variabile può assumere infiniti valori, all’interno di un certo intervallo (quindi tutti i numeri reali all’interno di quest’ultimo). Si avrà quindi, per definizione, che la probabilità di un singolo valore sarà nulla; la probabilità sarà quindi associata ad un intervallo di valori. La probabilità potrebbe essere intesa, anche in questo caso come una frequenza, ma non di casi in cui otteniamo un certo valore, ma di casi in cui il valore che consideriamo cada in un certo intervallo.
Le variabili aleatorie continue possono essere rappresentate graficamente: quando consideriamo la frequenza di determinate classi di valori, si fa riferimento all’istogramma; ci indicherà quindi, per ogni classe di valori, qual è la frequenza di valori, compresi in quella classe, che abbiamo ottenuto. Più gli intervalli sono piccoli, più precisa sarà la rappresentazione della distribuzione della variabile; poiché si è in grado di associare una frequenza ad intervalli più piccoli. Quando si considerano intervalli sempre più piccoli, si fa un’approssimazione della curva. Aumentando le dimensioni del campione, è possibile considerare intervalli sempre più piccoli, che sul grafico ha l’effetto di produrre una curva.
Alcuni software statistici sono in grado di partire da un istogramma (che rappresenta una distribuzione di frequenze), per disegnare una curva (approssimazione), che è l’approssimazione della densità di frequenza. La densità di frequenza (o funzione di densità di probabilità della popolazione) è una funzione che ci permette di calcolare la probabilità di osservare un valore contenuto in un certo intervallo; ci permette quindi di associare una probabilità ad un certo intervallo. Ci permette di associare ad ogni intervallo di valore la probabilità che la variabile aleatoria assuma un valore contenuto in quell’intervallo. Graficamente la probabilità di un valore ottenuto in un intervallo, è l’area sottesa dalla curva fra i due estremi dell’intervallo.
Considerando quindi un intervallo compreso fra 0 e 5 della variabile che considero, e la probabilità associata a questo intervallo, è l’area sottesa dalla curva fra i due estremi dell’intervallo (evidenziata nel grafico dalle due linee tratteggiate rosse).
III. Distribuzione normale o gaussiana
Considerando un tipo già studiato di distribuzione continua, ovvero la distribuzione normale (o gaussiana), saremo in grado di calcolare la probabilità associata a certi intervalli, perché sono probabilità che già sono state calcolate. Distribuzione normale o gaussiana è la distribuzione continua più nota ed utilizzata nella statistica. Viene chiamata “normale” perché rappresenta molto bene delle variabili comuni, come l’altezza e il peso.
Questa distribuzione nacque come modello per descrivere gli errori accidentali, che si compiono misurando una certa quantità più volte, con lo stesso grado di accuratezza e in modo indipendente (senza che una misurazione influenzi quella successiva). Quando si misura qualcosa è ragionevole pensare che il valore più probabile sia 0, e quindi l’errore sarà nullo; allo stesso modo è ragionevole ipotizzare che sia più probabile fare errori piccoli, rispetto a grandi errori, in valore assoluto. Questa distribuzione è ben rappresentata dalla distribuzione normale; graficamente ha una forma a campana, come sotto rappresentato.
Vediamo quindi la rappresentazione grafica di ciò che abbiamo detto prima, nell’esempio riguardante gli errori di misurazione: osserviamo che il valore più probabile è lo 0. E vediamo bassi valori di densità di probabilità associati ad alti valori della x, in quanto è poco probabile che si commettano errori di misurazione così grandi. Ad ogni valore siamo in grado di associare una densità di probabilità.
Si osserva una distribuzione simmetrica: la probabilità di avere la densità di probabilità del valore -5 sarà uguale alla densità di probabilità di 5. Distribuzione simmetrica a livello di momenti della distribuzione, di misure sintetiche della distribuzione vuol dire che media, mediana e moda coincidono; si avrà quindi il 50% della distribuzione sui numeri negativi, e 50% su numeri positivi. Il valore atteso (media), è il valore più probabile (moda) ed è anche il valore mediano. Distribuzione simmetrica: media=moda=mediana. Il valore mediano divide la distribuzione in 50% di probabilità di avere valori <0 (minori di esso), e in 50% di avere valori >0 (maggiori di esso). La somma delle probabilità associate a tutta la distribuzione sarà comunque pari a 1.
La distribuzione binomiale andiamo via via ad aumentare il numero di prove, ci avviciniamo ad una distribuzione normale.
Da cosa è descritta una distribuzione normale (parametri)
- Media (o valore atteso): valore assunto dalla variabile nel lungo periodo. Generalmente viene chiamata μ (mi), ed è il valore a cui è associata la densità di probabilità più elevata. A parità di media, si otterranno diverse distribuzioni in base a come varia la varianza.
- Varianza (σ2): faremo spesso riferimento alla sua radice quadrata, e quindi alla deviazione standard (σ). La varianza viene comunque definita come misura della variabilità della variabile rispetto alla sua media.
Quando aumentiamo i valori della varianza, cambia la forma della distribuzione, che risulterà più o meno appiattita. Qualsiasi distribuzione normale, quindi per qualsiasi valore della media e della varianza, possiamo fare riferimento a una particolare distribuzione normale: distribuzione normale standard. Si chiama standard perché è la distribuzione normale di riferimento, e dobbiamo quindi ricondurci a questa, ogni volta che siamo in presenza di una distribuzione normale, per fare i calcoli.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.