I NDICE
I. _______________________________________________________________________ 3
INTRODUZIONE
II. ________________________________________________________________________ 5
LA STATISTICA
III. ______________________________________________________________________ 6
LA PROBABILITÀ
IV. __________________________________________________________________________ 7
LE VARIABILI
V. ______________________________________________________________ 8
STATISTICA DESCRITTIVA: _______________________________________________________ 8
INDICE DI TENDENZA CENTRALE
VI. ______________________________________ 11
STATISTICA DESCRITTIVA: INDICI DI DISPERSIONE
VII. _______________________________________________________ 13
DISTRIBUZIONI DI PROBABILITÀ
VIII. __________________________________________________ 15
CAMPIONAMENTO E DISTRIBUZIONI
IX. 17
TEST DI SIGNIFICATIVITÀ______________________________________________________________
X. _______________________________________________________________ 22
TEST SU UN CAMPIONE
XI. ______________________________________________________________ 26
TEST SU DUE CAMPIONI
XII. ____________________________________________________________________________ 30
LA STIMA
XIII. _____________________________________________________ 33
REGRESSIONE LINEARE SEMPLICE
XIV. ______________________________________________________________________ 34
CORRELAZIONE
XV. __________________________________________________ 36
OSSERVAZIONI E SPERIMENTAZIONI
XVI. ________________________ 40
ORGANIZZAZIONE E PIANIFICAZIONE DI UNA RICERCA CLINICA 1
2
I. I
NTRODUZIONE
Bias cognitivi Tversky e Kahneman
Tunnel della mente (errori)
Bias pericolosi:
Il framing (incorniciamento, fregatura)
L’ancoraggio
L’eccesso di informazione
La cecità alla probabilità
L’errore del campanaio
I principi di Serendip la casualità
I metodi pseudoscientifici (errori scientifici):
Tenacia (impermeabilità alle prove)
Intuizione (auto-evidenza)
Autorità (ipse-dixit)
Razionalismo senza empirismo
Empirismo senza razionalismo (associazioni casuali che diventano causali)
Fasi logiche della scoperta scientifica:
1. Osservazioni, intuizioni
2. Identificazione del problema
3. Formulazione di un’ipotesi
4. Concezione di un esperimento per la verifica dell’ipotesi
5. Realizzazione dell’esperimento
6. Risultati dell’esperimento
7. Conclusioni sulla base dei risultati
Successo e fallimento di un esperimento
Lo scienziato televisivo che borbotta tristemente: “L’esperimento è un fiasco; non siamo
riusciti a ottenere quello che speravamo” è vittima di un copione scadente. Un esperimento 3
che non ottenga i risultati previsti non è un fiasco. Lo è solo quando non fornisce alcuna
conclusione valida, in un senso o nell’altro, rispetto alle ipotesi di partenza.
Pirsig RM (1974) Zen and the Art of Motorcycle Maintenance
■ □ ■ 4
II. L S
A TATISTICA
La statistica è la matematica dell’esperimento. Ci aiuta a prendere decisioni
nell’incertezza.
A differenza della matematica, che usa un metodo logico deduttivo, dal generale al
particolare, la statistica usa metodo induttivo, dal particolare al generale. Ha componente
matematica, ma è il contrario di essa.
Esistono due diversi approcci di statistica:
- Approccio descrittivo: si limita a descrivere lo stato di una popolazione o di un
campione.
La popolazione è un insieme di elementi caratteristica di quelli elementi (
non
o ).
devono essere persone
Il campione è una popolazione in miniatura, estraendolo “casualmente”
o rendendolo così rappresentativo, e lo si usa pere inferire sulla popolazione. Il
1
campionamento invece è l’estrazione di un campione.
- Approccio inferenziale (dimostrazione)
■ □ ■
Errore Metodologico: campionare una popolazione, inferire su un'altra.
1 5
III. L P
A ROBABILITÀ
La probabilità, nata col gioco d’azzardo, è una branca della matematica senza ancora
una definizione precisa e soddisfacente. È un qualcosa che si applica, che si aspetta che
accada.
I primi calcoli vennero eseguiti da Pascal, ma Laplace è il primo che ha dato una
definizione di probabilità.
Definizione classica:
- La probabilità di un evento è data dal rapporto tra il numero dei casi favorevoli al
realizzarsi dell’evento e il numero di casi possibili, purché tutti equiprobabili.
=
evento
p=0 evento impossibile, p=1 certo
La probabilità è sempre compresa tra 0 e 1. Non esiste maggiore di 1 o minore di 0.
La seconda definizione di probabilità ci viene data da Von Mises.
Definizione frequentistica:
- La probabilità di un evento è data dal limite a cui tende la frequenza relativa dei casi
favorevoli, quando il numero delle osservazioni tende all’infinito.
= lim
→∞
La terza definizione di probabilità viene data da De Finetti, anche se questa definizione ha
una scarsissima applicabilità pratica, legata alla soggettività della scelta di chi la applica.
Definizione soggettivista:
- La probabilità di un evento è data dalla somma p che uno scommettitore è disposto a
puntare su un evento E per ottenere l’importo 1 in caso di successo e l’importo 0 in
caso di fallimento, a patto che una volta fissata la posta lo scommettitore sia disposto a
scambiarsi di ruolo col banco (coerenza dello scommettitore). 6
IV. L V
E ARIABILI
Una variabile è una qualsiasi caratteristica che può assumere differenti valori o modalità
in diversi soggetti. Viene definita casuale, o aleatoria, o stocastica.
Quando si parla di variabile casuale si intende una variabile la quale assuma i suoi valori
in accordo a una definita distribuzione di probabilità. In altri termini, ad ogni valore della
variabile è possibile associare la probabilità che esso ha di realizzarsi.
Le variabili si indicano con la lettera maiuscola, mentre una lettera minuscola
accompagnata da un indice numerico al pedice, indica i singoli valori che la variabile
assume (da 1 a n).
• C LASSIFICAZIONE DELLE VARIABILI
Le variabili si possono distinguere in:
• Variabili qualitative (non è possibile effettuare rapporti fra valori diversi):
nominali (categorie) possono essere uguali o diverse:
o binarie (o dicotomiche) se ammettono due sole modalità;
politomiche se ammettono più di due modalità.
ordinali (punteggi, giudizi).
o
• Variabili quantitative:
Scala discreta (conteggi);
o Scala continua (misure).
o ■ □ ■ 7
V. S D :
TATISTICA ESCRITTIVA
I T C
NDICE DI ENDENZA ENTRALE
La statistica descrittiva ha lo scopo appunto di “descrivere” in forma sintetica i risultati
delle osservazioni effettuate su un campione (o più raramente sull’intera popolazione).
Le osservazioni possono essere descritte poi mediante indici:
• indici di tendenza centrale: quando descrivono con un solo valore la tendenza
dell’intero campione;
• indici di dispersione: quando descrivono il grado di dispersione del campione
attorno all’indice di tendenza centrale;
• indici di forma: quando descrivono la forma della distribuzione. Si distinguono di
soliti in indici di asimmetria e indici di curtosi (cioè del grado di appiattimento o
appuntimento della distribuzione).
I maggiori indici di tendenza centrale sono: la media aritmetica, media geometrica, media
armonica, mediana, moda.
La media aritmetica: è data dalla somma dei dati, divisa per il numero dei dati stessi.
Le notazioni con cui si indica la media aritmetica sono molteplici, la maggior parte dei casi
m
x
� . Nel caso però ci si riferisca alla media dell’intera
con (x medio o x soprassegnato), o
popolazione, e non del campione, la media viene indicata con la lettera greca µ.
La principale proprietà della media aritmetica è la seguente:
cioè la somma degli scarti dei dati dalla media aritmetica vale sempre 0, o in altri termini
che gli scarti in negativo dalla media bilanciano quelli in positivo.
In termini fisici significa che la media aritmetica è il baricentro dei dati. 8
Non può essere applicata né su variabili di tipo qualitativo ordinale (infatti per tali variabili
non ha senso confrontare differenze di valori tra loro), né, ovviamente, su variabili di tipo
qualitativo nominale. Pertanto è applicabile solo su variabili quantitative.
La mediana: è data dal valore centrale di una serie di dati ordinati in modo crescente; in
altri termini, essa è il valore che divide la distribuzione in due parti uguali.
Se i dati sono in numero dispari esiste un solo valore centrale, mentre sei dati sono in
numero pari non esiste un valore centrale; in questo caso si considera la coppia dei due
valori centrali e si prende per convenzione il punto di mezzo tra tali due valori.
La principale proprietà della mediana è rappresentata dalla sua robustezza, ossia dalla
capacità che la media ha di non essere influenzata da pochi valori fortemente estremi.
Può essere impiegata sia su variabili ordinali che su variabili quantitative. Altro campo di
applicazione della mediana si ha quando si ha a che fare con dati troncati. I dati troncati
sono dati a informazione incompleta, sui quali cioè non sia possibile assegnare un valore
preciso, ma solo un valore del tipo: “almeno”, “più di”.
Mo
): è il valore della variabile (la modalità nel caso di variabili qualitative) che si
La moda (
ripete con maggiore frequenza. Indica quindi la normalità, la tipicità, della distribuzione.
Si applica a variabili sia qualitative che quantitative. Nel caso di variabili quantitative
continue occorrerà che i dati siano raggruppati in classi: si parlerà quindi di classe modale.
- Una distribuzione può essere:
Unimodale: se presenta una sola moda;
o Bimodale: se presenta due mode;
o Multimodale: se presenta più mode:
o Amodale: se non presenta valore o classe modale.
o
N.B.: in una distribuzione simmetrica, mediana e media aritmetica coincidono; in una
distruzione unimodale e simmetrica, mediana, moda e media aritmetica coincidono.
n-ma
del prodotto dei dati.
La media geometrica: è definita come la radice 9
Ai fini pratici però si usa la seguente formula:
La media armonica: è definita come il reciproco della media aritmetica del reciproco dei
dati.
La relazione tra media aritmetica, media geometria e media armonica
PS: per l’esame la media armonica e geometrica non si deve studiare.
■ □ ■ 10
VI. S D : I D
TATISTICA ESCRITTIVA NDICI DI ISPERSIONE
Gli indici di dispersione sono quelli che descrivono il grado di variabilità (ossia di
dispersione) del campione.
Tra gli indici di dispersione vi sono: varianza, deviazione standard, coefficiente di
variazione, differenza interquartile.
Varianza: è data dalla media degli scostamenti al quadrato di tutti i dati dalla media
aritmetica. =1 2
∑ ( − ̅ )
=
Il numeratore della varianza prende il nome di devianza, ed è anch’esso un indice di
dispersione: =1 2 2
∑ − ̅
= 2
Esso se si riferisce ad un campione si indica con s , invece se è riferito alla popolazione
con σ 2 .
Deviazione standard: è data dalla radice quadrata della varianza:
=1 2
∑ ( − ̅ )
�
=
Formula euristica. Dal punto di vista pratico, valgono le considerazioni già fatte per la
varianza, quindi: 2
=1 2
∑ − ̅
�
=
Se essa si riferisce ad un campione si indica con s, invece se è riferito alla popolazione
con σ.
Coefficiente di variazione: è data dal rapporto tra devianza standard e media aritmetica: 11
= ̅
può anche essere espresso come coefficiente di variazione percentuale:
% = ∙ 100
̅
Il coefficiente di variazione è adimensionale.
I quantili: sono indici di posizione (ma non di tendenza centrale) di una distribuzione. Essi
dividono la distribuzione in un numero definito di parti uguali. I più utilizzati sono i quartili, i
decili e i percentili.
I quartili: sono 3 valori che ripartiscono la distribuzione in parti uguali. Sono indicati con
Q (è anche la mediana) Q
Q 1, 2 , 3.
Per il calcolo dei quartili, ci sono tre casi:
1. n è pari: essi sono divisibili per 4 allora basta dividere i dati in quattro parti uguali;
2. i dati sono pari, quindi si duplicano;
3. n è dispari: se non sono divisibili per quattro basta duplicare i dati finché non si
arriva a un numero divisibile per 4.
I decili: sono i 9 valori che ripartiscono la distribuzione dei dati in 9 parti uguali. Sono
indicati con D , D , …, D .
1 2 9
Differenza o distanza interquartile: è data dalla differenza tra terzo e primo quartile;
∆= −
3 1
■ □ ■ 12
VII. D P
ISTRIBUZIONI DI ROBABILITÀ
Una distribuzione di probabilità è una legge che associa a ogni valore che la variabile può
assumere la probabilità che tale valore ha di realizzarsi. Cioè è una qualunque legge che
associa la sua probabilità ad ogni valore. → ()
Tra le distribuzioni di probabilità vi sono: la distribuzione binomiale (Bernoulli) e la
Gaussiana.
Distribuzione nominale: si applica a variabili discrete tipo “numero di successi su n
osservazioni, nel senso che la probabilità di successo p nella singola osservazione resti
costante per tutte le n osservazioni: −
( )
= � �
dove x è la variabile; n è il numero di osservazioni; p è il probabilità di successo; q=1-p è la
probabilità di insuccesso. Nelle distribuzioni simmetriche p=q.
Media, varianza e deviazione standard di una binomiale sono dati da:
= ∙
2
= ∙ ∙
= � ∙ ∙
Distribuzione Normale Gaussiana: è una delle più utilizzate funzioni di densità di
probabilità. 1 1 2
− (−)
( )
= 2
2
√2 13
è la variabile, µ è la media, σ è la deviazione standard (DS).
dove: x
La Gaussiana è sempre positiva, è simmetrica rispetto a µ, ha un massimo di
corrispondenza a µ (pertanto è anche moda della distribuzione), ha due punti di flesso, e
l’area sottesa della curva vale 1.
La Gaussiana standardizzata: è una Gaussiana con parametri:
=0 =1 z
media µ , deviazione standard σ . Si indica con la lettera .
1 1 2
− 2
( )
=
√2
Il passaggio da una normale gaussiana ad una standardizzata avviene mediante la
formula di standardizzazione: −
=
■ □ ■ 14
VIII. C D
AMPIONAMENTO E ISTRIBUZIONI
In statistica si definisce Popolazione o Universo un insieme di elementi aventi una
caratteristica in comune.
Il processo di campionamento deve garantire la rappresentatività della popolazione, e
implica due aspetti:
1. il campione deve essere “randomizzato”, cioè ogni elemento della popolazione deve
avere la stessa probabilità di entrare a far parte del campione. Qui prende il nome di
“unità di campionamento”.
2. Il campione deve essere adeguatamente numeroso.
Il processo:
popolazione campionamento campione inferenza popolazione
Il valore atteso, o media, della distribuzione delle medie campionarie è uguale al valore
atteso, o media, della distribuzione della variabile nella popolazione.
�
( )
= () 15
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.