Università degli Studi di Bari
Facoltà di Scienze Matematiche, Fisiche e Naturali
Nicola Cufaro Petroni
Statistica
con Elementi di Probabilità
anno accademico 2004/05
Il testo di queste lezioni è liberamente disponibile all’indirizzo
http://www.ba.infn.it/~cufaro/didactic/StatisticaMatematica.pdf
e può anche essere richiesto scrivendo a
cufaro@ba.infn.it
c 2004 Nicola Cufaro Petroni
Copyright
Università degli Studi di Bari
Facoltà di Scienze Matematiche, Fisiche e Naturali
via E.Orabona 4, 70125 Bari
Prefazione
La struttura di queste lezioni riflette una duplicità di significato della parola Sta-
tistica. Per essere più chiari cominceremo con un esempio: supponiamo di voler
conoscere l’orientamento politico generale dei cittadini di un determinato paese. È
ben noto che in questo caso si organizzano delle elezioni che consistono nel racco-
gliere il voto di tutti gli elettori. Una volta esaurite le operazioni di voto si passerà
allo spoglio delle schede e alla registrazione dei risultati. Tali risultati si presentano
in generale come una grande quantità di dati numerici che possono essere esamina-
ti, combinati e rappresentati in diverse maniere in modo da estrarre l’informazione
rilevante ai fini elettorali. Le elezioni generali sono però tipicamente delle opera-
zioni complesse e costose, e per questo motivo spesso si preferisce affidarsi a dei
sondaggi per avere delle informazioni, almeno approssimative e provvisorie, sulla
volontà dei cittadini. Questi sondaggi consistono nella registrazione delle opinioni
di un piccolo numero di soggetti, a partire dal quale si ricavano delle indicazioni
sulla volontà generale della popolazione intera. Ovviamente i sondaggi non possono
essere sostitutivi delle elezioni, e non solo perchè bisogna dare a tutti i cittadini la
possibilità di esprimere la propria opinione, ma anche per una profonda differenza
fra i dati delle due operazioni. Il risultato del sondaggio, infatti, è aleatorio: sic-
come il campione di cittadini intervistato è scelto casualmente, una ripetizione del
sondaggio – per quanto eseguita con i medesimi criteri – porterebbe inevitabilmente
a dei risultati numerici diversi, anche se di poco. Viceversa nel caso delle elezioni
l’indagine esaurisce l’intera popolazione degli elettori: una eventuale ripetizione del
voto – supponendo per semplicità che non vi siano ripensamenti o errori – non mo-
dificherebbe il risultato. Noi diremo che l’esame dei risultati elettorali complessivi
è compito della Statistica descrittiva, mentre le tecniche per ricavare informazioni
su tutta la popolazione a partire dai risultati relativi a un piccolo campione sono
parte della Statistica inferenziale. Naturalmente, come è noto, l’uso dei sondaggi
comporta dei rischi dovuti alla aleatorietà dei loro esiti, per cui diventa essenziale
per la Statistica inferenziale essere in grado di misurare l’affidabilità dei risultati:
in questo giocheranno un ruolo essenziale i concetti e le tecniche del Calcolo delle
probabilità.
Si noti che nel caso dell’esempio elettorale citato la possibilità di registrare il voto di
tutti i cittadini esiste comunque: pertanto, in linea di principio, è sempre possibile
confrontare i risultati dei sondaggi con quelli delle elezioni generali e verificarne
I
N. Cufaro Petroni: Statistica
quindi l’attendibilità. Questa possibilità, però, non sussiste sempre: in molti casi
infatti un’indagine che esaurisca l’intera popolazione semplicemente non è possibile,
e ci si deve accontentate invece di esaminare le misure eseguite su un campione
tentando di dedurne le caratteristiche generali del fenomeno studiato. Ad esempio
in linea di principio la misura della massa di una particella elementare può essere
eseguita infinite volte, e data la delicatezza della misura i risultati variano sempre
in maniera aleatoria. In pratica il numero delle nostre misure sarà sempre finito,
e d’altra parte, per quanto grande sia questo numero, non potremo mai dire di
aver esaurito l’intera popolazione teoricamente disponibile. Allo stesso modo la
determinazione della lunghezza media degli insetti di una determinata specie non
potrà che essere effettuata su un campione casuale, visto che l’intera popolazione di
insetti resta comunque praticamente inaccessibile. In queste occasioni, ovviamente,
il raffinamento delle tecniche probabilistiche diventa essenziale.
Nasce da queste osservazioni la struttura – ormai classica – di queste lezioni divise
in tre parti. La prima esamina gli strumenti principali della Statistica descrittiva:
tabelle, grafici, indici di centralità e dispersione, correlazioni. La seconda intro-
duce i concetti più rilevanti del Calcolo delle probabilità, e funge da introduzione
alla terza che infine studia le tecniche più note della Statistica inferenziale: stime,
intervalli di fiducia, test di ipotesi. Per ovvie ragioni di spazio e tempo gli argo-
menti non saranno trattati in maniera esaustiva. In particolare la parte di Calcolo
delle probabilità è ridotta a quanto è strettamente necessario per la comprensione
della parte di Statistica inferenziale. Lo scopo del corso rimane quello di mettere
gli studenti in grado di usare gli strumenti più semplici e più noti della statistica,
ma anche di stabilire alcuni pilastri concettuali che consentano loro, qualora se ne
presentasse l’occasione, di estendere le loro capacità in maniera autonoma. Alcuni
completamenti sono comunque già previsti per le prossime edizioni di questo testo.
Devo infine ringraziare il collega Paolo Baldi dell’Università di Roma “Tor Vergata”
per aver messo gentilmente a mia disposizione il testo non pubblicato di un suo corso
di Statistica dal quale ho liberamente attinto idee, osservazioni ed esempi.
Bari, Novembre 2004 Nicola Cufaro Petroni
II
Indice
Prefazione I
I Statistica descrittiva 1
1 Statistica univariata 3
1.1 Dati e frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Tabelle e grafici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Moda, media e varianza . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Mediana e quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 Momenti, asimmetria e curtosi . . . . . . . . . . . . . . . . . . . . . . 18
1.6 Medie generalizzate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 Statistica multivariata 23
2.1 Dati multidimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 Covarianza, correlazione e regressione . . . . . . . . . . . . . . . . . . 25
2.3 Componenti principali . . . . . . . . . . . . . . . . . . . . . . . . . . 28
II Probabilità 37
3 Spazi di probabilità 39
3.1 Spazio dei campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3 Probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4 Condizionamento e indipendenza 45
4.1 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5 Variabili aleatorie 51
5.1 Variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2 Variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3 Variabili aleatorie continue . . . . . . . . . . . . . . . . . . . . . . . . 59
III
N. Cufaro Petroni: INDICE
Statistica
5.4 Quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.5 Vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6 Attesa e varianza 71
6.1 Attesa e varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.2 Esempi di attese e varianze . . . . . . . . . . . . . . . . . . . . . . . . 75
7 Teoremi limite 79
7.1 Legge dei Grandi Numeri . . . . . . . . . . . . . . . . . . . . . . . . . 79
7.2 Teorema Limite Centrale . . . . . . . . . . . . . . . . . . . . . . . . . 82
III Statistica inferenziale 87
8 Stima di parametri 89
8.1 Stima puntuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.2 Stima per intervalli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
8.2.1 Intervallo di fiducia per l’attesa µ . . . . . . . . . . . . . . . . 99
2
8.2.2 Intervallo di fiducia per la varianza σ . . . . . . . . . . . . . 101
8.3 Stima di Massima Verosimiglianza . . . . . . . . . . . . . . . . . . . . 103
9 Test di Ipotesi 109
9.1 Ipotesi ed errori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.2 Test sulla media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
9.2.1 Test di Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
9.2.2 Test di Student . . . . . . . . . . . . . . . . . . . . . . . . . . 120
9.3 Test per il confronto delle medie . . . . . . . . . . . . . . . . . . . . . 121
9.3.1 Campioni accoppiati . . . . . . . . . . . . . . . . . . . . . . . 122
9.3.2 Campioni indipendenti . . . . . . . . . . . . . . . . . . . . . . 126
9.4 Test di Fisher sulla varianza . . . . . . . . . . . . . . . . . . . . . . . 128
2
9.5 Test del χ di adattamento . . . . . . . . . . . . . . . . . . . . . . . . 129
2
9.6 Test del χ di indipendenza . . . . . . . . . . . . . . . . . . . . . . . 133
IV Appendici 137
A Esercizi 139
A.1 Esercizi di Statistica Descrittiva . . . . . . . . . . . . . . . . . . . . . 141
A.2 Esercizi di Probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . 145
A.3 Esercizi di Statistica Inferenziale . . . . . . . . . . . . . . . . . . . . . 148
B Schemi 157
B.1 Formulario di Statistica Inferenziale . . . . . . . . . . . . . . . . . . . 159
IV
INDICE INDICE
C Notazioni 163
C.1 Notazioni vettoriali . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
D Tavole Numeriche 167
N
D.1 Legge Normale standard (0, 1) . . . . . . . . . . . . . . . . . . . . . 169
D.2 Legge di Student t(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
2 (n) . . . . . . . . . . . . . . . . . . . . . . . 171
D.3 Legge del Chi Quadro χ
D.4 Legge di Fisher F (n, m) . . . . . . . . . . . . . . . . . . . . . . . . . 172
−λ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
D.5 Valori di e
Indice analitico 175
V
Parte I
Statistica descrittiva
1
Capitolo 1
Statistica univariata
1.1 Dati e frequenze
Distingueremo innanzitutto i dati in due categorie: quantitativi e qualitativi. I
dati quantitativi sono risultati di misure che forniscono valori numerici: ad esempio
posizioni, velocità, masse di particelle; peso, altezza, età di individui di una specie
di animali; reddito dei cittadini di un paese. I dati qualitativi viceversa non sono in
genere rappresentati da numeri: ad esempio i colori delle palline estratte da un’urna;
il gruppo sanguigno A, B, AB e 0 di un insieme di persone; il partito politico votato
dagli elettori di un paese. Si noti però che la differenza principale fra i due tipi di
dati non consiste nel fatto formale di essere rappresentati o meno da numeri: in
fondo potremmo convenzionalmente rappresentare i colori, i gruppi sanguigni e i
partiti degli esempi precedenti con dei numeri. Quel che è profondamente diverso
è il significato di questi numeri: ad esempio il colore rosso delle palline dell’urna
può essere rappresentato indifferentemente con 1, o 2 o qualsiasi altro numero senza
che nulla cambi nella discussione del problema. Invece i numeri che rappresentano i
redditi dei cittadini di un paese non possono essere assegnati arbitrariamente senza
perdere tutta l’informazione utile. Questa differenza è anche alla base del fatto che
taluni indicatori statistici hanno un senso solo nel caso di dati quantitativi e non
in quelli di dati qualitativi. Ad esempio è perfettamente sensato chiedersi quale è
il reddito medio dei cittadini di un paese, mentre non avrebbe alcun significato il
concetto di colore medio, o di partito medio: e questo anche se i dati qualitativi
fossero rappresentati da numeri.
Nel linguaggio della Statistica l’insieme dei soggetti presi in considerazione nella
discussione di un determinato problema (animali di una specie, palline in un’urna,
cittadini di un paese) costituisce una popolazione, mentre le caratteristiche X, Y, . . .
che si osservano (colore, gruppo sanguigno, reddito, peso . . . ) prendono il nome di
caratteri. I caratteri numerici – quelli che forniscono dati quantitativi – sono poi
distinti in due categorie secondo che assumano valori discreti (ad esempio il numero
di figli delle famiglie di un dato paese) o continui (il peso o l’altezza degli individui
3
N. Cufaro Petroni: Statistica
di una popolazione). I possibili valori assunti dai caratteri numerici discreti (numero
dei figli di una famiglia), o dai caratteri qualitativi (colori delle palline in un’urna)
si chiamano anche modalità. Cosı̀ ad esempio: il peso dei cittadini di un paese è un
carattere numerico continuo; il gruppo sanguigno degli individui di un gruppo è un
carattere qualitativo con 4 modalità (A, B, AB e 0). Come vedremo nel Capitolo 2,
infine, potremo avere anche dati multidimensionali, nel senso che su ogni individuo
si possono misurare due o più caratteri. Ad esempio se si misurano l’età e, il peso
p e il reddito r dei cittadini di un dato paese, ad ogni individuo sarà associata una
terna di numeri (e, p, r).
Nell’ambito della Statistica descrittiva supporremo sempre di avere a disposizione i
dati relativi a tutta la popolazione di nostro interesse che, quindi, dovrà contenere
un numero finito n di individui. I nostri insiemi di dati, chiamati campioni , saranno
, . . . , x , ed esauriranno tutta la popolazione considerata. Si no-
pertanto del tipo x 1 n
ti, però, a questo proposito che in genere il procedimento avviene in senso inverso:
si parte dai dati e poi si stabilisce quale è la popolazione di riferimento. Tipica-
, . . . , x il cui significato può
mente nella realtà il punto di partenza è il campione x 1 n
cambiare secondo il punto di vista adottato. In un certo senso è lo statistico che, in
base alle proprie necessità, stabilisce quale è la popolazione di riferimento: se decide
che la popolazione di interesse è rappresentata solo dagli n dati a sua disposizione,
allora egli si colloca nell’ambito della Statistica descrittiva; se invece considera gli
n dati come un campione estratto da una popolazione più vasta sulla quale vuole
ricavare delle informazioni, allora si colloca nell’ambito della Statistica inferenziale
, . . . , x
che studieremo nella Parte III. Supponiamo ad esempio di avere i risultati x 1 n
del test d’ingresso di n studenti ad un corso di laurea universitario. Se il nostro sco-
po è solo quello di esaminare il livello di preparazione degli studenti che accedono
al corso di laurea in quell’anno accademico, è evidente che la nostra popolazione
sarà ristretta agli n individui che hanno sostenuto il test. Se invece dai risultati del
test volessimo dedurre delle conclusioni, ad esempio, sulla tutta la popolazione stu-
dentesca che accede all’università in un determinato anno accademico, è altrettanto
, . . . , x dovrà ora essere considerato come un campione estratto da
evidente che x 1 n
una popolazione più vasta. Il medesimo insieme di dati, cioè, può essere considerato
da due punti di vista diversi: nel primo caso si tratta di un problema di Statistica
descrittiva, nel secondo di un problema di Statistica inferenziale.
Supponiamo allora di osservare un carattere (numerico o qualitativo) X con un nu-
mero finito M di modalità su una popolazione di n individui: convenzionalmente
indicheremo le M possibili modalità con i numeri interi k = 1, . . . , M . I dati sa-
, . . . , x di n numeri interi con valori k = 1, . . . , M .
ranno allora un campione x 1 n delle x uguali
Chiameremo frequenza assoluta della k–ma modalità il numero N k j
{j = k} l’insieme degli individui della nostra
a k. In termini formali, detto : x j {j
è il numero di elementi di : x = k},
popolazione che assumono il valore k, N k j
ovvero indicando con # la cardinalità di un dato insieme,
= #{j : x = k} , k = 1, . . . , M . (1.1)
N k j 4 1.1 Dati e frequenze
Chiameremo invece frequenza relativa della k–ma modalità il numero
N k
p = , k = 1, . . . , M (1.2)
k n che assume il valore k. Naturalmente sono
che rappresenta la frazione delle x j
verificate le due relazioni di normalizzazione
N + . . . + N = n , p + . . . + p = 1 . (1.3)
1 M 1 M
Sia nel caso di frequenze assolute che in quello di frequenze relative si introduce poi
il concetto di frequenze cumulate:
k k
= N , f = p , k = 1, . . . , M (1.4)
F
k i k i
i=1 i=1
Come è evidente la frequenza assoluta (rispettivamente: relativa) cumulata F (f )
k k
con valore minore o uguale a k. Per le
rappresenta il numero (la frazione) delle x j
frequenze cumulate le relazioni (1.3) divengono
= n , f = 1 .
F
M M
Se invece il carattere X è numerico e continuo le sue modalità sono infinite e non nu-
merabili per cui bisognerà procedere in modo diverso. Siccome anche in questo caso
, . . . , x che costituiscono la nostra popolazione sono in numero
i valori osservati x 1 n
n finito, essi cadranno in qualche intervallo finito del tipo [a, b] e noi li ripartire-
mo in opportune classi nel modo seguente: suddividiamo [a, b] in M sottointervalli
con k = 1, . . . , M e poniamo,
(non necessariamente tutti della stessa ampiezza) J
k
analogamente al caso discreto, N k
∈ }
N = #{j : x J , p = , k = 1, . . . , M .
k j k k n
Anche ora quindi potremo parlare di frequenze assolute e relative dei ritrovamenti
. Ovviamente le relazioni (1.3) continueranno a va-
dei nostri dati negli intervalli J
k
lere anche in questo caso. Si noti però che adesso i valori delle frequenze dipendono
|
|J delle classi che è scelta arbit
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.