Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

Università degli Studi di Bari

Facoltà di Scienze Matematiche, Fisiche e Naturali

Nicola Cufaro Petroni

Statistica

con Elementi di Probabilità

anno accademico 2004/05

Il testo di queste lezioni è liberamente disponibile all’indirizzo

http://www.ba.infn.it/~cufaro/didactic/StatisticaMatematica.pdf

e può anche essere richiesto scrivendo a

cufaro@ba.infn.it

c 2004 Nicola Cufaro Petroni

Copyright

Università degli Studi di Bari

Facoltà di Scienze Matematiche, Fisiche e Naturali

via E.Orabona 4, 70125 Bari

Prefazione

La struttura di queste lezioni riflette una duplicità di significato della parola Sta-

tistica. Per essere più chiari cominceremo con un esempio: supponiamo di voler

conoscere l’orientamento politico generale dei cittadini di un determinato paese. È

ben noto che in questo caso si organizzano delle elezioni che consistono nel racco-

gliere il voto di tutti gli elettori. Una volta esaurite le operazioni di voto si passerà

allo spoglio delle schede e alla registrazione dei risultati. Tali risultati si presentano

in generale come una grande quantità di dati numerici che possono essere esamina-

ti, combinati e rappresentati in diverse maniere in modo da estrarre l’informazione

rilevante ai fini elettorali. Le elezioni generali sono però tipicamente delle opera-

zioni complesse e costose, e per questo motivo spesso si preferisce affidarsi a dei

sondaggi per avere delle informazioni, almeno approssimative e provvisorie, sulla

volontà dei cittadini. Questi sondaggi consistono nella registrazione delle opinioni

di un piccolo numero di soggetti, a partire dal quale si ricavano delle indicazioni

sulla volontà generale della popolazione intera. Ovviamente i sondaggi non possono

essere sostitutivi delle elezioni, e non solo perchè bisogna dare a tutti i cittadini la

possibilità di esprimere la propria opinione, ma anche per una profonda differenza

fra i dati delle due operazioni. Il risultato del sondaggio, infatti, è aleatorio: sic-

come il campione di cittadini intervistato è scelto casualmente, una ripetizione del

sondaggio – per quanto eseguita con i medesimi criteri – porterebbe inevitabilmente

a dei risultati numerici diversi, anche se di poco. Viceversa nel caso delle elezioni

l’indagine esaurisce l’intera popolazione degli elettori: una eventuale ripetizione del

voto – supponendo per semplicità che non vi siano ripensamenti o errori – non mo-

dificherebbe il risultato. Noi diremo che l’esame dei risultati elettorali complessivi

è compito della Statistica descrittiva, mentre le tecniche per ricavare informazioni

su tutta la popolazione a partire dai risultati relativi a un piccolo campione sono

parte della Statistica inferenziale. Naturalmente, come è noto, l’uso dei sondaggi

comporta dei rischi dovuti alla aleatorietà dei loro esiti, per cui diventa essenziale

per la Statistica inferenziale essere in grado di misurare l’affidabilità dei risultati:

in questo giocheranno un ruolo essenziale i concetti e le tecniche del Calcolo delle

probabilità.

Si noti che nel caso dell’esempio elettorale citato la possibilità di registrare il voto di

tutti i cittadini esiste comunque: pertanto, in linea di principio, è sempre possibile

confrontare i risultati dei sondaggi con quelli delle elezioni generali e verificarne

I

N. Cufaro Petroni: Statistica

quindi l’attendibilità. Questa possibilità, però, non sussiste sempre: in molti casi

infatti un’indagine che esaurisca l’intera popolazione semplicemente non è possibile,

e ci si deve accontentate invece di esaminare le misure eseguite su un campione

tentando di dedurne le caratteristiche generali del fenomeno studiato. Ad esempio

in linea di principio la misura della massa di una particella elementare può essere

eseguita infinite volte, e data la delicatezza della misura i risultati variano sempre

in maniera aleatoria. In pratica il numero delle nostre misure sarà sempre finito,

e d’altra parte, per quanto grande sia questo numero, non potremo mai dire di

aver esaurito l’intera popolazione teoricamente disponibile. Allo stesso modo la

determinazione della lunghezza media degli insetti di una determinata specie non

potrà che essere effettuata su un campione casuale, visto che l’intera popolazione di

insetti resta comunque praticamente inaccessibile. In queste occasioni, ovviamente,

il raffinamento delle tecniche probabilistiche diventa essenziale.

Nasce da queste osservazioni la struttura – ormai classica – di queste lezioni divise

in tre parti. La prima esamina gli strumenti principali della Statistica descrittiva:

tabelle, grafici, indici di centralità e dispersione, correlazioni. La seconda intro-

duce i concetti più rilevanti del Calcolo delle probabilità, e funge da introduzione

alla terza che infine studia le tecniche più note della Statistica inferenziale: stime,

intervalli di fiducia, test di ipotesi. Per ovvie ragioni di spazio e tempo gli argo-

menti non saranno trattati in maniera esaustiva. In particolare la parte di Calcolo

delle probabilità è ridotta a quanto è strettamente necessario per la comprensione

della parte di Statistica inferenziale. Lo scopo del corso rimane quello di mettere

gli studenti in grado di usare gli strumenti più semplici e più noti della statistica,

ma anche di stabilire alcuni pilastri concettuali che consentano loro, qualora se ne

presentasse l’occasione, di estendere le loro capacità in maniera autonoma. Alcuni

completamenti sono comunque già previsti per le prossime edizioni di questo testo.

Devo infine ringraziare il collega Paolo Baldi dell’Università di Roma “Tor Vergata”

per aver messo gentilmente a mia disposizione il testo non pubblicato di un suo corso

di Statistica dal quale ho liberamente attinto idee, osservazioni ed esempi.

Bari, Novembre 2004 Nicola Cufaro Petroni

II

Indice

Prefazione I

I Statistica descrittiva 1

1 Statistica univariata 3

1.1 Dati e frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Tabelle e grafici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3 Moda, media e varianza . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.4 Mediana e quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.5 Momenti, asimmetria e curtosi . . . . . . . . . . . . . . . . . . . . . . 18

1.6 Medie generalizzate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2 Statistica multivariata 23

2.1 Dati multidimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2 Covarianza, correlazione e regressione . . . . . . . . . . . . . . . . . . 25

2.3 Componenti principali . . . . . . . . . . . . . . . . . . . . . . . . . . 28

II Probabilità 37

3 Spazi di probabilità 39

3.1 Spazio dei campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2 Eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.3 Probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4 Condizionamento e indipendenza 45

4.1 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5 Variabili aleatorie 51

5.1 Variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.2 Variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . 54

5.3 Variabili aleatorie continue . . . . . . . . . . . . . . . . . . . . . . . . 59

III

N. Cufaro Petroni: INDICE

Statistica

5.4 Quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.5 Vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

6 Attesa e varianza 71

6.1 Attesa e varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6.2 Esempi di attese e varianze . . . . . . . . . . . . . . . . . . . . . . . . 75

7 Teoremi limite 79

7.1 Legge dei Grandi Numeri . . . . . . . . . . . . . . . . . . . . . . . . . 79

7.2 Teorema Limite Centrale . . . . . . . . . . . . . . . . . . . . . . . . . 82

III Statistica inferenziale 87

8 Stima di parametri 89

8.1 Stima puntuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

8.2 Stima per intervalli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

8.2.1 Intervallo di fiducia per l’attesa µ . . . . . . . . . . . . . . . . 99

2

8.2.2 Intervallo di fiducia per la varianza σ . . . . . . . . . . . . . 101

8.3 Stima di Massima Verosimiglianza . . . . . . . . . . . . . . . . . . . . 103

9 Test di Ipotesi 109

9.1 Ipotesi ed errori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

9.2 Test sulla media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

9.2.1 Test di Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

9.2.2 Test di Student . . . . . . . . . . . . . . . . . . . . . . . . . . 120

9.3 Test per il confronto delle medie . . . . . . . . . . . . . . . . . . . . . 121

9.3.1 Campioni accoppiati . . . . . . . . . . . . . . . . . . . . . . . 122

9.3.2 Campioni indipendenti . . . . . . . . . . . . . . . . . . . . . . 126

9.4 Test di Fisher sulla varianza . . . . . . . . . . . . . . . . . . . . . . . 128

2

9.5 Test del χ di adattamento . . . . . . . . . . . . . . . . . . . . . . . . 129

2

9.6 Test del χ di indipendenza . . . . . . . . . . . . . . . . . . . . . . . 133

IV Appendici 137

A Esercizi 139

A.1 Esercizi di Statistica Descrittiva . . . . . . . . . . . . . . . . . . . . . 141

A.2 Esercizi di Probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . 145

A.3 Esercizi di Statistica Inferenziale . . . . . . . . . . . . . . . . . . . . . 148

B Schemi 157

B.1 Formulario di Statistica Inferenziale . . . . . . . . . . . . . . . . . . . 159

IV

INDICE INDICE

C Notazioni 163

C.1 Notazioni vettoriali . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

D Tavole Numeriche 167

N

D.1 Legge Normale standard (0, 1) . . . . . . . . . . . . . . . . . . . . . 169

D.2 Legge di Student t(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

2 (n) . . . . . . . . . . . . . . . . . . . . . . . 171

D.3 Legge del Chi Quadro χ

D.4 Legge di Fisher F (n, m) . . . . . . . . . . . . . . . . . . . . . . . . . 172

−λ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

D.5 Valori di e

Indice analitico 175

V

Parte I

Statistica descrittiva

1

Capitolo 1

Statistica univariata

1.1 Dati e frequenze

Distingueremo innanzitutto i dati in due categorie: quantitativi e qualitativi. I

dati quantitativi sono risultati di misure che forniscono valori numerici: ad esempio

posizioni, velocità, masse di particelle; peso, altezza, età di individui di una specie

di animali; reddito dei cittadini di un paese. I dati qualitativi viceversa non sono in

genere rappresentati da numeri: ad esempio i colori delle palline estratte da un’urna;

il gruppo sanguigno A, B, AB e 0 di un insieme di persone; il partito politico votato

dagli elettori di un paese. Si noti però che la differenza principale fra i due tipi di

dati non consiste nel fatto formale di essere rappresentati o meno da numeri: in

fondo potremmo convenzionalmente rappresentare i colori, i gruppi sanguigni e i

partiti degli esempi precedenti con dei numeri. Quel che è profondamente diverso

è il significato di questi numeri: ad esempio il colore rosso delle palline dell’urna

può essere rappresentato indifferentemente con 1, o 2 o qualsiasi altro numero senza

che nulla cambi nella discussione del problema. Invece i numeri che rappresentano i

redditi dei cittadini di un paese non possono essere assegnati arbitrariamente senza

perdere tutta l’informazione utile. Questa differenza è anche alla base del fatto che

taluni indicatori statistici hanno un senso solo nel caso di dati quantitativi e non

in quelli di dati qualitativi. Ad esempio è perfettamente sensato chiedersi quale è

il reddito medio dei cittadini di un paese, mentre non avrebbe alcun significato il

concetto di colore medio, o di partito medio: e questo anche se i dati qualitativi

fossero rappresentati da numeri.

Nel linguaggio della Statistica l’insieme dei soggetti presi in considerazione nella

discussione di un determinato problema (animali di una specie, palline in un’urna,

cittadini di un paese) costituisce una popolazione, mentre le caratteristiche X, Y, . . .

che si osservano (colore, gruppo sanguigno, reddito, peso . . . ) prendono il nome di

caratteri. I caratteri numerici – quelli che forniscono dati quantitativi – sono poi

distinti in due categorie secondo che assumano valori discreti (ad esempio il numero

di figli delle famiglie di un dato paese) o continui (il peso o l’altezza degli individui

3

N. Cufaro Petroni: Statistica

di una popolazione). I possibili valori assunti dai caratteri numerici discreti (numero

dei figli di una famiglia), o dai caratteri qualitativi (colori delle palline in un’urna)

si chiamano anche modalità. Cosı̀ ad esempio: il peso dei cittadini di un paese è un

carattere numerico continuo; il gruppo sanguigno degli individui di un gruppo è un

carattere qualitativo con 4 modalità (A, B, AB e 0). Come vedremo nel Capitolo 2,

infine, potremo avere anche dati multidimensionali, nel senso che su ogni individuo

si possono misurare due o più caratteri. Ad esempio se si misurano l’età e, il peso

p e il reddito r dei cittadini di un dato paese, ad ogni individuo sarà associata una

terna di numeri (e, p, r).

Nell’ambito della Statistica descrittiva supporremo sempre di avere a disposizione i

dati relativi a tutta la popolazione di nostro interesse che, quindi, dovrà contenere

un numero finito n di individui. I nostri insiemi di dati, chiamati campioni , saranno

, . . . , x , ed esauriranno tutta la popolazione considerata. Si no-

pertanto del tipo x 1 n

ti, però, a questo proposito che in genere il procedimento avviene in senso inverso:

si parte dai dati e poi si stabilisce quale è la popolazione di riferimento. Tipica-

, . . . , x il cui significato può

mente nella realtà il punto di partenza è il campione x 1 n

cambiare secondo il punto di vista adottato. In un certo senso è lo statistico che, in

base alle proprie necessità, stabilisce quale è la popolazione di riferimento: se decide

che la popolazione di interesse è rappresentata solo dagli n dati a sua disposizione,

allora egli si colloca nell’ambito della Statistica descrittiva; se invece considera gli

n dati come un campione estratto da una popolazione più vasta sulla quale vuole

ricavare delle informazioni, allora si colloca nell’ambito della Statistica inferenziale

, . . . , x

che studieremo nella Parte III. Supponiamo ad esempio di avere i risultati x 1 n

del test d’ingresso di n studenti ad un corso di laurea universitario. Se il nostro sco-

po è solo quello di esaminare il livello di preparazione degli studenti che accedono

al corso di laurea in quell’anno accademico, è evidente che la nostra popolazione

sarà ristretta agli n individui che hanno sostenuto il test. Se invece dai risultati del

test volessimo dedurre delle conclusioni, ad esempio, sulla tutta la popolazione stu-

dentesca che accede all’università in un determinato anno accademico, è altrettanto

, . . . , x dovrà ora essere considerato come un campione estratto da

evidente che x 1 n

una popolazione più vasta. Il medesimo insieme di dati, cioè, può essere considerato

da due punti di vista diversi: nel primo caso si tratta di un problema di Statistica

descrittiva, nel secondo di un problema di Statistica inferenziale.

Supponiamo allora di osservare un carattere (numerico o qualitativo) X con un nu-

mero finito M di modalità su una popolazione di n individui: convenzionalmente

indicheremo le M possibili modalità con i numeri interi k = 1, . . . , M . I dati sa-

, . . . , x di n numeri interi con valori k = 1, . . . , M .

ranno allora un campione x 1 n delle x uguali

Chiameremo frequenza assoluta della k–ma modalità il numero N k j

{j = k} l’insieme degli individui della nostra

a k. In termini formali, detto : x j {j

è il numero di elementi di : x = k},

popolazione che assumono il valore k, N k j

ovvero indicando con # la cardinalità di un dato insieme,

= #{j : x = k} , k = 1, . . . , M . (1.1)

N k j 4 1.1 Dati e frequenze

Chiameremo invece frequenza relativa della k–ma modalità il numero

N k

p = , k = 1, . . . , M (1.2)

k n che assume il valore k. Naturalmente sono

che rappresenta la frazione delle x j

verificate le due relazioni di normalizzazione

N + . . . + N = n , p + . . . + p = 1 . (1.3)

1 M 1 M

Sia nel caso di frequenze assolute che in quello di frequenze relative si introduce poi

il concetto di frequenze cumulate:

k k

= N , f = p , k = 1, . . . , M (1.4)

F

k i k i

i=1 i=1

Come è evidente la frequenza assoluta (rispettivamente: relativa) cumulata F (f )

k k

con valore minore o uguale a k. Per le

rappresenta il numero (la frazione) delle x j

frequenze cumulate le relazioni (1.3) divengono

= n , f = 1 .

F

M M

Se invece il carattere X è numerico e continuo le sue modalità sono infinite e non nu-

merabili per cui bisognerà procedere in modo diverso. Siccome anche in questo caso

, . . . , x che costituiscono la nostra popolazione sono in numero

i valori osservati x 1 n

n finito, essi cadranno in qualche intervallo finito del tipo [a, b] e noi li ripartire-

mo in opportune classi nel modo seguente: suddividiamo [a, b] in M sottointervalli

con k = 1, . . . , M e poniamo,

(non necessariamente tutti della stessa ampiezza) J

k

analogamente al caso discreto, N k

∈ }

N = #{j : x J , p = , k = 1, . . . , M .

k j k k n

Anche ora quindi potremo parlare di frequenze assolute e relative dei ritrovamenti

. Ovviamente le relazioni (1.3) continueranno a va-

dei nostri dati negli intervalli J

k

lere anche in questo caso. Si noti però che adesso i valori delle frequenze dipendono

|

|J delle classi che è scelta arbitrariamente. Come vedremo in alcu-

dall’ampiezza k |

|J delle classi può rivelarsi

ni esempi successivi la determinazione delle ampiezze k

cruciale per mettere in evidenza alcune caratteristiche dei dati. Una certa impor-

tanza riveste anche il concetto di valore centrale di una classe: esso coincide con la

. Per scopi di ulteriore analisi statistica

semisomma degli estremi dell’intervallo J

k

in generale tutti i valori di una data classe vengono identificati proprio con il suo

valore centrale. Infine anche nel caso di caratteri continui è possibile parlare di fre-

quenze cumulate adottando le definizioni (1.4) per le frequenze di ritrovamenti nelle

(f ) indica il numero (la frazione) di dati x

classi. Ovviamente in questo caso F k k j

che cadono all’interno dell’unione dei primi k sottointervalli, ovvero che sono minori

.

o uguali dell’estremo destro di J

k 5

N. Cufaro Petroni: Statistica

3 0 3 1 1 1 2 4 1 3 2 1 0 2 1 3 3 0 2 1

3 4 3 1 3 4 1 5 0 2 0 4 1 4 2 2 2 1 2 3

2 3 2 2 3 3 2 1 2 1

Tabella 1.1: Campione di n = 50 misure di un carattere con le 6 modalità k =

0, 1, 2, 3, 4, 5. k 0 1 2 3 4 5

N 5 13 14 12 5 1

k

F 5 18 32 44 49 50

k

p 0.10 0.26 0.28 0.24 0.10 0.02

k

f 0.10 0.36 0.64 0.88 0.98 1.00

k

Tabella 1.2: Frequenze e frequenze cumulate, assolute e relative, per i dati riportati

in Tabella 1.1.

1.2 Tabelle e grafici

L’informazione contenuta nelle frequenze assolute e relative può essere messa meglio

in evidenza organizzando i dati in tabelle o anche rappresentandoli in grafici. Le

tecniche di organizzazione e visualizzazione dei dati sono numerose, e la scelta di

quelle più opportune dipende dal particolare problema studiato. Noi qui ne daremo

solo qualche esempio senza nessuna pretesa di completezza.

Le tabelle di frequenza non sono altro che opportune tabelle nelle quali sono riportati

in maniera organizzata i valori numerici delle varie frequenze. Per la rappresenta-

zione grafica dei caratteri discreti lo strumento più usato è il diagramma a barre che

consiste semplicemente nel riportare in corrispondenza di ogni singola modalità delle

barre di altezza uguale ai valori delle frequenze. Su questi diagrammi possono essere

rappresentate sia le frequenze assolute che quelle relative: siccome a causa di (1.2)

e p sono tutti numeri proporzionali fra loro, i diagrammi a barre dei due casi

N k k

sono identici, l’unica differenza essendo la scala dei valori dell’asse verticale. Per le

frequenze dei caratteri continui invece si costruiscono degli istogrammi . Il principio

è simile a quello dei diagrammi a barre con una importante differenza: sulla classe

dell’intervallo [a, b] che contiene tutti i dati) si costruisce

k–ma (sottointervallo J

k

un rettangolo la cui area è uguale al valore della frequenza k–ma. Siccome le am-

|

|J delle varie classi (basi dei rettangoli) possono essere diverse, in generale le

piezze k

altezze dei rettangoli non saranno più proporzionali alle frequenze: a parità di dati

contenuti, classi molto ampie tenderanno ad avere rettangoli più bassi, e viceversa.

|

|J fossero scelte tutte uguali le altezze dei ret-

Solo nel caso in cui le ampiezze k

tangoli sarebbero nuovamente proporzionali alle frequenze (assolute o relative) delle

classi. Noteremo infine che anche le frequenze cumulate sono ovviamente suscettibili

di rappresentazioni grafiche che però noi, per brevità, trascureremo limitandoci a

riportare i loro valori nelle tabelle di frequenza.

6 1.2 Tabelle e grafici

p k

0.2

0.1 k

0 1 2 3 4 5

Figura 1.1: Diagramma a barre delle frequenze relative p dei dati della Tabella 1.1.

k

0.30 1.03 1.08 1.22 1.46 1.62 2.01 2.17 2.27 2.31

2.33 2.41 2.49 2.49 2.57 2.58 2.59 2.63 2.75 2.75

2.84 2.93 2.95 3.08 3.09 3.23 3.27 3.27 3.28 3.37

3.39 3.42 3.47 3.49 3.56 3.60 3.78 3.78 3.79 3.87

3.91 3.91 3.95 3.95 3.96 4.02 4.11 4.12 4.12 4.22

4.31 4.35 4.58 4.69 4.76 4.89 5.12 5.18 5.20 5.34

5.34 5.37 5.40 5.46 5.54 5.62 5.64 5.64 5.68 5.71

5.73 5.94 6.10 6.19 6.24 6.28 6.31 6.33 6.35 6.40

6.44 6.44 6.55 6.56 6.63 6.68 6.73 6.75 6.89 6.99

7.01 7.08 7.11 7.15 7.26 7.44 7.47 7.93 8.21 8.44

Tabella 1.3: Campione di n = 100 misure di un carattere continuo X. Per co-

modità i dati sono stati riportati in ordine crescente. La coincidenza di alcuni dei

valori – particolarmente improbabile nel caso di caratteri continui – è dovuta agli

arrotondamenti effettuati.

Esempio 1.1. Supponiamo di aver raccolto n = 50 misure di un carattere con M = 6

modalità che qui per comodità rappresenteremo senz’altro con i numeri k = 0, 1, 2, 3, 4, 5.

Come esempio concreto possiamo pensare di aver esaminato 50 famiglie con 5 figli e di

aver registrato per ciascuna di esse il numero dei figli maschi che ovviamente è un numero

intero da 0 a 5; alternativamente potremmo pensare di aver lanciato 50 volte 5 monete e

di aver registrato in ogni lancio il numero delle teste. I dati di partenza del nostro esempio

sono mostrati nella Tabella 1.1. È facile a questo punto calcolare le frequenze assolute e

relative da (1.1) e (1.2): i risultati sono riportati nella Tabella 1.2. Le frequenze possono

poi essere rappresentate in un diagramma a barre come quello di Figura 1.1. Per evitare

ripetizioni abbiamo scelto di riportare solo il diagramma a barre delle frequenze relative:

quello delle frequenze assolute sarebbe identico, tranne che per la scala dei valori dell’asse

verticale.

Esempio 1.2. Supponiamo di avere le n = 100 misure di un carattere continuo X ripor-

tate nella Tabella 1.3. Ad esempio potrebbero essere – in una opportuna unità di misura

– le misure di una dimensione fisica di un gruppo di insetti; ovvero le misure della mas-

7

N. Cufaro Petroni: Statistica

J N F p f

k k k k k

[0.0, 2.0] 6 6 0.06 0.06

[2.0, 4.0] 39 45 0.39 0.45

[4.0, 6.0] 27 72 0.27 0.72

[6.0, 8.0] 26 98 0.26 0.98

[8.0, 10.0] 2 100 0.02 1.00

Tabella 1.4: Frequenze dei dati di Tabella 1.3 per 5 classi di ampiezza 2.0

sull’intervallo [0, 10].

sa delle particelle elementari presenti in un determinato esperimento. Ovviamente nella

realtà i valori non si ottengono nell’ordine crescente nel quale li abbiamo riportati; noi

però abbiamo riordinato il campione perché questo facilita il calcolo delle frequenze senza

modificarne il valore. La tabella delle frequenze dipende ora dalle classi scelte. Si vede

subito che i dati cadono tutti fra 0.30 e 8.44, ma per rendere più simmetriche le classi

possiamo, ad esempio, considerare un intervallo un po’ più ampio del tipo [0, 10]. Per

semplicità sceglieremo per ora classi tutte della stessa ampiezza, e cominceremo con il

dividere [0, 10] in sottointervalli di ampiezza 2.0. In questo caso le frequenze sono quelle

della Tabella 1.4. Se invece avessimo scelto come ampiezza delle classi 0.5 o 0.1 avremmo

ottenuto frequenze piuttosto diverse: per brevità non ne riportiamo le tabelle limitandoci

solo alla loro successiva rappresentazione grafica. Si può passare a questo punto a costruire

gli istogrammi corrispondenti a ciascuna scelta delle classi, ricordando che su ogni classe

dovrà essere disegnato un rettangolo di area uguale alla rispettiva frequenza. Gli isto-

grammi ottenuti con le tre scelte delle classi (ampiezze rispettivamente 2.0, 0.5 e 0.1) sono

riportati nella Figura 1.2. Si noterà che l’aspetto dei tre istogrammi è piuttosto diverso:

quello con le classi più ampie (ampiezza 2.0, in alto a sinistra) fornisce una rappresenta-

zione piuttosto grossolana, mentre quello con le classi meno ampie (ampiezza 0.1, in alto

a destra) dà una rappresentazione piuttosto confusa. Viceversa l’istogramma con classi

di ampiezza 0.5 (in basso a sinistra) sembra avere un aspetto più equilibrato, e mostra

alcune caratteristiche dei dati che non appaiono negli altri due: in particolare esso indica

che le frequenze presentano due massimi relativi in corrispondenza delle classi [3.0, 3.5],

[3.5, 4.0] e [6.0, 6.5]. Questa struttura dell’istogramma è interessante da un punto di vista

statistico in quanto potrebbe indicare che la nostra popolazione è in realtà composta della

sovrapposizione di due popolazioni con proprietà differenti: una con valori del carattere

prevalentemente compresi fra 3 e 4, e l’altra con valori del carattere prevalentemente vicini

a 6. Infine sempre nella stessa Figura 1.2 è riportato un istogramma dello stesso campione

costruito con classi di ampiezze diverse fra loro. Si vede quindi come la scelta delle classi

modifichi l’aspetto dell’istogramma, volta a volta mettendo in evidenza o nascondendo

alcune caratteristiche dei dati. Non ci sono però delle regole per scegliere le classi nella

maniera migliore, e d’altra parte non è detto che quel che viene messo in evidenza da un

particolare istogramma sia poi in realtà statisticamente significativo. Il ricercatore avve-

duto, guidato dalla sua esperienza, farà diversi tentativi, e cercherà successivamente delle

conferme per le conclusioni suggerite dalle diverse rappresentazioni dei suoi dati.

8 1.3 Moda, media e varianza

0.4

0.1 0.2 2 4 6 8 10

2 4 6 8 10

0.2 0.2

0.1 0.1 2 4 6 8 10

2 4 6 8 10

Figura 1.2: Istogrammi dei dati riportati in Tabella 1.3. I due istogrammi in alto si

riferiscono a classi di ampiezze rispettivamente 2.0 e 0.1. L’istogramma in basso a

sinistra è invece costruito con classi di ampiezza 0.5, mentre quello in basso a destra

è costruito con classi di ampiezza variabile.

1.3 Moda, media e varianza

L’analisi statistica non si esaurisce nella rappresentazione delle frequenze dei dati:

un altro importante aspetto consiste nella ricerca di opportuni indici che permettano

concentrare in pochi numeri le caratteristiche più rilevanti dei dati. Sono di parti-

colare importanza gli indici di centralità e quelli di dispersione. I primi forniscono

un’idea dei valori attorno ai quali sono prevalentemente concentrati i dati; i secondi

misurano la dispersione dei dati attorno ai valori centrali. In questa e nelle successi-

ve sezioni esamineremo, senza nessuna pretesa di completezza, alcuni dei principali

indici statistici. Cominceremo con alcuni indici di centralità

Definizione 1.1. Data la distribuzione di frequenze di un carattere discreto chia-

moda

meremo la modalità corrispondente alla frequenza più grande. Nel caso di

caratteri continui la moda è la classe (o il suo valore centrale) corrispondente al

rettangolo più alto dell’istogramma.

Ad esempio nel diagramma a barre di Figura 1.1 la moda è 2. Nel caso dei dati

dell’Esempio 1.2, invece, l’identificazione della moda è un po’ più delicata. Intanto

è chiaro dagli istogrammi di Figura 1.2 che la moda dipende dalla scelta delle clas-

9

N. Cufaro Petroni: Statistica

si. In secondo luogo questi grafici mettono in evidenza che può capitare di avere

istogrammi (o anche diagrammi a barre) con più di un massimo locale. In realtà il

concetto di moda coincide piuttosto con quello di massimo locale che con quello di

massimo assoluto. Pertanto un insieme di dati può avere anche più di una moda.

Tornando alla Figura 1.2 vediamo allora che per l’istogramma in alto a sinistra la

moda è la classe [2.0, 4.0] ovvero il suo valore centrale 3; per i due istogrammi in

basso, invece, ci sono due mode: la classe (unione di due classi) [3.0, 4.0] ovvero il

suo valore centrale 3.5, e la classe [6.0, 6.5] ovvero 6.25. Infine l’istogramma in alto

a destra è caratterizzato da un eccessivo numero di massimi locali che lo rendono

confuso e poco adatto ad un’analisi statistica. Ancora una volta, come notato nell’E-

sempio 1.2, vediamo che classi eccessivamente larghe conducono ad un’analisi troppo

grossolana che può far perdere dell’informazione, mentre classi più ristrette (ma non

eccessivamente) possono mettere in evidenza alcune caratteristiche importanti.

media , . . . , x del carattere X la

Definizione 1.2. Si chiama del campione x 1 n

quantità

n

+ . . . + x

x 1

1 n

m = x = x

=

X j

n n j=1

La media è l’indice di centralità più noto e usato anche per le sue proprietà che noi

esamineremo brevemente nel seguito. Essa rappresenta in un certo senso il baricentro

del campione, se si immagina la densità dei dati come una specie di densità di massa.

, . . . , x sono misure di un carattere numerico discreto

Teorema 1.1. Se i dati x 1 n

, . . . , w , e se p sono le frequenze relative di tali modalità, si ha

X con modalità w 1 M k

M

m = x = p w .

X k k

k=1

Dimostrazione: Basterà osservare che per (1.2) np = N è il numero dei dati che

k k

, e che quindi

assume il valore w k

n M

1 np w + . . . + np w

1 1 M M

x = x = p w

=

j k k

n n

j=1 k=1

come affermato nel Teorema.

Teorema 1.2. Assegnato il campione x , . . . , x , due numeri reali a e b, e costruito

1 n

il nuovo campione y = ax + b, si ha

j j y = ax + b .

10 1.3 Moda, media e varianza

Dimostrazione: Si ha infatti

n n n n

1

1 1 1 +

y = y = (ax + b) = a x b = ax + b

j j j

n n n n

j=1 j=1 j=1 j=1

che completa la dimostrazione.

Esempio 1.3. Supponiamo di sapere che un campione x , . . . , x di misure di temperatura

1 n

in gradi Fahrenheit ha media x = 50 F : come possiamo convertire questa misura in gradi

centigradi? Teoricamente dovremmo convertire ogni misura x in gradi centigradi con la

j

nota relazione 100 −

y = 32) (1.5)

(x

j j

180

e poi calcolare la media y. Il calcolo potebbe essere lungo, e d’altra parte il problema

x, e non quello delle singole misure. Possiamo però usare il

ci fornisce solo il valore di

Teorema 1.2 visto che la relazione (1.5) è proprio del tipo y = ax + b. Un semplice

j j

calcolo conduce allora al valore

100 100 ◦

(x (50 32) = 10

y = 32) = C .

180 180

Teorema 1.3. Dati due campioni x , . . . , x e y , . . . , y con medie x e y, e detto

1 1 m

, . . . , z = x , . . . , x , y , . . . , y il campione ottenuto unificando i primi due con

z

1 n 1 1 m

n = + m, si ha x + my

z = .

n

Dimostrazione: La media z si esprime facilmente come

n m x

1 1 + my

=

z = z = x + y

j j j

n n n

j=1 j=1 j=1

che è il risultato richiesto.

Si osservi come il risultato del Teorema 1.3 possa essere riformulato dicendo che

la media di campioni combinati è la media pesata delle medie dei due campioni

separati: in questo caso i pesi rispettivi sono /n e m/n. In generale si parla di

media pesata quando i dati che si mediano non contano tutti allo stesso modo come

nella Definizione 1.2 nella quale tutti i dati hanno lo stesso peso 1/n. Un altro

esempio di media pesata è il risultato del Teorema 1.1 nel quale le singole modalità

sono mediate pesandole con le frequenze relative p . I pesi rappresentano una

w k k

misura dell’importanza relativa dei dati all’interno di una media.

, . . . , x , e i pesi q . . . , q tali che

Definizione 1.3. Assegnati i numeri x 1 n 1 n

≤ 1 , k = 1, . . . , n e q + . . . + q = 1

0 q k 1 n

11

N. Cufaro Petroni: Statistica

w 1 3 5 7 9

k

p 0.06 0.39 0.27 0.26 0.02

k

Tabella 1.5: Tabella dei dati raggruppati del campione riportato in Tabella 1.3 per

5 classi di ampiezza 2.0 sull’intervallo [0, 10].

media pesata

si chiama il numero

n q x .

k k

k=1

A volte, nel caso di caratteri numerici continui, non viene fornita l’intera tabella dei

dati, ma ci si limita a fornire la tabella delle frequenze in certe determinate classi.

In questo casi, in linea di principio, non si potrebbe calcolare la media del campione.

che

C’è però modo di ottenere un valore approssimato identificando tutti i valori x j

cadono nella classe k–ma con il valore centrale di quella classe che chiameremo w .

k

Potremo allora eseguire una media dei dati raggruppati cosı̀ ottenuti pesando ogni

con la frequenza relativa p della classe k–ma:

w k k

M

x p w . (1.6)

k k

k=1

Esempio 1.4. Nell’Esempio 1.2 potrebbe essere nota solo la Tabella 1.4 (o una analoga

con un’altra scelta delle classi), e non l’intera Tabella 1.3 dei dati. Usando allora la

Tabella 1.5 dei dati raggruppati da (1.6) si ottiene la media 4.58. D’altra parte utilizzando

i dati originali della Tabella 1.3 e la Definizione 1.2 si ottiene il valore esatto 4.56. Come si

può vedere l’approssimazione è piuttosto buona anche se le classi scelte sono molto ampie;

è intuitivo, comunque, che il valore approssimato è tanto più affidabile quanto più le classi

sono strette. varianza

Definizione 1.4. Chiameremo di un campione x , . . . , x di X con media

1 n

x la quantità

n

1

2 2

− − 2

s = (x x) = (x x) ,

j

X n j=1

scarto quadratico deviazione standard)

e (o la radice quadrata s della va-

X

coefficiente di variazione

rianza. Infine si chiama il rapporto s /|x|.

X

Le quantità introdotte nella precedente Definizione sono tutte misure della disper-

sione dei dati attorno al loro baricentro x. In particolare grandi valori della varianza

2 2

indicano che ci sono delle x anche molto lontane da x, mentre piccoli valori di s

s j

X X

2

indicano che il campione è piuttosto concentrato attorno a x. Il caso limite s = 0,

X

coincidono con x.

poi, implica che tutti i valori x j 12 1.3 Moda, media e varianza

Teorema 1.4. Se i dati x , . . . , x sono misure di un carattere numerico discreto

1 n

, . . . , w , e se p sono le frequenze relative di tali modalità, si ha

con modalità w 1 M k

M

2 2

s = p (w x) .

k k

X k=1

Dimostrazione: La dimostrazione è analoga a quella del Teorema 1.1.

Teorema 1.5. Dato un campione x , . . . , x con media x, si ha

1 n

2

n n

1 1

2 2 2

− −

2

s = x x = x x ,

j

X j

n n

j=1 j=1

2

2

dove x indica la media dei quadrati del campione, e x il quadrato della sua media.

Dimostrazione: Infatti si ha

n n

1 1

2 2 2 2

− −

= (x x) = (x + x 2x x)

s j j

X j

n n

j=1 j=1

n n n n

1 1 1 1

2 2 2 2 2

− −

= x + x 2x x = x + x 2x

j

j j

n n n n

j=1 j=1 j=1 j=1

2

2

= x x

che dimostra il Teorema.

Il teorema precedente è particolarmente usato per semplificare il calcolo della varian-

za: una volta calcolata x, infatti, è in genere più conveniente calcolare la media del

campione dei quadrati e usare il Teorema 1.5, piuttosto che calcolare direttamente

la varianza dalla definizione. 2

, . . . , x di X con media x e varianza s , e due

Teorema 1.6. Dato un campione x 1 n X

= ax + b di Y si ha

numeri a e b, definito il nuovo campione y j j

2 2 2

s = a s .

Y X

Dimostrazione: Infatti si ha dalle definizioni e dal Teorema 1.2 che

n n n

2

1 1 a

2 2 2 2 2 2

− − − −

s = (y y) = (ax + b ax b) = (x x) = a s ,

j j j

Y X

n n n

j=1 j=1 j=1

come volevasi dimostrare. 13

N. Cufaro Petroni: Statistica errore quadratico medio

Definizione 1.5. Chiameremo (eqm) di un campione

, . . . , x rispetto al numero a la quantità

x 1 n

n

1 2

E(a) − − 2

= (x a) = (x a) .

j

n j=1

x di un campione x , . . . , x è il valore di a che rende

Teorema 1.7. La media 1 n

E(a)

minimo l’eqm del campione.

Dimostrazione: Per determinare il punto di minimo dell’eqm bisogna imporre che

E (a), cioè

si annulli la derivata prima

n

2

E − − −2(x −

(a) = (x a) = a) = 0 ,

j

n j=1

da cui si deduce immediatamente il risultato. campione standardizzato

, . . . , x è un quando

Definizione 1.6. Diremo che x 1 n

2

= x = 0 e s = 1.

m X X 2

Teorema 1.8. Dato il campione x , . . . , x con media x e varianza s , il campione

1 n X

x x

j

y =

j s X

è standardizzato. −x/s

e b = si ha

Dimostrazione: Infatti dai Teoremi 1.2 e 1.6 con a = 1/s X X

x x

y = = 0 ,

s s

X X

2

s X

2

s = = 1 ,

Y 2

s X

il che prova la tesi.

Va ricordato infine, nel caso di caratteri numerici continui, che anche per la varianza

si può eseguire un calcolo approssimato con dati raggruppati in classi. Data infatti

in certe determinate classi si identificano i

la tabella delle frequenze relative p k

che cadono nella classe k–ma con il valore centrale di quella classe w .

valori x j k

Potremo allora calcolare prima di tutto un’approssimazione della media con (1.6), e

poi un’approssimazione della varianza dei dati raggruppati:

2

M M

2 2

s p w p w .

k k k

X k

k=1 k=1

14 1.4 Mediana e quantili

Esempio 1.5. Riprendiamo i dati dell’Esempio 1.2 riportati in Tabella 1.3 per i quali

abbiamo già calcolato la media (che vale 4.56) nell’Esempio 1.4, e calcoliamone la varianza.

Un’applicazione diretta della Definizione 1.4 ai dati della Tabella 1.3 fornisce un valore di

3.40, ma il calcolo è abbastanza laborioso. Può essere conveniente allora calcolare la media

dei quadrati dei dati (che è 24.22) e usare poi il Teorema 1.5 per ottenere più rapidamente

2

lo stesso valore: 24.22 4.56 = 3.40. Usando invece i dati raggruppati di Tabella 1.5 i

calcoli sono molto più veloci, ma approssimati. Ricordando dall’Esempio 1.4 che la media

approssimata vale 4.58, e calcolando la media approssimata dei quadrati 24.68, si ottiene

2

per la varianza con dati raggruppati: 24.68 4.58 = 3.70.

1.4 Mediana e quantili

Abbiamo già osservato che è talora utile riordinare un campione x , . . . , x in ordine

1 n

crescente: per distinguere i due tipi di campioni indicheremo i campioni ordinati

, . . . , x in modo tale che da ora in poi

con la notazione x [1 ] [n] ≤ ≤ ≤

x x . . . x .

[1 ] [2] [n]

quantile di ordine

Definizione 1.7. Chiameremo α (0 < α < 1) di un cam-

, . . . , x un numero q maggiore o uguale di una frazione α degli elementi

pione x 1 n α

, . . . , x , nel senso che il numero delle x che risulta

del campione ordinato x [1 ] [n] [j ]

non deve superare α(n + 1). Per evitare ambiguità dovute

minore o uguale di q α

al carattere intero degli indici del campione adotteremo la seguente procedura per la

: si calcola α(n + 1),

determinazione di q α

• = x ;

se α(n + 1) è intero, si considera l’indice j = α(n + 1)e si pone q α [j ]

• se α(n + 1) non è intero, si considera l’indice j tale che j < α(n + 1) < j + 1

e si pone + x

x [j ] [j+1]

=

q . (1.7)

α 2

12 mediana;

prende il nome di i quantili

Definizione 1.8. Il quantile di ordine α =

k con k = 1, 2, 3 si chiamano rispettivamente primo, secondo e terzo

di ordini α = 4

quartile: è evidente che il secondo quartile coincide con la mediana. I quantili con

k k

decili,

ordini α = con k = 1, . . . , 9 si chiamano e infine quelli con ordini α =

10 100

percentili

con k = 1, . . . , 99 si chiamano

Esempio 1.6. Riprendendo la Tabella 1.3 dei dati dell’Esempio 1.2 abbiamo n = 100:

per calcolare la mediana osserviamo allora che α(n + 1) = 101/2 = 50.5 non è intero.

Pertanto sceglieremo i = 50 e useremo (1.7): dai dati si ha allora per la mediana

+ x

x 4.22 + 4.31

[50] [51] = = 4.265 .

=

q 1 2 2

2 15

N. Cufaro Petroni: Statistica

x x

x x

1 5 9

Figura 1.3: Media x e mediana x di un campione di n = 9 dati rappresentati su un

[5]

asse numerico: diversamente dalla media il valore della mediana non è influenzato

da eventuali variazioni nei valori degli altri dati.

10 20 30 40 50

Figura 1.4: Distribuzione ipotetica del reddito dei dipendenti di un’azienda con

1 000 impiegati e operai, e 100 dirigenti. Data la differenza di reddito dei due gruppi

la mediana costituisce un indice più conveniente della media per rappresentare il

reddito del tipico dipendente.

Analogamente si ha α(n + 1) = 101/4 = 25.25, per cui i = 25 e i due quartili sono

+ x + x

x x

3.09 + 3.23 6.24 + 6.28

[25] [26] [75] [76]

= = 3.16 , q = = 6.26 .

= =

q 1 3

2 2 2 2

4 4

La mediana è un altro indice di centralità come la media e la moda: i loro valori

sono in generale differenti, e la scelta dell’opportuno indice dipende dal particolare

problema trattato. Anche le proprietà dei diversi indici sono differenti: ad esempio

per la mediana non ci sono formule semplici come quelle dei teoremi sulla media

richiamati nella Sezione 1.3. Per altri versi invece la mediana presenta il vantaggio

di essere un indice più robusto della media nel senso che il suo valore è meno sensibile

a variazioni o errori nei dati del campione.

Esempio 1.7. Si consideri il campione di n = 9 numeri rappresentato graficamente in

Figura 1.3: dalla Definizione 1.7 si vede subito che in questo caso la mediana coincide con

il dato x . Sull’asse è riportata anche la posizione della media x. Supponiamo ora di

[5]

aumentare o diminuire il valore di uno dei dati, ad esempio x : è evidente che, finché x

[9] [9]

rimane a destra di x , la mediana mantiene lo stesso valore x . Non avviene invece la

[5] [5]

16 1.4 Mediana e quantili

8

6

4

2 x y z

Figura 1.5: Esempi di boxplot costruiti sui tre campioni riportati nella Tabella 1.6

x 0.72 1.10 1.24 1.98 2.82 2.99 3.01 3.18

[i ] 3.31 8.64

y 0.25 0.66 0.68 1.07 1.09 1.15 1.94 3.11

[j ] 4.18 4.79 6.18 7.94

z 0.85 1.49 2.19 2.93 4.46 4.61 4.62 5.16

[k] 5.67 6.41 6.46 7.45 7.66 8.65 9.22

Tabella 1.6: Campioni (ordinati) utilizzati per i boxplot della Figura 1.5.

stessa cosa per la media x il cui valore dato dalla Definizione 1.2 è ovviamente influenzato

da eventuali variazioni di x .

[9]

Esempio 1.8. La mediana è un indice utile soprattutto nei casi in cui la media rischia

di non essere significativa. Supponiamo di considerare un’azienda con 1 000 impiegati e

operai, e 100 dirigenti, e supponiamo che l’istogramma dei redditi di tutti i dipendenti

sia quello di Figura 1.4: i redditi dei 1 000 impiegati e operai sono concentrati attorno a

5, mentre quelli dei dirigenti si distribuiscono attorno a 50. D’altra parte si ottiene per

calcolo diretto dai valori del campione – qui non riportati – che la mediana è 5.13 mentre

la media è 9.08: un valore quasi doppio. La media, quindi, risente molto della presenza di

un piccolo numero di redditi alti, ed è meno rappresentativa del reddito tipico di quanto

non sia invece la mediana. −

range

Definizione 1.9. Chiameremo del campione il numero x x , ovvero

[n] [1 ] dif-

, x ] che contiene tutti i dati; chiameremo invece

l’ampiezza dell’intervallo [x [1 ] [n] −

ferenza interquartile q , ovvero l’ampiezza dell’intervallo [q , q ]

il numero q 3 1 1 3

4 4 4 4

delimitato dai due quartili.

Il range e la differenza interquartile sono ovviamente degli indici di dispersione.

Assieme alla mediana essi possono essere rappresentati su un grafico noto come box-

, x ]

plot a causa della sua tipica forma: una volta determinati gli intervalli [x [1] [n]

, q ] si disegna un rettangolo, o scatola (box ), i cui lati inferiore e superiore

e [q 1 3

4 4

sono rispettivamente il primo e il terzo quartile. L’altezza di tale scatola è quindi

17

N. Cufaro Petroni: Statistica

pari alla differenza interquartile. All’interno della scatola si traccia una linea in

corrispondenza della mediana. All’esterno, infine, si riportano due segmenti oriz-

e x (la loro distanza è ovviamente il range) e

zontali corrispondenti ai valori x [1] [n]

due segmenti verticali che li congiungono ai lati della scatola. Nella Figura 1.5 sono

disegnati i boxplot dei tre campioni di Tabella 1.6. In particolare questi grafici met-

e la asimmetria

tono bene in evidenza il contrasto fra la simmetria del campione z [k]

e y : in questi due casi infatti la mediana è lontana dal centro

dei campioni x [i ] [j ]

della scatola (quindi è più vicina a uno dei due quartili), e inoltre i due dati estremi

sono a distanze piuttosto diverse dai rispettivi quartili. Il grafico mette anche bene

in evidenza in che senso il range e la distanza interquartile sono due misure differenti

, pur avendo approssimativamente

della dispersione del campione: ad esempio le z [k]

hanno una differenza interquartile sensibilmente più elevata.

lo stesso range delle x [i ]

1.5 Momenti, asimmetria e curtosi

momento di ordine mo-

Definizione 1.10. Chiameremo rispettivamente k e

mento centrato di ordine , . . . , x le quantità

k di un campione x 1 n

n n

1 1

k k

m = x , µ = (x x) .

k k j

j

n n

j=1 j=1

2 asimmetria

Ovviamente m = x, e µ = s . Si chiama inoltre del campione la

1 2 X

quantità µ µ

3 3

= = ,

γ 1 3

3/2 s

µ X

2

curtosi

e la quantità µ µ

4 4

= = .

γ 2 2 4

µ s

2 X

I momenti sono indici che generalizzano medie e varianze e forniscono ulteriori in-

formazioni sulla dispersione, la simmetria e in generale la forma della distribuzione

prende valori prossimi a zero

del campione. In particolare l’indice di asimmetria γ 1

se i dati si distribuiscono in maniera simmetrica attorno alla media, mentre pren-

de valori apprezzabilmente diversi da zero se la distribuzione è asimmetrica (vedi

può essere positivo o negativo: valori positivi indicano

Figura 1.6). Il valore di γ 1

la presenza di code verso destra; valori negativi sono invece associati a code verso

invece assume solo valori positivi perché coinvolge solo medie

sinistra. La curtosi γ 2

di potenze pari dei dati: essa è legata alla velocità con cui l’istogramma tende a

zero allontanandosi dal valore medio. In particolare la curtosi ha valori vicini a ze-

ro quando le code dell’istogramma sono corte, cioè quando l’istogramma si annulla

rapidamente; viceversa assume valori grandi e positivi quando ci sono code lunghe,

cioè quando sono presenti dati anche molto lontani dalla media (vedi Figura 1.7).

18 1.6 Medie generalizzate

0.2

0.3

0.2 0.1

0.1 1 1

1 3 5 7 9 1 3 5 7 9

Figura 1.6: Istogrammi di dati con diversa asimmetria: γ = 0.02 per il primo, e

1

= 1.56 per il secondo.

γ 1 0.3

0.3 0.2

0.2 0.1

0.1 6 4 2 6 4 2

0 2 4 6 8 0 2 4 6 8

= 2.59 per il primo, e γ =

Figura 1.7: Istogrammi di dati con diversa curtosi: γ 2 2

7.76 per il secondo.

1.6 Medie generalizzate

Il concetto di media aritmetica introdotto nella Sezione 1.3 può essere opportuna-

mente generalizzato secondo le esigenze del problema in discussione. Chiariremo con

alcuni esempi in che senso può essere necessario fare ricorso a questi nuovi concetti.

Esempio 1.9. Supponiamo che una certa quantià di capitale C sia stata investita a un

tasso di interesse che viene aggiornato ogni mese, e supponiamo di indicare con p , . . . , p

1 n

i tassi di interesse in un periodo di n mesi: quale valore dovremmo considerare come tasso

medio p di interesse? È intuitivo che il criterio dovrebbe essere il seguente: p è il tasso di

interesse costante che applicato per n mesi produce lo stesso aumento di capitale prodotto

dalla applicazione successiva dei tassi p , . . . , p . Siccome nel caso di tasso variabile dopo

1 n

il primo mese il capitale è (1 + p )C, dopo il secondo (1 + p )(1 + p )C e cosı̀ via, è evidente

1 2 1

che il nostro criterio impone la relazione

n · ·

C = (1 + p ) . . . (1 + p )C ,

(1 + p) 1 n

19

N. Cufaro Petroni: Statistica

e quindi in definitiva 1

· ·

1 + p = [(1 + p ) . . . (1 + p )] .

n

1 n con j = 1, . . . , n.

Il valore di 1 + p cosı̀ ottenuto si chiama media geometrica dei dati 1 + p

j

Esempio 1.10. Supponiamo che una ditta produttrice di automobili svolga la sua atti-

vità in n stabilimenti ciascuno dei quali ha un suo tempo di produzione, nel senso che esse

producono una automobile rispettivamente nei tempi T , . . . , T : quale valore dovremmo

1 n

considerare come tempo medio T di produzione della ditta? In questo caso adotteremo il

seguente criterio: T è il tempo di produzione con il quale la ditta produrrebbe complessi-

vamente nell’unità di tempo un numero di auto uguale a quello prodotto dagli stabilimenti

con i tempi T , . . . , T . Siccome ogni ditta produce 1/T automobili nell’unità di tempo,

1 n j

il nostro criterio impone che n 1 1

= + ... +

T T T

1 n

ovvero 1

.

T = 1 1 1

+ . . . +

n T T

n

1

Il valore di T cosı̀ ottenuto si chiama media armonica dei tempi T con j = 1, . . . , n.

j

Esempio 1.11. I batteri di una determinata specie si organizzano in colonie di forma

circolare, e il numero di batteri è proporzionale alla superficie delle colonie. Si osservano n

, . . . , d : che valore possiamo attribuire al diametro medio d delle

colonie con diametri d 1 n

colonie? Anche in questo caso ci facciamo guidare da un criterio ragionevole: richiederemo

che n colonie tutte con lo stesso diametro d abbiano la stessa superficie totale delle n colonie

, . . . , d . In tal caso dovremo imporre che

con diametri differenti d 1 n 2 21 2

nπd = π(d + . . . + d )

n

e quindi avremo 21 2

d + . . . + d n .

d = n

Il valore di d cosı̀ ottenuto si chiama media quadratica dei diametri d con j = 1, . . . , n.

j me-

Definizione 1.11. Dato un campione x , . . . , x chiameremo rispettivamente

1 n

dia geometrica, armonica e quadratica le espressioni

1

−1

−1 −1 21 2 2

+ . . . + x + . . . + x

x x

1 1 n n

· ·

(x . . . x ) , , .

n

1 n n n

Le medie cosı̀ definite sono esempi di medie generalizzate che si ottengono tutte con

−1

la seguente procedura: data una funzione reale dotata h di inversa h si costruisce

), . . . , h(x ), se ne calcola la media aritmetica e infine si

un nuovo campione h(x 1 n

−1 al risultato:

applica h h(x ) + . . . + h(x )

1 n

−1

h .

n

20 1.6 Medie generalizzate

Questo in pratica vuol dire che, per ragioni derivanti dal particolare problema discus-

, ma

so, può essere più significativo eseguire la media non direttamente sui dati x j

). Le medie geometrica, armonica e quadratica si ottengono

sui dati trasformati h(x j

rispettivamente con le seguenti scelte della funzione h(x):

1 2

x

log(x) x

come si vede facilmente applicando la Definizione 1.11.

21

N. Cufaro Petroni: Statistica 22

Capitolo 2

Statistica multivariata

2.1 Dati multidimensionali

Sugli individui di una popolazione possono essere eseguite osservazioni e misure di

due o più caratteri con lo scopo di metterne anche in evidenza gli eventuali legami

statistici. Ad esempio possiamo misurare altezza e peso dei cittadini di una deter-

minata comunità per mettere in evidenza una relazione fra le due misure. In questo

caso gli elementi del nostro campione non saranno più dei semplici numeri, ma vet-

tori con due o più componenti. In questa sezione ci limiteremo ad esaminare il caso

, y ), . . . , (x , y ).

di due caratteri (X, Y ), sicché il nostro campione sarà del tipo (x 1 1 n n

Se i caratteri sono qualitativi o numerici discreti con un numero finito di moda-

, . . . , A del carattere X e B , . . . , B del carattere Y , una prima maniera

lità A

1 r 1 s

di rappresentare il campione sarà quella di costruire una tabella di contingenza di

frequenze assolute come quella riportata in Tabella 2.1. In essa si riportano innan-

, cioè il numero delle volte in cui si presenta la

zitutto le frequenze congiunte N j,k

, B ); sui margini della tabella si riportano poi le frequenze

coppia di modalità (A j k

e N , cioè il numero di volte in cui si presentano separatamente le

marginali N j,· ·,k

e B ; nell’angolo destro in basso si riporta infine la numerosità totale

modalità A j k è la somma delle N

n del campione. Si noti che, per un dato j la marginale N j,· j,k

della sua riga, mentre per un dato k la marginale N è la somma delle N della

·,k j,k

sua colonna; infine anche n totale è la somma delle marginali sia della sua riga che

B ... B

1 s

A N ... N N

1 1,1 1,s 1,·

.. .. .. ..

...

. . . .

A N ... N N

r r,1 r,s r,·

N ... N n

·,1 ·,s

Tabella 2.1: Tabella di contingenza per due caratteri X e Y rispettivamente con

e B .

modalità A j k 23

N. Cufaro Petroni: Statistica

giu eco let sci med far altro

Proprietario 80 36 134 99 65 28 69 511

Contadino 6 2 15 6 4 1 5 39

Imprenditore 168 74 312 137 208 53 83 1 035

Professionista 470 191 806 400 876 164 124 3 031

Dirigente 236 99 493 264 281 56 123 1 552

Impiegato 145 52 281 133 135 30 74 850

Operaio 166 64 401 193 127 23 157 1 131

Altro 321 121 651 258 309 49 142 1 851

1 592 639 3 093 1 490 2 005 404 777 10 000

Tabella 2.2: Tabella di contingenza per la scelta della Facoltà universitaria di n =

10 000 studenti, secondo l’attività lavorativa del padre (dati relativi all’a.a. 1975/76;

INSEE, Paris 1978).

della sua colonna. In maniera del tutto analoga si costruisce anche la tabella di

contingenza delle frequenze relative congiunte e marginali

N N N

j,k j,· ·,k

p = = =

; p , p .

j,k j,· ·,k

n n n

In questo caso però, a causa della normalizzazione (1.3) delle frequenze relative,

nell’angolo destro in basso comparirà 1 invece di n. Una tabella di contingenza

può essere redatta anche per modalità numeriche continue, ma in questo caso –

come per gli istogrammi – bisognerà raggruppare i dati in classi con una opportuna

suddivisione in intervalli.

Esempio 2.1. Nella Tabella 2.2 sono riportati in forma di tabella di contingenza i dati

relativi alla scelta della facoltà universitaria di n = 10 000 studenti secondo l’attività

lavorativa del padre. La tabella mette in evidenza la composizione sociale degli studenti

universitari (marginali verticali), il gradimento delle diverse facoltà universitarie (marginali

orizzontali), e infine l’eventuale relazione che intercorre fra l’estrazione socio–professionale

della famiglia degli studenti e la scelta della facoltà universitaria (frequenze congiunte).

Nel caso in cui le modalità osservate siano numeriche e continue è utile rappresen-

, y ), . . . , (x , y ). La

tare graficamente in un piano x, y i punti con coordinate (x 1 1 n n

conformazione della nuvola di punti disegnata fornisce una prima indicazione sulla

eventuale relazione intercorrente fra i due caratteri. Nella Figura 2.1 sono riportati

alcuni esempi con n = 100 punti: nel caso A i punti sono disposti in modo da non

suggerire nessun tipo di dipendenza funzionale tra i due caratteri X e Y . Invece in

B si nota che i valori di Y tendono ad crescere (decrescere) quando anche i valori

di X crescono (decrescono); anzi la conformazione della nuvola indica una appros-

simativa dipendenza funzionale lineare Y = aX + b con a > 0. Anche nel caso C

i dati mostrano una dipendenza approssimativamente lineare, ma questa volta con

a < 0: infatti ora i valori di Y tendono a crescere (decrescere) quando i valori di

24 2.2 Covarianza, correlazione e regressione

y y

A B

x x

y y

C D

x x

Figura 2.1: Esempi di conformazioni delle nuvole di punti di dati bidimensionali.

X decrescono (crescono). Infine il caso D suggerisce una dipendenza non lineare,

approssimativamente parabolica, tra i due caratteri dato che i valori di Y crescono

quando i valori di X si allontanano – nei due versi – dal centro della nuvola.

2.2 Covarianza, correlazione e regressione

Definizione 2.1. Dato un campione (x , y ), . . . , (x , y ) di due caratteri numerici

1 1 n n

covarianza

X e Y , si chiama di X e Y la quantità

n

1

− − − −

s = (x x)(y y) = (x x)(y y)

XY i i

n i=1 coefficiente di

dove x e y sono le medie delle x e delle y . Si chiama poi

i i

correlazione la quantità s XY

r =

XY s s

X Y

dove s e s sono le deviazioni standard delle x e delle y . Se infine s = 0 (e

X Y i i XY

non correlati,

= 0) diremo che x e y sono mentre parleremo di

quindi anche r XY

correlazione positiva (negativa) > 0 (s < 0).

se s XY XY

25

N. Cufaro Petroni: Statistica

La covarianza e il coefficiente di correlazione sono indicatori numerici importanti

nell’analisi della relazione che intercorre fra due caratteri X e Y . In particolare,

come vedremo, essi entrano nella valutazione quantitativa della dipendenza lineare

di un carattere dall’altro, cioè nella determinazione dei coefficienti a e b di una retta

Y = aX + b che descriva (almeno approssimativamente) l’andamento dei dati.

, y ), . . . , (x , y ) con medie x e y si ha

Teorema 2.1. Dato un campione (x 1 1 n n

n n n

1 1

1

− − ,

s = xy x y = x y x y

XY i i i j

n n n

i=1 i=1 j=1

dove xy indica la media dei prodotti x y , e x y il prodotto delle due medie separate.

i i

Teorema 2.2. Dato un campione (x , y ), . . . , (x , y ) il coefficiente di correlazione

1 1 n n

|r | ≤ |r |

soddisfa sempre la relazione 1; in particolare se = 1, allora

r XY XY XY

= ax + b per i = 1, . . . , n, e il segno di a

esistono due numeri a e b tali che y i i

. Infine il valore di r resta invariato per cambiamenti

coincide con il segno di r XY XY

di unità di misura; cioè, se moltiplichiamo i dati per due numeri arbitrari A e B

, By ), . . . , (Ax , By ), il valore di r non cambia.

ottenendo i nuovi dati (Ax 1 1 n n XY

Torniamo ora al problema dell’analisi delle nuvole di punti di dati bidimensionali

come quelle di Figura 2.1, e domandiamoci se non sia possibile trovare una relazione

dalle

analitica che descriva – almeno approssimativamente – la dipendenza delle y i

. L’ipotesi più semplice è che ci sia una relazione di tipo lineare Y = aX + b, ma

x i

un semplice sguardo ai grafici di Figura 2.1 ci convince del fatto che in generale sarà

= ax +b per tutte le i = 1, . . . , n; cioè

impossibile trovare due numeri a e b tali che y i i

che è impossibile trovare una retta che passi per tutti i punti della nuvola. Potremo

invece provare a determinare a e b in modo che la retta y = ax + b approssimi

nel modo migliore l’andamento della nuvola di punti. Il senso in cui parliamo di

approssimazione ottimale è precisato nella Definizione seguente. retta di

, y ), . . . , (x , y ), chiameremo

Definizione 2.2. Dato un campione (x 1 1 n n

regressione la retta y = ax + b i cui coefficienti a e b rendono minimo l’errore

quadratico medio (eqm), cioè la quantità

n

1 2

− −

E(a, 2

[y (ax + b)] = [y (ax + b)] .

b) = i i

n i=1

Teorema 2.3. Dato il campione (x , y ), . . . , (x , y ), i coefficienti a e b della retta

1 1 n n

di regressione sono s s

XY XY

− −

a = , b = y ax = y x.

2 2

s s

X X

26 2.2 Covarianza, correlazione e regressione

Dimostrazione: Per determinare le a e b che rendono minimo l’eqm calcoliamo le

E(a,

derivate di b)

n n

∂E ∂E

2 2

− −

− −

x [y (ax + b)] , [y (ax + b)]

= =

i i i i i

∂a n ∂b n

i=1 i=1

e poniamole uguali a 0 ottenendo il sistema di equazioni in a e b

n −

x [y (ax + b)] = 0 ,

i i i

i=1

n −

[y (ax + b)] = 0 .

i i

i=1

La seconda equazione del sistema si scrive anche come

n − −

(y ax ) nb = 0

i i

i=1

da cui si ricava subito

n n n

1 1 a

− − −

b = (y ax ) = y x = y ax . (2.1)

i i i i

n n n

i=1 i=1 i=1

Sostituendo nella prima equazione si ottiene allora

n n n n

2

− − − −

x [y (ax + b)] = x y a x (y ax) x = 0

i i i i i i

i

i=1 i=1 i=1 i=1

e dividendo per n

n n n

1 a 1

2

− − − − − −

2

x y x (y ax) x = xy a x (y ax)x = 0 .

i i i

i

n n n

i=1 i=1 i=1

Ricordando ora i risultati dei Teoremi 1.5 e 2.1 l’equazione diviene

2 2 2 2

− − −

+ x y a(s + x ) x y + ax = s as = 0

s XY XY

X X

da cui si ricava immediatamente s XY . (2.2)

a = 2

s X

Le soluzioni (2.2) e (2.1) del nostro sistema di equazioni rendono quindi minimo

l’eqm e sono, come richiesto nel Teorema, i coefficienti della retta di regressione.

27

N. Cufaro Petroni: Statistica

y y

A B x

x

Figura 2.2: Esempi di rette di regressione per dati bidimensionali. Nel caso A il

−0.14.

= 0.72, mentre nel caso B è r =

coefficiente di correlazione è r XY XY

Esempi di rette di regressione sono riportati nella Figura 2.2. Nella parte A la

retta, calcolata a partire dal Teorema 2.3, offre una descrizione approssimata ma

significativa della relazione che intercorre fra i dati del campione. Bisogna però

evitare di credere che sia significativo in ogni caso supporre una relazione lineare fra

X e Y . Nella parte B della Figura, ad esempio, si può vedere un campione in cui

la relazione fra X e Y è presumibilmente non lineare (parabolica). Anche in questo

caso si può determinare la retta di regressione, ma ora l’approssimazione dei punti

con una retta è poco significativa. Si noti che per il Teorema 2.3 se X e Y sono

= 0, e r = 0) allora a = 0, cioè la retta di regressione

non correlati (cioè se s XY XY

è orizzontale e i valori di X non mostrano nessuna dipendenza dai valori di Y .

, e quindi la retta avrà un

Inoltre il coefficiente angolare a ha lo stesso segno di s XY

andamento crescente (decrescente) se vi è correlazione positiva (negativa). Un ovvio

esempio di correlazione positiva è quello delle coppie (peso, altezza) di un campione

è una misura della linearità della

di n persone. Il coefficiente di correlazione r XY può

relazione fra X e Y . In base al Teorema 2.2 infatti, mentre la covarianza s XY ±1

cade sempre in [−1, 1], e se r =

assumere ogni valore positivo e negativo, r XY XY

= ax + b, cioè la retta di regressione passa attraverso tutti i punti.

allora y i i

2.3 Componenti principali ≥

Quando ad ogni individuo della popolazione sono associati p 3 caratteri numerici

, . . . , X , gli n elementi del campione diventano vettori con p componenti x =

X

1 p j

p

∈ ×

, . . . , x ) R , j = 1, . . . , n, e i dati si presentano come una matrice p n

(x j1 jp  

x . . . x

11 1p

 

x . . . x

 

21 2p

x  

= ..

.. .

jk  

. . .

.

x . . . x

n1 np

28 2.3 Componenti principali

nella quale la riga j–ma è il vettore x , mentre la colonna k–ma è l’insieme dei valori

j

. Si consiglia di consultare l’Appendice C.1 per gli oppor-

assunti dal carattere X

k

tuni richiami di Notazione vettoriale. Teoricamente, come nel caso p = 2 studiato

potrebbero essere rappresentati come una nuvola di n

nella Sezione 2.1, i vettori x j p , ma in pratica una simile rappresentazione è

punti nello spazio p–dimensionale R

impossibile e quindi saremo obbligati a sviluppare degli altri strumenti di analisi. ∈

baricentro x = (x , . . . , x )

Definizione 2.3. Chiameremo dei dati il vettore · 1 · p

p le cui componenti sono le medie dei valori di ciascun carattere, ossia le medie

R

x

lungo le colonne di jk

n

1

x = x , k = 1, . . . , p .

· k jk

n j=1

× S s

matrice di covarianza i cui elementi

Chiameremo poi p p la matrice = k x

e X , ossia delle colonne k–ma e –ma di

sono le covarianze dei caratteri X

k jk

n n

1 1

− − −

= (x x )(x x ) = x x x x , k, = 1, . . . , p .

s k jk · k j · jk j · k ·

n n

j=1 j=1

× R r

matrice di correlazione i cui

Analogamente si chiama p p la matrice = k

e X . Si chiama infine

elementi sono i coefficienti di correlazione dei caratteri X

k

dispersione totale dei dati la quantità

n

1 2

|x − x| .

∆= j

n j=1

S R

Il baricentro e le matrici di covarianza e di correlazione sono strumenti fonda-

mentali nello studio di dati p–dimensionali. Val la pena notare a questo punto che

S R

le matrici e sono matrici simmetriche nel senso che

= s , r = r ;

s k k k k

infatti è ovvio che la correlazione di X e X coincide con la correlazione di X e

k

. Inoltre gli elementi diagonali della matrice di correlazione sono tutti uguali a 1

X

k

dato che si tratta delle correlazioni di ciascun carattere con se stesso.

Torniamo ora al problema di rappresentare graficamente i nostri dati p–dimensionali

p

.

x Dato che non possiamo disegnare grafici in R , proveremo a utilizzare delle

jk

proiezioni (si veda l’Appendice 2.1 per le definizioni di base) dei dati su rette o

p . Ma siccome è intuitivo che

su piani bi–dimensionali passanti per l’origine di R

in questo modo si perde dell’informazione, e siccome la scelta della retta o del

p

piano di proiezione è in linea di principio arbitraria, dovremo anche trovare in R

le direzioni lungo le quali la proiezione risulta più fedele. Infatti punti che in una

29

N. Cufaro Petroni: Statistica

proiezione cadono vicini possono anche essere proiezioni di punti che nello spazio

p–dimensionale sono molto lontani.

Iniziamo con il discutere il caso della proiezione su una retta individuata da un

p

∈ su una

versore v, ricordando che intuitivamente la proiezione di un punto x R

retta è determinata dal punto di questa retta che si trova alla minima distanza da x,

e che (vedi Appendice 2.1) il modulo del vettore proiettato è il prodotto scalare x·v.

, . . . , x ad un campione di

Pertanto la proiezione riduce il campione di n vettori x 1 n

· ·

v, . . . , x v. In pratica possiamo anche considerare questi numeri

n numeri x

1 n p

·

y = x v = x v , j = 1, . . . , n

j j jk k

k=1 X + . . . + v X ottenuto come combina-

come i valori di un nuovo carattere Y = v 1 1 p p

, . . . , X mediante dei coefficienti che sono le

zione lineare dei caratteri originali X

1 p

, . . . , v ). Si noti che per un dato campione x , . . . , x

componenti del versore v = (v 1 p 1 n

i valori di Y dipendono dalla scelta del versore v, e il nostro compito sarà quello

di determinare tale versore in modo che la rappresentazione proiettata sia la più

fedele possibile, ovvero in modo che nell’unico carattere Y sia riassunta la più gran-

, . . . , X . Per

de quantità possibile dell’informazione contenuta nei p caratteri X

1 p

determinare la direzione ottimale adotteremo il seguente criterio: la proiezione su v

dispersione

sarà tanto più fedele quanto più grande sarà la (cioè la varianza) dei

del nuovo carattere Y . Infatti, siccome in una proiezione il rischio che si

valori y j

corre è quello di sovrapporre punti che nella realtà sono lontani fra loro, richiedere

che la varianza dei punti proiettati sia la più grande possibile significa richiedere

che queste proiezioni siano il più possibile lontane e distinte. Per mettere in pratica

questo principio ci serviremo di alcuni risultati che ora enunceremo. Per il seguito

(vedi anche Appendice 2.1) indicheremo con

≥ ≥ ≥

λ . . . λ

λ 1 2 p S

gli autovalori (eventualmente anche coincidenti) della matrice di covarianza dei

, v , . . . , v i corrispondenti autovettori ortonormali (vedi anche Ap-

dati, e con v 1 2 p

pendice 2.1), ricordando che questo vuol dire che sono verificate le equazioni

Sv = λ v , k = 1, . . . , p .

k k k

Teorema 2.4. Con le notazioni precedenti, la media e la dispersione (varianza) del

carattere Y sono p p

2

· · Sv

(v) = x v = x v , s (v) = v = v s v , (2.3)

m Y · k k k k

Y

k=1 k,=1

S

dove x è il baricentro e è la matrice di covarianza dei caratteri originari X , . . . , X .

1 p

, allora la

Inoltre, se proiettiamo i dati lungo la direzione di uno degli autovettori v k

dispersione di Y vale 2 (v ) = λ . (2.4)

s k k

Y 30 2.3 Componenti principali

Dimostrazione: Per brevità dimostreremo solo la prima delle (2.3) e la (2.4):

tenendo conto dell’equazione (C.1) si ha infatti

n n n

1 1 1 ·

· ·

v =

(v) = y = (x v) = x x v ,

m Y j j j

n n n

j=1 j=1 j=1

che prova la la prima delle (2.3). Inoltre, dalla definizione di autovettore e per le

proprietà del prodotto scalare (vedi Appendice 2.1), applicando la seconda delle (2.3)

si ha 2 2

· Sv · · |v |

(v ) = v = v (λ v ) = λ (v v ) = λ = λ ,

s k k k k k k k k k k k k

Y 2

il che prova anche la (2.4). Si noti che siccome per definizione la varianza s (v ) è

k

Y

positiva, questa relazione mostra anche che gli autovalori della matrice di covarianza

sono sempre positivi. 2 (v) è massima

Teorema 2.5. Il vettore v di modulo 1 per il quale la dispersione s Y

relativo all’autovalore più grande. Successivamente,

coincide con l’autovettore v 1 , il vettore per il quale la disper-

limitandosi ai vettori v di modulo 1 ortogonali a v 1

; e cosı̀ via per gli altri autovettori. Infine per la dispersione

sione è massima è v

2

totale dei dati vale la relazione p

∆= λ .

k

k=1

Il Teorema 2.5 dice in pratica che per rendere massima la dispersione del carattere

S

Y bisogna calcolare la matrice di covarianza dei dati, determinarne autovalori ed

autovettori, e infine scegliere di proiettare i dati lungo la direzione dell’autovettore

associato al più grande degli autovalori. Per conservare una maggiore quantità di

v

1

informazione, poi, si possono proiettare i dati su un piano definito da due direzioni,

.

e sempre il Teorema 2.5 ci dice di scegliere come seconda direzione l’autovettore v 2

e v ,

Pertanto la proiezione più fedele ai dati è quella eseguita nel piano definito da v 1 2

·v ·v

, Y ) con valori (y , y ) = (x , x ) per

cioè considerando i nuovi caratteri (Y 1 2 j1 j 2 j 1 j 2

j = 1, . . . , n. Ulteriore informazione si ottiene esaminando le proiezioni lungo gli altri

autovettori, sempre privilegiando quelli con gli autovalori più grandi. La seconda

contribuisce alla

parte del Teorema 2.5 infine ci suggerisce che ogni autovalore λ k

dispersione totale ∆ in proporzione al suo valore: osservazione coerente con il fatto

che le direzioni privilegiate per la proiezione sono proprio quelle degli autovettori

relative agli autovalori più grandi.

direzioni o componenti principali

Definizione 2.4. Chiameremo quelle degli

S,

della matrice di covarianza e ordinatamente diremo

autovettori ortonormali v k seconda direzione principale

prima direzione principale , quella

quella di v 1

, e cosı̀ via. I piani individuati dalle coppie di autovettori (v , v ) si chiama-

di v

2 k

primo piano

piani principali, , v ) sarà il

no poi e in particolare il piano (v 1 2

principale. 31

N. Cufaro Petroni: Statistica

fedeltà

Definizione 2.5. Chiameremo della proiezione dei dati sul piano principale

, v ) il rapporto

(v

k λ + λ

k ;

λ + . . . + λ

1 p

siccome λ e λ sono gli autovalori più grandi, dal Teorema 2.5 segue allora che la

1 2

massima fedeltà si ottiene proiettando i dati sul primo piano principale.

x

Bisogna notare che i dati originari del nostro problema possono essere disomo-

jk

genei per i loro ordini di grandezza. Supponiamo ad esempio di voler compilare una

statistica relativa alle condizioni meteorologiche di una località registrando pressio-

o C ), velocità del vento (in Km/h) e

ne atmosferica (in mmHg), temperatura (in

copertura nuvolosa (in ottavi di cielo coperto). Per le unità di misura scelte le mi-

3 , mentre ad esempio la copertura

sure di pressione saranno numeri dell’ordine di 10

nuvolosa sarà un numero intero da 1 a 8, e la temperatura un numero dell’ordine

2 . In

delle diecine. La velocità del vento infine potrà variare da 0 fino a circa 10

queste condizioni le quantità rappresentate dai numeri più grandi assumerebbero un

peso sproporzionato rispetto alle altre e senza una ragionevole motivazione. D’altra

parte, siccome le unità di misura sono arbitrarie, questa osservazione mette anche

in evidenza il fatto che è possibile modificare l’importanza relativa delle quantità

osservate in un modo altrettanto arbitrario. Per eliminare questi effetti della scelta

,

x cioè

delle unità di misura di solito si preferisce standardizzare i dati originali jk

li si sostituisce con −

x x

jk · k

z =

jk s · k

dove ovviamente abbiamo posto

n n

1 1

2 2

x = x , s = (x x ) .

· k jk jk · k

· k

n n

j=1 j=1

z ,

I dati infatti, avendo ora media nulla e varianza 1 sono stati ridotti ad una

jk

scala in cui sono tutti rappresentabili con numeri di grandezza comparabile; inoltre

essi sono anche insensibili ai cambiamenti di unità di misura. Se ora ripetessimo

la nostra analisi delle componenti principali a partire dai nuovi dati standardizzati

z non è nient’altro che la

ci accorgeremmo che la matrice di covarianza delle jk

x che, come è noto, è insensibile ai cambiamenti di

matrice di correlazione delle jk

scala. In conclusione, per evitare i problemi derivanti dall’arbitrarietà delle unità di

misura, è sempre consigliabile eseguire l’analisi delle componenti principali basandosi

sulla matrice di correlazione invece che su quella di covarianza. In questo caso si

ottengono risultati analoghi a quelli dei Teoremi 2.4 e 2.5, con la differenza che ora

bisognerà calcolare autovalori e autovettori della matrice di correlazione invece che

quelli della matrice di covarianza. Si può dimostrare, infine, che la somma degli

autovalori della matrice di correlazione è sempre uguale al numero p dei caratteri

, . . . , X , e quindi anche che, in base al Teorema 2.5, la dispersione totale dei dati

X

1 p

standardizzati è sempre uguale a p. 32 2.3 Componenti principali

X X X X X X X X

1 2 3 4 1 2 3 4

3.061 2.417 3.924 3.361 2.558 3.502 2.548 3.616

3.189 3.696 1.514 4.073 2.839 1.095 2.667 3.061

3.433 3.560 2.820 5.040 3.408 3.244 2.129 3.762

3.249 2.806 2.528 1.544 2.070 2.269 4.173 2.251

3.400 3.198 3.236 4.241 3.058 2.531 3.351 3.729

2.147 1.087 1.659 3.518 3.026 3.096 2.107 3.238

1.838 1.384 1.977 2.199 3.437 3.896 2.235 3.295

2.891 3.343 4.174 4.100 2.818 2.941 3.660 3.680

3.603 3.306 2.906 3.035 3.695 3.188 3.286 3.088

3.725 1.099 3.179 2.964 3.836 3.378 2.965 3.595

2.687 2.823 2.134 2.476 0.992 3.124 1.138 4.959

2.404 3.475 2.457 3.559 3.927 3.153 1.099 1.753

3.159 2.699 2.680 2.523 4.113 1.713 2.669 2.624

2.182 2.359 3.184 3.992 2.774 2.714 3.324 2.532

4.071 3.024 2.443 3.937 2.965 2.352 2.154 1.980

3.351 4.206 2.377 2.232 1.875 4.419 3.043 3.156

0.935 3.531 3.954 1.215 2.876 2.437 2.661 3.543

3.579 3.852 2.307 3.235 3.314 3.848 2.957 2.125

2.086 3.428 3.129 4.731 2.390 3.892 2.768 3.288

0.765 3.760 3.036 2.454 2.859 2.689 2.538 2.518

3.853 1.755 2.898 2.604 3.166 3.625 2.679 2.307

4.767 3.575 1.736 2.690 2.925 3.647 3.179 3.342

3.138 2.528 2.438 4.704 1.927 4.173 3.250 2.178

1.429 2.864 3.256 2.436 3.529 4.558 2.532 3.071

3.558 3.411 3.341 1.656 2.363 3.697 2.946 2.422

5.739 4.882 4.442 5.697 3.909 5.353 5.358 4.472

4.722 3.856 5.223 5.300 6.166 6.079 4.190 5.167

5.366 5.293 6.676 3.362 4.701 5.506 4.473 4.999

4.223 5.348 5.197 6.689 3.683 5.229 3.216 5.201

4.669 5.667 7.106 5.797 4.689 4.948 5.699 5.261

5.119 6.221 3.844 5.445 4.655 4.616 4.471 5.130

4.894 5.768 5.779 5.298 4.268 5.178 6.439 4.327

4.775 5.016 3.917 5.770 4.215 7.500 4.981 4.983

5.643 3.663 5.926 5.561 4.666 4.568 5.605 3.760

4.128 3.485 4.394 4.232 4.493 5.253 3.842 6.306

5.640 4.501 5.438 4.808 4.793 5.769 5.136 5.434

3.546 6.051 5.467 6.610 5.937 4.383 5.171 6.327

6.504 5.075 6.572 5.937 4.753 6.663 3.348 5.095

4.532 4.019 5.422 3.788 4.905 5.107 4.997 5.624

4.884 5.052 5.072 4.963 5.467 4.798 4.651 4.980

4.666 5.672 5.527 5.346 4.629 4.459 5.378 4.685

4.630 3.929 4.952 4.814 3.480 4.244 4.542 4.206

5.785 5.280 5.260 3.721 3.469 7.792 5.108 3.423

4.171 5.004 5.074 4.813 5.926 5.510 4.978 5.144

5.020 4.721 6.992 4.161 4.541 3.735 4.427 4.340

3.856 5.492 5.111 4.547 3.891 4.352 3.805 4.663

5.521 4.918 4.869 3.736 5.418 4.546 4.485 5.366

5.743 4.291 3.891 5.352 5.327 4.709 4.195 5.736

4.317 4.597 5.968 4.831 6.966 5.292 4.989 5.437

4.133 5.867 5.258 5.699 4.891 4.513 5.264 5.354

Tabella 2.3: Campione di n = 100 misure di quattro caratteri continui.

33

N. Cufaro Petroni: Statistica

X X

2 4 X

X 3

1

Figura 2.3: Rappresentazione di coppie di componenti dai dati della Tabella 2.3.

Esempio 2.2. Nella Tabella 2.3 sono riportate n = 100 misure di quattro caratteri nu-

merici continui (p = 4) ottenute con una simulazione: esse potrebbero rappresentare le

misure di quattro dimensioni fisiche di 100 animali di una data specie (altezza, lunghezza,

. . .), o rilevazioni di quattro parametri economici relativi a 100 paesi (popolazione, reddito

pro capite, . . .), o altro ancora. Ovviamente è impossibile rappresentare graficamente i

punti corrispondenti perché questi si trovano in uno spazio a 4 dimensioni; si potrebbe

però pensare di rappresentarne due componenti per volta sul corrispondente piano: un

primo scopo di questa rappresentazione potrebbe essere quello di vedere se i dati mostra-

no la tendenza a raggrupparsi in due o più classi (clusters), indicando in questo modo una

classificazione dei nostri 100 soggetti in base alle misure effettuate. Ad esempio gli animali

della specie considerata potrebbero essere classificati in due o più razze sulla base delle

quattro dimensioni fisiche considerate; oppure i 100 paesi potrebbero essere classificati in

diversi livelli di sviluppo economico secondo i valori dei quattro indicatori rilevati.

Nella Figura 2.3 sono riportati come esempio i punti che si ottengono considerando prima le

, X , e poi le altre due coordinate X , X della Tabella 2.3. Queste immagini,

coordinate X 1 2 3 4

pur mettendo in evidenza una certa correlazione fra i vari caratteri, non mostrano però

nessuna evidente tendenza dei punti a raggrupparsi in classi con caratteristiche diverse.

Altri grafici si potrebbero ottenere scegliendo altre coppie di coordinate, ed altri ancora se

4 ma non coincidenti con gli

si considerano proiezioni su piani passanti per l’origine di R

originari piani coordinati: è possibile che con particolari scelte di questi piani si possano

mettere in evidenza due o più classi di punti, ma è evidente che la scelta del piano migliore

per una prima classificazione non può essere eseguita per tentativi, e deve avvalersi di una

opportuna strategia di ricerca. Siccome il nostro problema è quello di separare delle classi,

il miglior criterio sarà quello di scegliere la proiezione sul piano che rende massima la

dispersione totale dei punti, e quindi faremo uso dell’analisi in componenti principali che

abbiamo esposto nella presente Sezione. R

L’analisi parte con il calcolo della matrice di correlazione dei dati della Tabella 2.3:

 

1.000 0.606 0.719 0.620

 

0.606 1.000 0.599 0.600

 

R r

= =  

k 0.719 0.599 1.000 0.560

0.620 0.600 0.560 1.000

34 2.3 Componenti principali

Y 2 Y 1

Figura 2.4: Rappresentazione dei dati della Tabella 2.3 nel primo piano principale.

e prosegue con il calcolo degli autovalori (ordinati):

= 2.854 , λ = 0.471 , λ = 0.403 , λ = 0.273 ,

λ 1 2 3 4

e dei relativi autovettori (ortonormali):

   

   

−0.519 −0.369 −0.738

0.224

   

   

−0.490 −0.784 −0.079

0.372

   

   

= = = =

v , v , v , v .

   

   

1 2 3 4

−0.506 −0.580 −0.024 0.638

−0.485 0.624 0.578 0.204

Sebbene per piccoli valori di p questi calcoli possano essere effettuati a mano, in generale

la determinazione di autovalori e autovettori è affidata ad un computer. I valori dei λ

k

mostrano innanzitutto che già la prima componente principale v ha una fedeltà di 0.713, e

1

che il primo piano principale ha una fedeltà di 0.831; la restante quantità di informazione,

pari a 0.169, si trova nelle altre due componenti v e v . Nel primo piano principale le

3 4

coordinate (y , y ) con j = 1, . . . , n dei nostri n punti saranno allora

j1 j2 ·

= x v = x v + x v + x v + x v

y j1 j 1 j1 11 j2 12 j3 13 j4 14

−0.519 − − −

= x 0.490 x 0.506 x 0.485 x

j1 j2 j3 j4

·

y = x v = x v + x v + x v + x v

j2 j 2 j1 21 j2 22 j3 23 j4 24

−0.369 −

= x + 0.372 x 0.580 x + 0.624 x

j1 j2 j3 j4

La rappresentazione grafica delle (y , y ) è riportata nella Figura 2.4 e mostra che in

j1 j2

effetti è possibile separare i punti in due gruppi abbastanza distinti: in particolare è

proprio la coordinata y che maggiormente contribuisce a tale classificazione.

j1

I valori e i segni delle componenti degli autovettori v indicano quanto e in che verso i

k

caratteri originari X contribuiscono alla combinazione che definisce i nuovi caratteri Y .

k k

Supponiamo ad esempio che le X siano misure di dimensioni fisiche di animali: il fatto

k

che le componenti di v abbiano valori abbastanza vicini e tutti dello stesso segno indica

1

che Y è un carattere che distingue gli n individui in base al valore di tutte le dimensioni

1 35

N. Cufaro Petroni: Statistica

fisiche considerate. In pratica Y è una misura complessiva della grandezza dell’animale,

1

e distingue gli individui in animali grandi e piccoli. Negli altri autovettori, invece, le

componenti hanno segni differenti: questo indica che gli altri tre caratteri mettono in

contrasto i valori delle diverse dimensioni misurate e sono quindi indicatori della forma

dell’animale. In pratica essi distingueranno ad esempio gli individui in alti e corti, bassi e

lunghi e cosı̀ via. L’importanza che i diversi caratteri Y assumono nella classificazione è

k

poi stabilita dal valore relativo degli autovalori λ .

k

36

Parte II

Probabilità

37

Capitolo 3

Spazi di probabilità

3.1 Spazio dei campioni

Il calcolo delle probabilità diviene uno strumento essenziale della statistica quando

si considerano campioni estratti da una popolazione mediante procedure casuali. In

questo caso, infatti, i calcoli non sono più effettuati su tutta la popolazione esistente,

e le stime saranno soggette a variazioni aleatorie quando il campionamento viene

ripetuto. Consideriamo inizialmente degli esempi di esperimenti che diano luogo

solo ad un numero finito di possibili risultati (o eventi elementari) casuali.

Esempio 3.1. Il caso più semplice è quello del lancio di una moneta nel quale si osserva

il verificarsi di uno dei due risultati possibili: la moneta cade mostrando la faccia con la

testa (T ); oppure la moneta cade mostrando la faccia con la croce (C). Dire che la moneta

è equa vuol dire che essa è non truccata, per cui nessuno dei due risultati è favorito

rispetto all’altro ed è possibile attribuire loro le medesime possibilità di verificarsi; in tal

caso diremo anche che i due eventi elementari T e C sono equiprobabili. Per dare una

veste quantitativa a queste considerazioni si usa attribuire ad ogni evento elementare una

probabilità intesa come frazione dell’unità, sicché nel nostro caso avremo:

1

1 ; q = P(C) = .

p = P(T ) = 2 2

Osserviamo che p + q = 1, dato che con certezza (ossia con probabilità eguale ad 1) uno

dei due casi, T oppure C, si verifica, e non vi sono altre possibilità.

Esempio 3.2. Considerazioni analoghe a quelle dell’Esempio precedente applicate al caso

di un dado equo conducono alla seguente attribuzione di probabilità per le sei facce che

qui indicheremo con le cifre romane I, II, ..., V I:

1 1

p = P(I) = = P(V I) =

; ... ; p .

1 6

6 6

+ ... + p = 1.

Osserviamo che anche in questo caso si ha p

1 6

Da quanto precede si ricava che, almeno per casi semplici, si possono attribuire delle

probabilità mediante una enumerazione. Questa idea è alla base della cosiddetta

39

N. Cufaro Petroni: Statistica

definizione classica della probabilità: per attribuire una probabilità ad un evento

A (in generale non elementare, cioè non ridotto ad un solo risultato) si enumerano i

risultati possibili (ritenuti, in base a qualche ipotesi, equiprobabili), e quelli favorevoli

all’evento A (quelli, cioè, che danno luogo al verificarsi di A), e si attribuisce ad A

la probabilità: numero dei casi favorevoli .

P(A) = numero dei casi possibili

Notiamo che anche in questo caso la probabilità assegnata ad A è un numero positivo

compreso fra 0 ed 1.

Esempio 3.3. Nel lancio di un dado equo consideriamo gli eventi (non elementari) A =

“appare una faccia contrassegnata da un numero pari”, B = “appare una faccia contras-

segnata da un multiplo di tre”, C = “appare una faccia diversa da V I”. Una semplice

enumerazione in base alla definizione classica ci porta a concludere che, essendo 6 i casi

possibili, e rispettivamente 3, 2 e 5 i casi favorevoli ad A, B e C, si avrà:

1 1 5

P(A) = ; P(B) = ; P(C) = .

2 3 6

Consideriamo ora un lancio di due dadi non truccati. È facile verificare che i risultati

elementari possibili sono ora 36, cioè quante sono le coppie ordinate (n, m) dove n ed m

possono assumere i 6 valori I, ..., V I. L’ipotesi che i dadi siano equi vuol dunque dire ora

che i 36 eventi elementari (I, I) ; (I, II) ; ... ; (V I, V I) sono tutti equiprobabili e pertanto

si ha 1 1

1 ; P(I, II) = ; . . . ; P(V I, V I) = .

P(I, I) = 36 36 36

Sempre per enumerazione si può verificare allora ad esempio che all’evento A = “non

appare la coppia (V I, V I)” si può attribuire una probabilità P(A) = 35/36.

Dalla discussione precedente segue che la probabilità di un evento può essere pensata

come un numero compreso tra 0 ed 1: il valore 1 indica la certezza del verificarsi,

e il valore 0 la sua impossibilità; i valori intermedi rappresentano tutti gli altri

casi. Queste probabilità possono essere calcolate nei casi semplici mediante una

enumerazione di risultati equiprobabili, ma questo metodo non può in nessun modo

essere considerato come generale.

spazio dei campioni spazio degli eventi ele-

Definizione 3.1. Chiameremo o

mentari l’insieme Ω (finito o infinito) costituito da tutti i possibili risultati ω del

nostro esperimento. }

{ω , ω , . . . , ω era costituito

Negli esempi precedenti lo spazio dei campioni Ω = 1 2 N

da un numero finito di elementi. Ad esempio nel caso di un solo lancio di una moneta

lo spazio dei campioni è composto di soli due elementi:

{T,

Ω = C} ; N =2 ,

mentre nel caso di un solo lancio di un dado si ha

{I,

Ω = II, . . . , V I} ; N =6 .

40 3.2 Eventi

Se invece l’esperimento consistesse in due lanci di una moneta si avrebbe:

{T

Ω = T, T C, CT, CC} ; N =4 ,

e cosı̀ via. I casi più noti di spazi dei campioni infiniti sono invece l’insieme dei

numeri interi N, l’insieme dei numeri reali R.

3.2 Eventi ⊆

evento

Definizione 3.2. Chiameremo ogni sottinsieme A Ω del quale è possibile

calcolare la probabilità. 3 = 8

Nel caso di tre lanci di una moneta lo spazio dei campioni è composto di N = 2

elementi: {T

Ω = T T, T T C, . . . , CCC} ,

e il sottinsieme {T } ⊆

A = T T, T T C, T CT, CT T Ω

rappresenterà l’evento “T appare almeno due volte su tre lanci”. Le osservazioni

della Sezione 3.1 mostrano come calcolare la probabilità di tale evento. Gli eventi

cosı̀ definiti possono essere considerati come rappresentazioni di proposizioni logiche,

e le corrispondenti operazioni tra eventi (intese come operazioni tra insiemi) possono

essere considerate come un modello per i connettivi logici che uniscono delle propo-

sizioni. Cosı̀, ad esempio, i connettivi oppure (OR) ed e (AND) sono rappresentati

rispettivamente dalle operazioni di unione ed intersezione:

∪ {ω ∈ ∈

A B = : ω A oppure ω B}

∩ {ω ∈ ∈

A B = : ω A e ω B} .

mentre il significato logico delle seguenti operazioni è facilmente deducibile tenendo

presenti i diagrammi di Venn della Figura 3.1:

{ω ∈

A = : ω / A} ;

{ω ∈ ∈

− ∩ B = : ω A , ma ω / B} .

A B = A

Si noti che Ω rappresenta l’evento certo (nel senso che qualunque risultato cade per

definizione in Ω), e rappresenta l’evento impossibile (dato che nessun risultato

∅).

appartiene a Diremo inoltre che i due eventi A e B sono disgiunti (o anche

∩ ∅

incompatibili) quando A B = (cioè quando un risultato ω non può mai verificare

contemporaneamente gli eventi A e B). Un evento può anche ridursi ad un solo

{ω},

elemento A = nel qual caso parleremo di evento elementare.

In generale non saremo interessati a considerare come eventi tutti i possibili sottin-

siemi di Ω; piuttosto si preferisce selezionare opportune famiglie di tali sottinsiemi

da considerare come eventi. Bisogna però, per ragioni di coerenza, garantire che tali

41

N. Cufaro Petroni: Statistica

A B

A B

A B

A B

A A B

A B

A

Figura 3.1: Le zone ombreggiate rappresentano i risultati delle operazioni

insiemistiche indicate.

famiglie siano chiuse sotto le varie operazioni insiemistiche (logiche): ad esempio, se

A e B sono due sottinsiemi della nostra famiglia degli eventi, anche la loro unione o

intersezione deve appartenere alla famiglia degli eventi.

F

Definizione 3.3. Diremo che una famiglia di parti di Ω costituisce un’algebra

quando essa è chiusa sotto tutte le operazioni insiemistiche.

∩ ∪ − F ∈ F.

A, A B, A B e A B saranno tutti elementi di se A, B Si

In particolare ∈

vede facilmente, ad esempio, che dato un Ω arbitrario, e A Ω la seguente famiglia

di parti di Ω ∅}

F {A, A, Ω, .

=

è un’algebra detta algebra generata da A. D decomposizione

Definizione 3.4. Diremo che una famiglia di parti di Ω è una

sono parti di Ω disgiunte e tali che D = Ω.

di Ω se i suoi elementi D k k

k

Una decomposizione non è un’algebra: essa, ad esempio, non contiene le unioni dei

suoi elementi. In particolare, se A Ω, la famiglia

D {A,

= A}

è una semplice decomposizione di Ω. Le decomposizioni giocheranno un ruolo

rilevante nel capitolo sul condizionamento.

42 3.3 Probabilità

3.3 Probabilità

La probabilità P è una regola che consente di attribuire un peso probabilistico P(A)

∈ F.

(un numero fra 0 e 1) ad ogni evento A Il modo in cui tale regola viene assegnata

varia secondo la natura del problema considerato. In particolare, se Ω è un insieme

finito di cardinalità # Ω = N (numero dei casi possibili ) e se i suoi elementi ω k

possono essere considerati equiprobabili, si può far ricorso alla definizione classica

} = 1/N ,

(vedi Sezione 3.1): si assegna ad ogni evento elementare la probabilità P{ω k

∈ F

e ad ogni evento A la probabilità N A

P(A) = (3.1)

N

= # A è la cardinalità di A, ossia il numero di elementi ω appartenenti

dove N A k

ad A (numero dei casi favorevoli ).

Esempio 3.4. (Problema delle coincidenze) Supponiamo di estrarre con rimessa da

una scatola contenente M palline numerate una successione di n palline e di registrare

i numeri estratti tenendo conto dell’ordine di estrazione. Il nostro spazio dei campioni

n eventi elementari ω = (a , . . . , a ) costituiti dalle

Ω sarà allora formato dagli N = M 1 n

n–ple di numeri estratti (con possibili ripetizioni ). Supporremo che tali ω siano tutti

equiprobabili. Consideriamo ora l’evento:

{ω sono tutti diversi}

A = : i valori delle a

k

= “nelle n estrazioni non ci sono ripetizioni”

e calcoliamone la probabilità secondo la definizione classica. Un momento di riflessione ci

convincerà del fatto che M !

− −

= M (M 1) . . . (M n + 1) =

N A −

(M n)!

per cui la probabilità richiesta è

− − −

M (M 1) . . . (M n + 1) 1 2 n 1

− − −

P(A) = = 1 1 ... 1 .

n

M M M M

Questo risultato permette di discutere il cosiddetto problema dei compleanni: date

che almeno due di esse celebrino il compleanno nello

n persone quale è la probabilità p

n

stesso giorno? Il modello discusso in questo esempio ci permette di dare una risposta

ponendo M = 365; in tal caso, essendo P(A) la probabilità che tutti i compleanni cadano

in giorni differenti, si ha

2 n 1

1 − −

− − −

p 1 ... 1

= 1 P(A) = 1 1

n 365 365 365

In particolare si ottengono i seguenti sorprendenti risultati:

n 4 16 22 23 40 64 ...

p 0.016 0.284 0.476 0.507 0.891 0.997 . . .

n 43

N. Cufaro Petroni: Statistica

È notevole infatti che già con n = 23 la probabilità di almeno due compleanni coincidenti

supera 1/2, e che con solo 64 persone tale probabilità sfiora la certezza. Inoltre se n 366

avremo p = 1 e P(A) = 0 dato che nel prodotto comparirà un fattore nullo: infatti

n

con un numero di persone superiore al numero di date disponibili (365) le coincidenze

diventano inevitabili. Osserviamo comunque che questi risultati sono meno sorprendenti

se si riflette al fatto che essi sarebbero ben diversi se la domanda posta fosse la seguente:

supponendo che io sia una delle n persone considerate nel problema precedente, quale è

la probabilità q che almeno una celebri il suo compleanno nello stesso giorno in cui lo

n

celebro io? Non entreremo nel dettaglio della soluzione di questo secondo problema, e ci

limiteremo a riferire che nel secondo caso le probabilità delle coincidenze sono decisamente

più piccole. Inoltre, per sottolinearne la differenza fra i due casi, noteremo che nel secondo

q è sempre diversa da 1 (anche per n 366) in quanto, quale che sia il numero delle

n

persone, può sempre capitare che nessuno celebri il suo compleanno nello stesso giorno in

cui lo celebro io.

La formula (3.1) può anche essere generalizzata al caso in cui le ω non sono equipro-

k

} = p : la probabilità di un evento

babili, ma hanno ognuna una probabilità P{ω

k k

di tutti i risultati ω contenuti in A, cioè

A sarà allora la somma delle p k k

P(A) = p . (3.2)

k

ω ∈A

k

Le formule (3.1) e (3.2), nonostante la loro semplicità, consentono di trattare anche

problemi di una certa sofisticazione, ma non possono essere adottate in situazioni

più generali. I modelli finiti di probabilità si rivelano infatti ben presto insufficienti

perché gli spazi dei campioni sono spesso insiemi infiniti e addirittura non numerabili.

In questi casi la P(A) non può essere costruita secondo la definizione classica, ma

deve essere data per altra via. Noi qui ricorderemo solo le proprietà generali che

una probabilità deve sempre avere, riservandoci di discutere nei prossimi capitoli il

modo in cui essa viene effettivamente calcolata nei casi di nostro interesse.

F probabilità

Definizione 3.5. Data un’algebra di eventi di Ω, chiameremo ogni

F → additiva,

applicazione P : [0, 1] che sia cioè tale che, comunque scelti A e B

F,

eventi disgiunti di risulta

∪ ∩ ∅

P(A B) = P(A) + P(B) , se A B = (3.3)

Elencheremo infine, senza dimostrazione, le proprietà più note delle probabilità

1. P(∅) = 0 , P(Ω) = 1 ;

∪ − ∩ ∀ ∈ F

2. P(A B) = P(A) + P(B) P(A B) , A, B ;

≤ ⊆ ∈ F

3. P(B) P(A) se B A , con A, B ; F,

spazio di probabilità

Definizione 3.6. Chiameremo una terna (Ω, P) in cui

F

Ω è un insieme detto spazio dei campioni, è un’algebra di eventi di Ω, e P è una

F.

probabilità su 44

Capitolo 4

Condizionamento e indipendenza

4.1 Probabilità condizionata

Il condizionamento risponde all’esigenza di fondere una certa quantità di nuova infor-

F,

mazione con l’informazione già contenuta in un dato spazio di probabilità (Ω, P).

L’acquisizione di nuova informazione, infatti, modifica le nostre conoscenze e quindi

ci permette di valutare la probabilità degli eventi in una maniera diversa da quella

suggerita dalle nostre informazioni iniziali.

Esempio 4.1. Supponiamo di considerare una scatola contenente M palline delle quali

m sono bianche ed M m nere ed eseguiamo due estrazioni successive. Se le palline

sono estratte tutte con la medesima probabilità, e se la prima estrazione è effettuata con

rimessa, è facile convincersi del fatto che l’evento B = “alla seconda estrazione viene

m

estratta una pallina bianca” si verifica con una probabilità . Diversa sarebbe invece la

M

nostra valutazione se la prima estrazione venisse effettuata senza rimessa: la probabilità

di estrarre una pallina bianca sapendo che in precedenza ne è stata estratta un’altra bianca

m−1 m

sarebbe ; se invece in precedenza fosse stata estratta una pallina nera si avrebbe .

M −1 M −1

F, ∈ F

Definizione 4.1. Dato uno spazio di probabilità (Ω, P) e due eventi A, B

probabilità condizionata

con P(A) = 0, chiameremo di B rispetto ad A (cioè

probabilità che si verifichi B sapendo che si è verificato A) la quantità

P(B A)

| .

P(B A) = P(A)

∩ probabilità congiunta

La quantità P(A B) prende invece il nome di dei due

eventi A e B (cioè probabilità che si verifichino contemporaneamente A e B).

· | F →

Si controlla facilmente che l’applicazione P( A) : [0, 1] cosı̀ definita non è

· | ·

altro che una nuova probabilità. Va inoltre ricordato che il simbolo P( ) non è

| |

simmetrico nei suoi due argomenti: in generale P(B A) = P(A B).

45

N. Cufaro Petroni: Statistica

Teorema 4.1. (Formula della Probabilità Totale): Dati un evento A e una

}

D {D , . . . , D con P(D ) = 0, i = 1, . . . , n, risulta sempre

decomposizione = 1 n i

n |

P(A) = P(A D ) P(D ) .

i i

i=1

Dimostrazione: Basterà osservare che

n n ∩

∩ ∩ =

D (A D ),

A = A Ω= A i i

i=1 i=1

∩ sono tutti disgiunti, e che quindi per l’additività di P e per la

che gli eventi A D

i

Definizione 4.1

n n n

∩ ∩ |

(A D ) = P(A D ) = P(A D ) P(D ) .

P(A) = P i i i i

i=1 i=1 i=1 D {B, B}, la

Osserviamo che in particolare, se la decomposizione si riduce a =

formula della Probabilità Totale diviene

| |

P(A) = P(A B) P(B) + P(A B) P(B),

espressione particolarmente facile da usare ed interpretare.

Esempio 4.2. Riprendiamo in considerazione la scatola di palline dell’Esempio 4.1, estra-

iamo in successione e senza rimessa due palline e, senza guardare la prima, chiediamoci

quale è la probabilità che la seconda sia bianca. Definiamo, a questo scopo, gli eventi

A = la prima pallina estratta è bianca,

B = la seconda pallina estratta è bianca;

si ha ovviamente che −

M m

m , P(A) .

=

P(A) = M M

Inoltre, nel caso di due estrazioni successive, enumerando i casi possibili e i casi favorevoli

agli eventi presi in considerazione, otteniamo facilmente che

m 1 m

| |

P(B A) = A) =

, P(B ,

− −

M 1 M 1

per cui si ha, tenendo conto del Teorema 4.1, −

− m m M m m

m 1 + = = P(A) .

P(B) = − −

M 1 M M 1 M M

La probabilità di B è dunque diversa secondo le informazioni disponibili, e in particolare

essa non è influenzata dal risultato della prima estrazione quando questo è sconosciuto:

| | A) sono diversi da P(A).

infatti P(B) = P(A), mentre P(B A) e P(B

46 4.2 Indipendenza

Teorema 4.2. (Formula di Bayes): Dati due eventi A, B con P(A) = 0, P(B) =

0, risulta |

P(B A) P(A)

| ;

P(A B) = P(B)

D {D }

inoltre, se = , . . . , D è una decomposizione di Ω con P(D ) = 0, i =

1 n i

1, . . . , n, risulta anche | ) P(D )

P(B D i i

| .

P(D B) = (4.1)

i n |

P(B D ) P(D )

j j

j=1

Dimostrazione: La dimostrazione della prima relazione si basa sul fatto che per

definizione di probabilità condizionata si ha

| ∩ |

P(B A) P(A) = P(A B) = P(A B) P(B) ;

la seconda relazione si ottiene poi dalla prima tramite il Teorema 4.1.

del Teorema di Bayes sono spesso chiamati

Nelle applicazioni statistiche gli eventi D i

) probabilità a priori di tali ipotesi, mentre le probabilità condizionate

ipotesi e P(D i

|

P(D B) si chiamano probabilità a posteriori. Per comprendere il significato di

i

questa terminologia con la discussione di un esempio (vedi Esempio 4.4) converrà

introdurre prima un altro importante concetto: quello di indipendenza.

4.2 Indipendenza

Due eventi sono indipendenti quando il verificarsi di uno di essi non ha alcun effetto

sul valore della probabilità che viene attribuita all’altro. Sulla base del concetto

di probabilità condizionata introdotto prima diremo quindi che l’evento A è indi-

|

pendente dall’evento B quando P(A B) = P(A) e quindi, per la Definizione 4.1,

se P(A B) = P(A) P(B). È facile inoltre, data la simmetria di queste relazioni,

verificare che se A è indipendente da B, anche B è indipendente da A.

F,

Definizione 4.2. Dato uno spazio di probabilità (Ω, P), diremo che A e B sono

eventi indipendenti quando ∩

P(A B) = P(A) P(B) .

Il concetto di indipendenza può essere esteso anche al caso in cui il numero di eventi

è maggiore di due, ma bisogna notare che sarà ora possibile parlare e di indipendenza

due a due, nel senso di P(A B) = P(A) P(B), di indipendenza tre a tre, nel senso

∩C)

di P(A∩B = P(A) P(B) P(C), e cosı̀ via. Questi diversi livelli di indipendenza,

però, non si implicano l’uno con l’altro: infatti, ad esempio, tre eventi possono essere

indipendenti due a due senza esserlo tre a tre e viceversa.

47

N. Cufaro Petroni: Statistica indipendenti

Definizione 4.3. n eventi si dicono se essi sono indipendenti in tutti

i modi possibili, cioè due a due, tre a tre, . . . , n a n.

Esempio 4.3. Consideriamo una moneta con −

P(T ) = p , P(C) = 1 p

e calcoliamo la probabilità che in n lanci esca un numero fissato k di teste in un ordine

qualsiasi. I risultati ω del nostro esperimento saranno delle n–ple di simboli T e C, ed

è ragionevole fare l’ipotesi che i lanci siano indipendenti. Pertanto se ω è una n–pla che

contiene k teste e n k croci, dall’indipendenza avremo k n−k

· · · −

· · P(C) . . . P(C) = p (1 p) . (4.2)

P{ω} = P(T ) . . . P(T )

k volte n−k volte

Siccome però le k teste possono essere disposte in vario modo nella n–pla ω, l’evento A =

“escono k teste su n lanci” sarà composto di un certo numero di eventi elementari tutti

con la stessa probabilità (4.2). Si può dimostrare – ma noi trascureremo di farlo – che il

numero di queste diverse combinazioni è

n n!

= −

k!(n k)!

k

e quindi con una banale applicazione della formula (3.2) si ottiene il risultato cercato

n k n−k

(1 p) . (4.3)

P(A) = p

k

Si comprende facilmente che questo risultato resta invariato quale che sia il significato

concreto dell’evento A; in altri termini potremo dire che (4.3) rappresenta la probabilità

di avere k successi in n tentativi indipendenti di verifica di un generico evento A con

P(A) = p.

Esempio 4.4. Supponiamo ora che la probabilità p della moneta dell’Esempio 4.3 sia

12

sconosciuta e che, per semplificare il problema, i possibili valori di p siano solo due:

23

e . In assenza di altre informazioni riterremo che questi due valori siano equiprobabili,

ma è facile capire che l’osservazione dei risultati di un certo numero di lanci della moneta

potrà darci delle indicazioni preziose. In particolare l’osservazione di un eccessivo numero

di teste ci farebbe intuitivamente propendere per il valore più grande di p, e viceversa

nel caso contrario. La Formula di Bayes (4.1) ci permette ora di dare veste quantitativa

precisa a queste considerazioni qualitative. Per fissare le idee supponiamo di aver lanciato

la moneta n = 10 volte e di aver osservato k = 4 teste e n k = 6 croci; definiamo poi,

con le notazioni del Teorema 4.2, i seguenti eventi 1

D = “ la probabilità che esca testa è p = ”

1 2

2

= “ la probabilità che esca testa è p = ”

D 2 3

B = “ su n = 10 lanci escono k = 4 teste ”

48 4.2 Indipendenza

D {D }

È evidente che = , D è una decomposizione di Ω, e che in assenza di altre

1 2

informazioni le probabilità a priori delle due ipotesi sono

1 .

) = P(D ) =

P(D 1 2 2

D’altra parte da (4.3) è facile vedere che

4 10−4

1

10 1 10 1

|

P(B D ) = =

1 10

2 2 2

4 4

4 10−4 4

1

10 2 10 2

|

P(B D ) = =

2 10

4 4

3 3 3

per cui dalla formula di Bayes (4.1) otteniamo: 1

| ) P(D )

P(B D 1 1 10

2

| =

B) =

P(D 1 4

| | 1 2

P(B D ) P(D ) + P(B D ) P(D ) +

1 1 2 2 10 10

2 3

10

3

= = 0.783

10 14

3 + 2

14

2

| B) = = 0.217

P(D 2 10 14

3 + 2

Come si noterà, l’aver osservato un numero relativamente scarso di teste favorisce l’i-

potesi con il valore di p più piccolo. Ulteriori osservazioni, comunque, condurranno a

modificare questa valutazione anche se, a lungo andare, ci si attende intuitivamente una

stabilizzazione del risultato. 49

N. Cufaro Petroni: Statistica 50

Capitolo 5

Variabili aleatorie

5.1 Variabili aleatorie

In generale lo spazio dei campioni Ω non è necessariamente un insieme numerico nel

senso che i suoi elementi sono oggetti astratti: ad esempio nel caso della moneta gli

elementi di Ω sono T e C. D’altra parte nelle applicazioni statistiche gli aspetti più

rilevanti sono legati ai valori numerici che si ottengono dalle misure. È estremamente

importante quindi introdurre delle procedure che consentano di associare dei numeri

ai risultati dei nostri esperimenti aleatori: F, variabile alea-

Definizione 5.1. Dato uno spazio di probabilità (Ω, P) si dice

toria (v.a.) una applicazione X : Ω R tale che tutti gli insiemi di Ω del

tipo {X ∈ {ω ∈

J} = : X(ω) J}

F

con J arbitrario intervallo di R, sono eventi di (vedi anche Figura 5.1).

Esempio 5.1. Si consideri un dado con le facce colorate con sei colori diversi: in questo

caso Ω è costituito dall’insieme dei sei colori scelti. Si supponga poi di stabilire le regole di

x R

X

x XΩ

Figura 5.1: Illustrazione grafica della definizione di variabile aleatoria.

51

N. Cufaro Petroni: Statistica

un gioco nel quale ad ogni colore è associata una vincita in denaro: la regola che attribuisce

la vincita ad ogni colore è una v.a. Un altro esempio semplice, ma molto rilevante di v.a.

∈ F:

(ω) di un evento A

è costituito dall’indicatore I

A ∈

1, se ω A,

I (ω) =

A ∈

0, se ω / A,

In pratica si tratta della v.a. che vale 1 per tutti i risultati che verificano A, e 0 in tutti

gli altri casi.

La Definizione 5.1 è fondamentale perché consente di associare una probabilità agli

della

intervalli J di R: in pratica la v.a. X proietta sull’insieme R un’immagine P X

probabilità P definita su Ω; questa nuova probabilità è definita da

(J) = P{X J} (5.1)

P

X

e permette di attribuire una probabilità agli insiemi di valori (intervalli di R) di X.

legge distribuzione

Definizione 5.2. Chiameremo o della v.a. X la probabilità

da essa definita su R tramite la (5.1).

P

X

Si noti che ogni v.a. attribuisce al medesimo intervallo una probabilità diversa, cioè

v.a. diverse hanno, in generale, leggi diverse. Niente vieta però che ci siano v.a.

diverse (nel senso della Definizione 5.1) con la medesima legge: in questo caso si

parla di v.a. identicamente distribuite (i.d.)

∈ F

Esempio 5.2. Sia A un evento con P(A) = p, e sia I il suo indicatore. La v.a.

A

{I ∈ {I ∈

I assume solo i due valori 0 e 1: pertanto eventi del tipo [2 , 4]}, oppure

A A A

∈ {I ∈ −3]} ∅,

−3]} {I [2 , 4]} = (−∞, = e quindi

(−∞, non capitano mai, cioè A A

−3]

P [2 , 4] = P (−∞ , = 0 .

I I

A A

12 12 12

∈ ∈ −

, 2 = A, I , A, e

Viceversa si vede facilmente ad esempio che I =

A A

{I ∈

infine [−2 , 2]} = Ω, per cui

A 1 1 1

− −

P , 2 = p, P , = 1 p, P [−2 , 2] = 1 .

I I I

A A A

2 2 2

Esempio 5.3. Per costruire un esempio di v.a. distinte ma i.d. si consideri un dado equo

e si definiscano le due v.a.

1 se esce una faccia pari , 1 se esce 1, 2 oppure 3,

X = Y =

0 altrimenti. 0 altrimenti.

X ed Y sono ovviamente v.a. diverse: ad esempio se esce 1 X prende valore 0, mentre Y

vale 1. Ciononostante esse sono i.d. In effetti X ed Y sono gli indicatori di due eventi,

rispettivamente A = “esce una faccia pari ” e B = “esce 1, 2 oppure 3”, che pur essendo

12

diversi hanno la stessa probabilità . Esse pertanto assumono gli stessi valori, 1 e 0, su

due eventi equiprobabili. Ragionando come nell’Esempio 5.2 si può allora mostrare che

esse attribuiscono la stessa probabilità a tutti gli intervalli di R.

52 5.1 Variabili aleatorie

v.a. indipendenti

Definizione 5.3. Diremo che X ed Y sono se tutti gli eventi

} {Y ∈ }

{X ∈ e J sono indipendenti comunque scelti gli intervalli J e

del tipo J 1 2 1

; cioè se

J

2 ∈ ∈ } ∈ } ∩ {Y ∈ }) ∈ } ∈ }

P{X J , Y J = P({X J J = P{X J P{Y J .

1 2 1 2 1 2

comunque scelti gli intervalli J e J .

1 2

Nelle sezioni seguenti esamineremo gli strumenti matematici che ci permetteranno di

costruire le distribuzioni delle v.a. di uso più comune, e a questo scopo distingueremo

le v.a. in due grandi categorie, le v.a. discrete e le v.a. continue, che esauriscono tutti

i casi di maggiore interesse pratico. Per il momento ci limiteremo ad introdurre un

concetto comune ad ambedue le categorie che sarà molto utile in seguito.

funzione di distribuzione (FD)

Definizione 5.4. Chiameremo di una v.a. X

la funzione definita come

≤ ∈ ∈

(x) = P{X x} = P{X (−∞, x]} = P (−∞, x] , x R.

F

X X

Teorema 5.1. La FD F (x) di una v.a. X gode delle seguenti proprietà:

X

≤ ∈

• ≤ (x) 1, per ogni x R;

0 F

X

• (x) è una funzione non decrescente di x;

F

X

• → −∞, →

F (x) tende a 0 per x e tende a 1 per x +∞;

X

• agli intervalli semi-aperti del tipo (a, b] si calcola

la probabilità attribuita da P X

dalla FD mediante la formula

≤ −

P{a < X b} = P (a, b] = F (b) F (a) . (5.2)

X X X

In alcuni problemi sarà necessario associare ad ogni ω Ω non un solo numero, ma

un intero vettore di m numeri, per cui X sarà in realtà una applicazione da Ω in

m . In pratica questo equivale a definire m v.a. X , . . . , X che costituiscono le

R 1 m

componenti del vettore X: sarà opportuno pertanto introdurre anche la seguente

Definizione: variabile aleatoria vettore

Definizione 5.5. Chiameremo m–dimensionale (o

aleatorio) , . . . , X ) le cui componenti X sono v.a. nel senso

un vettore X = (X

1 m j

della Definizione 5.1. ×. . .×J

La Definizione 5.5 consente di associare una probabilità ai rettangoli B = J

1 m

m

di R (dove J sono intervalli di R): in pratica la v.a. m–dimensionale X proietta

i

m una probabilità P definita da

su R X ∈ ∈ }

(B) = P{X J , . . . , X J , (5.3)

P

X 1 1 m m

{X ∈ ∈ } {X ∈ } ∩

dove J , . . . , X J è una abbreviazione che indica l’evento J

1 1 m m 1 1

∈ }.

∩ {X J

. . . m m 53

N. Cufaro Petroni: Statistica legge o distribuzione congiunta

Definizione 5.6. Chiameremo del vettore X

m

da essa definita su R tramite la (5.3). Le leggi delle singole

la probabilità P X leggi o distribuzioni marginali

si chiamano invece

componenti X

i funzione di distribuzione congiunta

Definizione 5.7. Chiameremo di un

vettore X = (X , . . . , X ) la funzione

1 m ≤ ≤ }

F (x , . . . , x ) = P{X x , . . . , X x ,

X 1 m 1 1 m m

funzioni di distribuzione marginali

e le funzioni

≤ }

(x ) = P{X x , j = 1, . . . , m

F

X j j j

j

cioè le FD delle singole componenti X .

j

Teorema 5.2. Le componenti di un vettore aleatorio X = (X , . . . , X ) sono

1 m

indipendenti se e solo se · ·

(x , . . . , x ) = F (x ) . . . F (x )

F

X 1 m X 1 X m

m

1

cioè se la FD congiunta di fattorizza nel prodotto delle FD marginali.

Nel seguito saremo spesso interessati a considerare v.a. ottenute come funzioni, som-

me o altre combinazioni di v.a. : ad esempio, data la v.a. X, possiamo considerare

2

X , oppure cos X, o altre funzioni di X; analogamente date due (o più) v.a. X e

Y potremo essere interessati alla v.a. X + Y , oppure XY e cosı̀ via. Le nuove v.a.

in quanto funzioni da Ω in R sono definite con opportune composizioni di funzioni,

e vi sono tecniche particolari che consentono di ricavarne le leggi a partire dalle

leggi delle v.a. iniziali. Noi non entreremo in questi dettagli, ma ci limiteremo, ove

necessario, a ricordare i risultati più importanti senza dimostrazioni.

5.2 Variabili aleatorie discrete

v.a. discrete

Definizione 5.8. Chiameremo le v.a. X che assumono solo un insie-

me finito (o infinito numerabile) di valori che indicheremo con x con k = 1, . . . , n

k

(oppure n N).

Spesso i valori x coincideranno proprio con i numeri interi 1, 2, . . . L’indicatore I

k A

di un evento A è ovviamente una v.a. discreta che assume solo i due valori 0 e 1.

È facile capire che la legge di una v.a. discreta X è determinata non appena siano

assegnate le probabilità (con p (x) = 0 solo per x = x )

k

}

p = p (x ) = P{X = x , k = 1, 2, . . .

k k k

54 5.2 Variabili aleatorie discrete

{X } ∈

dove l’evento = x è il sottinsieme delle ω Ω per le quali X(ω) = x .

k k

Adotteremo la notazione più opportuna secondo i casi esaminati. L’assegnazione

può essere arbitraria purché essi soddisfino le due seguenti proprietà:

dei numeri p k

p 0 , k = 1, 2, . . . ; p = 1 . (5.4)

k k

k

Si noti che la somma nella relazione precedente è in realtà una serie se la v.a. X

assume un insieme infinito di valori. Quando le p sono note anche la legge P è

k X

(J) = P{X J} si otterrà

nota: dato un arbitrario intervallo J, la probabilità P X

relative ai valori x che cadono in J.

sommando le p k k

La FD di una v.a. discreta X è una funzione a scalini : essa presenta delle discon-

tinuità nel valori x assunti da X, e rimane costante fra due valori consecutivi x e

k k

. Inoltre l’altezza del salto effettuato in ogni discontinuità x coincide proprio

x k+1 k

per cui si ha

con la probabilità che X assuma il valore x k

} −

p = p (x ) = P{X = x = F (x ) F (x ) . (5.5)

k k k X k X k−1

Negli esempi seguenti esamineremo alcune importanti leggi di v.a. discrete che as-

sumono solo valori interi 0, 1, 2, . . . In questi esempi mostreremo anche come si

possono rappresentare graficamente le leggi delle v.a. Si noti che in realtà ogni

esempio tratterà non una sola legge, ma una intera famiglia di leggi caratterizzate

da distribuzioni che differiscono fra loro solo per il valore di uno o più parametri:

ad esempio le leggi Binomiali B(n, p) sono classificate dai due parametri n intero

∈ P(λ)

e p [0, 1]; le leggi di Poisson sono invece classificate da un solo parametro

λ > 0, e cosı̀ via. La stessa osservazione si applicherà al caso delle v.a. continue

nella successiva Sezione 5.3.

Esempio 5.4. (Legge di Bernoulli) Si dice che una v.a. X è distribuita secondo la

legge di Bernoulli (o che è una v.a. di Bernoulli) quando essa assume i seguenti valori

1 con probabilità p,

X = −

0 con probabilità 1 p.

≤ ≤

con 0 p 1. In altri termini si ha −

p = P{X = 0} = 1 p , p = P{X = 1} = p . (5.6)

0 1

È evidente che ogni indicatore I di un evento A con P(A) = p è una v.a. di Bernoulli.

A

Infatti −

P{I = 0} = P(A) = 1 p , P{I = 1} = P(A) = p .

A A

Nella Figura 5.2 è mostrato prima di tutto il grafico della FD di una legge di Bernoulli:

esso presenta due discontinuità in 0 e 1; inoltre le altezze dei due salti coincidono proprio

con le probabilità 1 p e p che X prenda rispettivamente i valori 0 e 1. Sempre nella

Figura 5.2 sono rappresentati con un grafico a barre i valori delle probabilità p e 1 p che

X prenda rispettivamente i valori 1 e 0. 55

N. Cufaro Petroni: Statistica

F X p

1 1 p

1 p x

x

1 0 1 2

1 2

Figura 5.2: FD e grafico a barre di una legge di Bernoulli.

Esempio 5.5. (Legge Binomiale) Diremo che una v.a. X segue la legge Binomiale

B(n, p) con n = 1, 2, . . . e p 0 quando essa assume gli n + 1 valori 0, 1, . . . , n con le

seguenti probabilità

n k n−k

p = P{X = k} = p (1 p) , k = 0, 1, . . . , n (5.7)

k k vale esatta-

È facile verificare – ma noi trascureremo di farlo – che la somma di queste p

k

mente 1 quale che sia il valore di n e p. Nella Figura 5.3 è rappresentato il grafico della FD

della legge B(n, p): esso presenta n + 1 discontinuità nei punti 0, 1, . . . , n, rimane costante

fra due succcessive discontinuità, vale 0 per x < 0 e 1 per x n; inoltre l’altezza di ogni

salto nel punto k coincide con la probabilità p . Nella medesima figura è rappresentato

k

anche il grafico a barre dei valori p . L’andamento di questi grafici ovviamente cambia al

k 12

variare dei valori di n e p : in particolare il grafico a barre è simmetrico quando p = ;

viceversa esso presenta le p più grandi verso i valori più (rispettivamente meno) elevati di

k

k se p è prossimo a 1 (rispettivamente a 0). Da un confronto con la formula (4.3) dell’E-

sempio 4.3 discende quindi che il numero di successi in n tentativi indipendenti di verifica

di un evento A con P(A) = p è una v.a. binomiale B(n, p). Si verifica anche facilmente

che la legge di Bernoulli per un dato p dell’Esempio 5.4 non è altro che la legge Binomiale

nel caso di n = 1; pertanto nel seguito indicheremo le leggi di Bernoulli con il simbolo

B(1, p). In un esperimento consistente in n tentativi indipendenti di verifica di un dato

evento A con P(A) = p potremo definire da un lato le n v.a. di Bernoulli indipendenti

X , . . . , X che assumono valore 1 se A si verifica e 0 in caso contrario, e dall’altro la v.a.

1 n

X con legge Binomiale B(n, p) che rappresenta il numero di successi sugli n tentativi. È

intuitivo che fra queste v.a. sussista la relazione X = X + . . . + X : questo risultato è

1 n

richiamato nel seguente Teorema che non dimostreremo.

Teorema 5.3. Se n v.a. indipendenti X , . . . , X sono tutte identicamente distri-

1 n +. . .+X è distri-

buite secondo la legge di Bernoulli B(1, p), la loro somma X = X

1 n

buita secondo la legge Binomiale B(n, p). Viceversa, ogni v.a. X Binomiale B(n, p)

, . . . , X indipendenti e di

può essere considerata come somma di opportune v.a. X

1 n

Bernoulli B(1, p). 56 5.2 Variabili aleatorie discrete

F X p 2

1 p 1

p p

0 1 p 0

p

0 x

x

1 2 n 0 1 2 n

Figura 5.3: FD e grafico a barre di una legge Binomiale B(n, p) .

Esempio 5.6. (Legge di Poisson) Diremo che una v.a. X segue la legge di Poisson

P(λ) ∈

con λ > 0 quando essa assume tutti i valori interi k N con le seguenti probabilità

k

λ −λ

e

p = P{X = k} = , k = 0, 1, 2, . . . (5.8)

k k!

È facile verificare – ma noi trascureremo di farlo – che la somma di queste infinite p

k

vale esattamente 1 quale che sia il valore di λ. Nella Figura 5.4 è rappresentato il grafico

P(λ):

della FD della legge esso presenta infinite discontinuità nei punti 0, 1, 2, . . . , rimane

costante fra due succcessive discontinuità, vale 0 per x < 0 e tende verso 1 per x +∞;

inoltre l’altezza di ogni salto nel punto k coincide con la probabilità p . Nella medesima

k

figura è rappresentato anche il grafico a barre di alcuni dei valori p . L’andamento di

k

questi grafici ovviamente cambia al variare del valore di λ: in particolare al crescere

di λ il massimo del grafico a barre si sposta verso valori più elevati di k. La legge di

Poisson è particolarmente adatta a descrivere v.a. che rappresentano conteggi e che possono

assumere un numero illimitato di valori: numero di telefonate che arrivano ad un centralino

in un dato periodo di tempo; numero di clienti che si presentano allo sportello di un

ufficio durante una giornata; numero di stelle presenti in una determinata regione di cielo.

Il motivo per cui questo avviene è chiarito dal successivo Teorema e dalla discussione

dell’Esempio 5.7. λ

Teorema 5.4. (Teorema di Poisson) Date le leggi Binomiali B(n, )

n

k n−k

λ

n λ −

1

(n) = , k = 0, 1, . . . , n , n = 1, 2, . . .

p k k n n

risulta k

λ −λ

lim p (n) = , k = 0, 1, 2, . . .

e

k

n k! P(λ)

(n) converge verso la distribuzione di Poisson per ogni valore di k.

cioè p k 57

N. Cufaro Petroni: Statistica

F X

1 p 2

0.5 p 1

p 0 x

x 0 1 2 k

1 2 3 k P(λ)

Figura 5.4: FD e grafico a barre di una legge di Poisson .

Dimostrazione: Infatti si ha

k n−k k n−k

λ λ

n λ n! λ

− −

1 1

p (n) = =

k −

k n n k!(n k)! n n

n −k

k − − λ λ

λ n(n 1) . . . (n k + 1) − −

1 1

= k

k! n n n

n −k

k − λ

λ 1 k 1 λ −

− − − 1

= 1 ... 1 1

k! n n n n

Siccome è noto che

−k n

1 λ λ

k 1 −λ

− − −

lim 1 1 1

= 1 , lim = e

... 1 = 1 , lim

n n n

n n n n

il risultato segue immediatamente.

Il Teorema 5.4 afferma in pratica che se n è molto grande e p molto piccola una legge

P(np).

Binomiale B(n, p) è ben approssimata dalla legge di Poisson Illustreremo

questo risultato con un esempio.

Esempio 5.7. Supponiamo di voler studiare la legge del numero aleatorio X di telefonate

che arrivano ad un centralino telefonico in un intervallo di tempo T . Naturalmente X

sarà una v.a. discreta che può assumere tutti i valori interi k = 0, 1, 2, . . . dato che non vi

è nessun limite a priori per il numero di telefonate che arrivano nel tempo T . Possiamo

cominciare costruendo un modello approssimato per il nostro problema: dividiamo l’inter-

Tn

vallo T in n parti uguali di lunghezza , con n abbastanza grande da poter supporre che

Tn

in ogni intervallo arrivi al più una telefonata (ovviamente questa ipotesi diviene sempre

→ ∞).

più realistica al limite per n Definiamo poi n v.a. indipendenti X , . . . , X in modo

1 n

tale che X valga 1 oppure 0 secondo che nell’intervallo i–mo arrivi o meno una telefonata.

i λ

Faremo inoltre l’ipotesi che esista un numero positivo λ tale che P(X = 1) = con

i n

λ

i = 1, 2, . . . , n in modo che le X siano indipendenti e tutte Bernoulli B(1, ). In pratica

i n

questo vuol dire che la probabilità che arrivi una telefonata nell’i–mo intervallo diminuisce

58 5.3 Variabili aleatorie continue

x

f f

X X x

f dx

b X

x

f dx

X

a x x xdx

a b

Figura 5.5: L’area fra a e b al di sotto della curva f (x) è la probabilità che X assuma

X

(x) dx rappresenta la probabilità

valori fra a e b (vedi equazione (5.11)); inoltre f

X

infinitesima che X stia nell’intervallo [x, x + dx].

con il crescere n; il valore di λ invece è fisso e dipende dalla lunghezza dell’intervallo T e

dalla intensità con la quale arrivano le telefonate in quel periodo della giornata. Da quanto

detto deriva che per n grande il numero totale X di telefonate che arriva sarà approssimato

λ

· · ·

da X + + X che, per il Teorema 5.3, è Binomiale B(n, ). Il Teorema di Poisson 5.4

1 n n

→ ∞ · · ·

ci garantisce allora che al limite per n la legge di X + + X convergerà verso la

1 n

P(λ).

legge di Poisson In conclusione possiamo affermare che il numero X di telefonate

P(λ).

che arrivano al nostro centralino telefonico è na v.a. di Poisson Naturalmente resta

da studiare in che modo si possa stimare il valore del parametro λ a partire da osservazioni

empiriche reali.

5.3 Variabili aleatorie continue

v.a. continue

Definizione 5.9. Chiameremo le v.a. X che assumono tutti i valori

di un intervallo J di numeri reali, non escluso l’intero insieme R.

Abbiamo visto nella Sezione 5.2 che la legge delle v.a. discrete è determinata dall’as-

che soddisfino le proprietà (5.4). Nel caso di v.a. continue

segnazione di numeri p k

questa procedura elementare non è più possibile e bisognerà passare all’uso degli

strumenti del calcolo differenziale e integrale.

funzione di densità (fd)

Definizione 5.10. Chiameremo ogni funzione f (x)

definita su R che goda delle seguenti proprietà:

+∞

≥ f (x) dx = 1 . (5.9)

f (x) 0 , −∞

Si può mostrare che la legge di una v.a. continua X è caratterizzata dall’assegnazione

(x) mediante la quale è possibile eseguire tutti i calcoli

di una opportuna fd f

X e la FD F sono riassunte da

necessari. In particolare le relazioni fra la fd f

X X

x

F (x) = f (t) dt , f (x) = F (x) (5.10)

X X X X

−∞ 59

N. Cufaro Petroni: Statistica

f F

X X

1

1

b a x

x a b

a b U(a,

Figura 5.6: fd e FD della legge Uniforme b).

→ −∞,

è la primitiva di f che si annulla per x mentre a sua volta f è la

cioè F

X X X

. Inoltre (vedi Figura 5.5) avremo che, comunque scelto un intervallo

derivata di F

X

[a, b] (per v.a. continue non è importante che sia chiuso o aperto) risulterà

b

≤ ≤ −

P{a X b} = P [a, b] = f (x) dx = F (b) F (a) (5.11)

X X X X

a

Si noti che f (x) non è la probabilità che la v.a. X assuma il valore x: per le

X

v.a. continue la probabilità di assumere un singolo valore è zero. D’altra parte si

potrebbe far vedere con dei banali esempi che una fd può assumere anche valori

maggiori di 1, e quindi non può in nessun modo essere una probabilità. Solo la

(x) dx può essere interpretata come la probabilità che X

quantità infinitesima f

X

prenda valori nell’intervallo infinitesimo [x, x + dx] (vedi Figura 5.5).

moda

Definizione 5.11. Chiameremo di una v.a. continua X il valore x per il

assume il valore massimo. La definizione si applica anche nel

quale la sua fd f

X

caso di massimi relativi.

Il calcolo delle probabilità mediante l’integrale in (5.11) non è sempre un’operazione

elementare: per questo motivo si usano delle apposite Tavole nelle quali sono elencati

≤ ≤

delle leggi più usuali in modo che il calcolo di P{a X b}

i valori delle FD F

X −

(b) F (a).

possa essere effettuato direttamente mediante la differenza F X X

Esempio 5.8. (Legge uniforme) Il caso più semplice di leggi di v.a. continue è quello

∈ U(a,

delle leggi Uniformi nell’intervallo [a, b] (con a, b R) indicate con il simbolo b). Esse

sono caratterizzate dalla fd − ≤ ≤

1/(b a) se a x b,

f (x) = (5.12)

X 0 altrimenti.

La FD si calcola poi in maniera elementare:

 0 se x < a,

 − − ≤ ≤

(x) =

F (x a)/(b a) se a x b,

X 

 1 se x > b.

60 5.3 Variabili aleatorie continue

f F

X X

1 1

Σ Π

2 0.5

x x

Μ Σ Μ Μ Σ Μ Σ Μ Μ Σ

2

Figura 5.7: fd e FD della legge Normale N (µ, σ ).

Queste due funzioni sono rappresentate nella Figura 5.6. Ovviamente le relazioni (5.9)

− −

sono sempre soddisfatte dato che l’area di un rettangolo di base b a e altezza 1/(b a)

≤ ≤ ≤

è sempre 1. Si vede inoltre dall’equazione (5.11) che per a c c + ∆ b si ha

≤ ≤ −

P{c X c + ∆} = ∆/(b a) indipendentemente dal valore di c; ovvero: ad intervalli

di larghezza ∆ interni ad [a, b] viene attribuita sempre la stessa probabilità ∆/(b a)

indipendentemente dalla loro collocazione in [a, b]. Questo è il significato della uniformità

della distribuzione.

Esempio 5.9. (Legge Normale o Gaussiana) Il caso più noto di leggi di v.a. continue

2

N ∈

è quello delle cosiddette leggi Normali o Gaussiane (µ, σ ) con µ R e σ > 0. Esse

sono caratterizzate dalla fd 1 2 2

−(x−µ) /2σ

f e

(x) = (5.13)

X σ 2π

Queste funzioni soddisfano le relazioni (5.9) per ogni valore di µ e σ, ma noi non lo

verificheremo. Ci limiteremo qui a dare solo una descrizione qualitativa del comportamento

è una curva a campana

di queste funzioni che sono rappresentate nella Figura 5.7. La fd f

X

simmetrica attorno ad un massimo nel punto x = µ (moda). La funzione va rapidamente

verso zero allontanandosi dal centro della curva e la larghezza della campana è regolata

dal valore di σ : grandi valori di σ corrispondono a curve larghe e piatte; piccoli valori di

σ corrispondono a curve strette e alte. Si può mostrare che la curva presenta due flessi

±

proprio in x = µ σ. La FD x

1 2 2

−(t−µ) /2σ

(x) = e dt (5.14)

F

X σ 2π −∞

non ha un’espressione analitica elementare, ma il suo grafico è molto semplice e regolare,

S

tipico delle FD: ha una forma di allungata che varia da 0 verso 1 con un punto di flesso

in x = µ. La FD di una Normale diviene sempre più ripida (e al limite approssima un

gradino di altezza 1) quando σ 0; viceversa si allunga sempre di più con il crescere di

N

σ. La legge (0, 1) la cui fd è 2

1 x

√ e

ϕ(x) = (5.15)

2

61

N. Cufaro Petroni: Statistica

è detta anche legge Normale standard e riveste una importanza particolare perchè,

come vedremo, il calcolo delle probabilità relative a leggi Normali generiche può sempre

essere facilmente ricondotto all’uso delle Tavole dell’Appendice D per la FD della legge

Normale standard x 2

1 t

Φ(x) = e dt (5.16)

2

2π −∞

La fd e la FD della Normale standard presentano lo stesso andamento qualitativo di

±1

Figura 5.7, ma la moda si trova in x = 0 e i due flessi in x = . Inoltre, data la evidente

simmetria di queste due funzioni è anche facile verificare che

ϕ(−x) = ϕ(x) , Φ(−x) = 1 Φ(x) (5.17)

relazioni che risulteranno utili in seguito.

Teorema 5.5. 2

N ), e se a e b sono due numeri, allora la v.a. aX + b è

1. Se X è una v.a. (µ, σ

2 2

N σ ).

(aµ + b , a 2 2

N N

2. Se X e Y sono v.a. indipendenti, rispettivamente (µ, σ ) e (ν, τ ), allora

2 2

N + τ ).

la v.a. X + Y è (µ + ν , σ N

Una conseguenza di questo Teorema è che se X è una v.a. Normale standard (0, 1),

2 2

N

N ). In altre parole: ogni v.a. (µ, σ )

allora Y = σX + µ è una v.a. Normale (µ, σ

è del tipo Y = σX + µ con X Normale standard. Pertanto avremo che, se Y è

2

N ), allora comunque scelti i numeri a e b

(µ, σ $

− −

a µ b µ

≤ ≤ ≤ ≤ ≤ ≤

P{a Y b} = P{a σX + µ b} = P X

σ σ

e quindi da (5.11) e (5.16) si ha

− −

b µ a µ

≤ ≤ −

P{a Y b} = Φ (5.18)

Φ

σ σ

calcolo che si riduce alla consultazione delle Tavole della FD Normale standard in

Appendice D. L’uso delle Tavole dell’Appendice D sarà molto utile anche per le

altre leggi che di solito vengono introdotte in statistica. Per questo motivo, e per

ragioni di brevità, non daremo la forma esplicita della fd e della FD delle leggi che

discuteremo nei prossimi esempi, ma ci limiteremo piuttosto ad una loro descrizione

qualitativa e all’enunciato delle principali relazioni che le legano. N

, . . . , Y sono v.a. indipendenti e tutte Normali standard (0, 1),

Teorema 5.6. Se Y 1 n

allora la v.a. 2 2

+ . . . + Y

X = Y 1 n

2

segue la legge χ (n) detta del chi quadro con n gradi di libertà.

62 5.3 Variabili aleatorie continue

f F

X X

1

x x

2 2

n n

2

Figura 5.8: fd e FD della legge del chi quadro χ (n) con n > 2.

2

La legge del Chi quadro con n = 1, 2, . . . gradi di libertà χ (n) ha una fd e una

FD del tipo mostrato nella Figura 5.8 per n > 2. La fd è diversa da zero solo per

x 0 mentre è rigorosamente nulla per x < 0; sul semiasse reale positivo il grafico

è asimmetrico e presenta una una lunga coda che si annulla asintoticamente per

→ −

x +∞. La moda si trova in x = n 2, e tende ad allontanarsi dall’origine per n

2 (n) possono essere trovati sulle opportune Tavole e

crescenti. I valori della FD di χ

vengono usati nel calcolo tramite l’equazione (5.11). 2

N (n),

Teorema 5.7. Se X e Y sono due v.a. di legge rispettivamente (0, 1) e χ

allora la v.a. X

%

T = Y /n

segue la legge t(n) detta di Student con n gradi di libertà.

La legge di Student con n = 1, 2, . . . gradi di libertà t(n) ha una fd e una FD

del tipo mostrato nella Figura 5.9. La fd di t(n) è una funzione a campana con la

N

moda in x = 0, simile alla (0, 1). Come si vede dalla Figura 5.9 la fd di t(n) si

N

annulla però più lentamente della fd della (0, 1). Quando il valore di n cresce la fd

della legge t(n) diviene sempre più simile alla fd Normale standard, e al limite le due

funzioni coincidono. I valori della FD di t(n) possono essere trovati sulle opportune

Tavole e vengono usati nel calcolo tramite l’equazione (5.11). 2 2

(n) e χ (m) ,

Teorema 5.8. Se X e Y sono due v.a. di legge rispettivamente χ

allora la v.a. X/n

F = Y /m

segue la legge F (n, m) detta di Fisher con n ed m gradi di libertà.

La legge di Fisher con n ed m gradi di libertà F (n, m) ha una fd e una FD del

2 (n):

tipo mostrato nella Figura 5.10. La fd di F (n, m) somiglia a quella di una χ

essa è diversa da zero solo per x 0 mentre è rigorosamente nulla per x < 0; sul

semiasse reale positivo il grafico è asimmetrico e presenta una una lunga coda che si

63

N. Cufaro Petroni: Statistica

f F

X X

1

0.5

x x

1 1

1 1

Figura 5.9: fd e FD della legge di Student con n gradi di libertà t(n). Le curve più

N

sottili sono la fd e la FD della (0, 1) e sono qui riportate per confronto.

f F

X X

1

x x

n n

m 2 m 2

m m

2 n 2 n

Figura 5.10: fd e FD della legge di Fisher con n ed m gradi di libertà F (n, m).

m(n−2)

→ . I valori

annulla asintoticamente per x +∞. La moda si trova nel punto (m+2)n

della FD di F (n, m) possono essere trovati sulle opportune Tavole e vengono usati

nel calcolo tramite l’equazione (5.11). 2

N

Teorema 5.9. Se X , . . . , X sono v.a. indipendenti e tutte normali (µ, σ ), e se

1 n

poniamo

n √

+ . . . + X

X 1

1 n 2 2

− 2

, S S

X = = (X X) , S = ,

k

n n 1 k=1

allora le v.a. √ √

2

− −

S

X µ X µ

Y = n , T = n

, Z = (n 1) 2

σ σ S

2

N − −

seguono rispettivamente le leggi (0, 1), χ (n 1) e t(n 1).

Dimostrazione: Per semplicità discuteremo esplicitamente solo la legge di Y : dato

2 2

N N

sono tutte (µ, σ ) dal Teorema (5.5) si ha che X +. . .+X è (nµ, nσ ),

che le X

k 1 n

2

1 σ

N

X = (X + . . . + X ) è (µ, ). Utilizzando ancora ripetutamente lo stesso

e che 1 n

n n 2

σ

− N N

X µ è (0, ) e infine che Y è (0, 1).

Teorema (5.5) si avrà allora che n

64 5.4 Quantili

f F

X X

1

Α

Α x x

q q

Α Α

Figura 5.11: Quantile q di ordine α di una distribuzione con fd f e FD F .

α X X

5.4 Quantili

Supponiamo che X sia una v.a. continua con fd f (x) e FD F (x): abbiamo visto

X X è una funzione

negli esempi della Sezione 5.3 che nei casi di nostro interesse F X

strettamente crescente su tutto R (leggi Normale e di Sudent), o almeno sul semiasse

x 0 (leggi del chi quadro e di Fisher). Preso allora un numero 0 < α < 1 uno

sguardo ai grafici delle Figure1 5.7– 5.10 ci convincerà del fatto che esiste una e una

sola soluzione dell’equazione (x) = α . (5.19)

F

X

In analogia con quanto fatto nella parte di Statistica Descrittiva avrà allora senso

introdurre la seguente Definizione:

Definizione 5.12. Data una v.a. X continua con fd f (x) e FD F (x), chiameremo

X X

quantile di ordine soluzione dell’equazione (5.19), cioè tale che

α il numero q α 12 mediana;

F (q ) = α. Il quantile di ordine α = si chiama i quantili di ordine

X α

k quartili.

con k = 1, 2, 3 si chiamano

α = 4

Il significato di questa definizione è illustrato nella Figura 5.11: nella seconda parte

(q ) = α; nella prima invece, in cui è rappresentata la fd di X, si

si vede come F

X α

è il punto che lascia alla sua sinistra un’area sotto la curva pari ad α.

vede come q α

Questo è ovviamente coerente con la Definizione 5.12 dato che dalla Definizione 5.4

e dall’equazione (5.10) si ha q α

≤ }

α = F (q ) = P{X q = f (x) dx .

X α α X

−∞

Sarà utile a questo punto ricavare alcune formule di frequente uso in statistica. Dato

N

che, come visto nell’equazione (5.16), la FD della legge (0, 1) è stata indicata con

.

il simbolo Φ, da ora in poi indicheremo il suo quantile di ordine α con il simbolo ϕ α

α α

e 1 di una legge Normale

Nella Figura 5.12 sono riportati i quantili di ordine 2 2

N

standard (0, 1) e viene messo in evidenza come questi, per la loro definizione,

α . Data la simmetria della fd Normale

delimitino due code di eguale probabilità 2

65

N. Cufaro Petroni: Statistica

Α Α

2 2 x

Α Α

1

2 2

α α

− N

Figura 5.12: Quantili di ordine , e 1 di una legge Normale standard (0, 1).

2 2

standard ϕ(x) definita in (5.15), per ogni valore di x si avrà ϕ(−x) = ϕ(x), e quindi

in particolare fra i due quantili mostrati in Figura 5.12 sussiste la relazione

−ϕ

= . (5.20)

ϕ α α

1−

2 2 N

Da (5.20) deriva che se la v.a. X segue la legge Normale standard (0, 1) si ha

≥ }

P{|X| ϕ = α . (5.21)

α

1− 2

In realtà per dimostrare la (5.21) basterebbe dare un’occhiata alla Figura 5.12 e

ricordare la relazione (5.20), ma come esercizio ne daremo anche una deduzione

analitica esplicita. Da (5.20) si ha infatti

} {X ≥ } ∪ {X ≤ −ϕ } {X ≥ } ∪ {X ≤ }

{|X| ≥ = ϕ = ϕ ϕ ,

ϕ α α α α α

1− 1− 1− 1−

2 2 2 2 2

con i due eventi del secondo membro disgiunti. La relazione (5.21) segue allora dalla

additività (3.3) } ≥ } ≤ }

≥ = P{X ϕ + P{X ϕ

P{|X| ϕ α α α

1− 1−

2 2 2 α α

− ≤ } ≤ } − −

= 1 P{X ϕ + P{X ϕ = 1 1 + = α.

α α

1− 2 2 2 2

I quantili di una T di Student con n gradi di libertà con legge t(n) sono indicati con

(n) e sono definiti dalla relazione

il simbolo t

α ≤ (n)} = α .

P{T t

α

Siccome la fd della legge t(n) ha le stesse proprietà di simmetria della fd Normale

standard innanzitutto si ha −t

= . (5.22)

t α α

1−

2 2

66 5.4 Quantili

Α

Α

2 2 x

Χ n Χ n

2 2

Α Α

1

2 2

α α 2

Figura 5.13: Quantili di ordine , e 1 di una legge χ (n).

2 2

e in secondo luogo si dimostra una relazione del tutto simile a (5.21): se la v.a. T

segue la legge di Student t(n) si ha | ≥

P{|T t (n)} = α . (5.23)

α

1− 2

2

I quantili di una Z di legge χ (n) e di una F di legge di Fisher F (n, m) si indicano

2 (n) e f (n, m) e sono definiti da

rispettivamente con χ α

α 2

≤ ≤

P{Z χ (n)} = α , P{F f (n, m)} = α .

α

α

2 (n) ed F (n, m) non sono funzioni simmetriche le relazioni

Siccome le fd delle leggi χ

del tipo (5.21) e (5.23) assumono una forma differente. Cosı̀ ad esempio, se la v.a.

2 (n) si ha

Z segue la legge χ 2 21−

≤ ≤ −

P{χ (n) Z χ (n)} = 1 α . (5.24)

α α

2 2

La (5.24) è illustrata nella Figura 5.13 e deriva facilmente dalle definizioni stesse di

2 21−

(n) < χ (n), abbiamo innanzitutto

quantili: dato che χ α α

2 2

21− 2 2 21−

{Z ≤ {Z ≤ ∪ {χ ≤ ≤

χ (n)} = χ (n)} (n) Z χ (n)}

α α α α

2 2 2 2

con i due eventi del secondo membro disgiunti. Segue allora dalla additività (3.3)

della probabilità che

21− 2 2 21−

≤ ≤ ≤

≤ (n)} = P{Z χ (n)} + P{χ (n) Z χ (n)}

P{Z χ α α α α

2 2 2 2

e quindi si ottiene la relazione (5.24) tenendo anche conto delle definizioni dei quantili

2 21− 21− 2

≤ ≤ ≤ − ≤

P{χ (n) Z χ (n)} = P{Z χ (n)} P{Z χ (n)}

α α α α

2 2 2 2

α

α −

− −

= 1 =1 α

2 2

,. 67

N. Cufaro Petroni: Statistica

I valori dei quantili delle diverse leggi possono essere ricavati dalle Tavole dell’Ap-

pendice D, ma queste per ragioni di spazio non riportano tutti i valori necessari a

discutere problemi di statistica. I valori mancanti possono essere ricavati mediante

relazioni come (5.20) e (5.22). A questo proposito ricorderemo allora che per la legge

2 (n), quando i gradi di libertà sono numerosi (per le nostre Tavole: se n > 35),

χ

è possibile calcolare dei valori approssimati mediante i quantili della legge Normale

standard tramite la relazione √

1

2 2

(n) + 2n 1) . (5.25)

χ α

α 2

Infine ricorderemo che tra i quantili della legge di Fisher vale la relazione

1

f (n, m) = (5.26)

α f (m, n)

1−α

5.5 Vettori aleatori

In questa sezione daremo alcune sommarie indicazioni sulla maniera in cui viene

, . . . , X ) introdotti con le Definizio-

assegnata la legge dei vettori aleatori X = (X

1 n

ni 5.5, 5.6 e 5.7. Se le m componenti X sono v.a. discrete, indicando con x i valori

i i

discreti di ciascuna di esse, la legge congiunta sarà data assegnando le quantità

}

p (x , . . . , x ) = P{X = x , . . . , X = x .

1 m 1 1 m m

saranno poi dotate a loro volta di leggi marginali assegnate

Le singole componenti X

i

tramite le }

(x ) = P{X = x , i = 1, . . . , m

p i i i i

e dal Teorema 5.2 si può dimostrare che esse saranno indipendenti se e solo se

· ·

p (x , . . . , x ) = p (x ) . . . p (x ) . (5.27)

1 m 1 1 m m

Le leggi congiunta e marginali di un dato vettore aleatorio non possono essere as-

segnate separatamente in maniera arbitraria: ci sono infatti semplici regole che

consentono di ricavare le leggi marginali di un vettore aleatorio a partire dalla sua

legge congiunta. Per brevità noi qui trascureremo di enunciare queste regole, e ci

limiteremo invece ad osservare che, viceversa, non è sempre possibile ricostruire in

maniera unica la legge congiunta a partire dalle marginali; l’unico caso in cui ciò è

possibile è quello in cui è anche noto che le componenti sono indipendenti, per cui

la congiunta si ricava dalle marginali tramite (5.27)

Esempio 5.10. (Legge Multinomiale) Per dare un esempio di legge congiunta di una

v.a. m–dimensionale consideriamo n ripetizioni indipendenti di un esperimento i cui ri-

sultati casuali possono essere m 2. Supporremo inoltre che in ogni tentativo si ottiene

68 5.5 Vettori aleatori

il risultato 1 con probabilità q , . . . , e il risultato m con probabilità q . Naturalmente

1 m

dovranno essere verificate le relazioni

≤ 1 , i = 1, . . . , m ; q + . . . + q = 1 .

0 q i 1 m

la v.a. che rappresenta il numero di tentativi in cui si è ottenuto il risultato i–

Sia ora X i

mo: il risultato del nostro esperimento sarà allora rappresentato dalla v.a. m–dimensionale

, . . . , X ) che indica il numero di volte in cui si è ottenuto ciascuno degli m

X = (X 1 m

possibili risultati. Naturalmente deve risultare

X + . . . + X = n . (5.28)

1 m

I possibili valori di X sono i vettori di numeri interi (k , . . . , k ) con k + . . . + k = n e

1 m 1 m

si può dimostrare che la legge congiunta di X è n! k k

} 1 m

p (k , . . . , k ) = P{X = k , . . . , X = k = . . . q (5.29)

q

1 m 1 1 m m m

1

k ! . . . k !

1 m

detta legge Multinomiale. È immediato verificare che nel caso di m = 2 la legge Mul-

tinomiale coincide con la legge Binomiale dell’Esempio 5.5. Un ovvio esempio concreto

di legge multinomiale è fornito da n lanci di un dado con m = 6 facce numerate. Se in

di ottenere il risultato i–mo saranno

generale il dado non è ben bilanciato le probabilità q

i

la v.a. che rappresenta il numero di volte in cui su n lanci è

diverse fra loro. Detta X i

uscita la faccia i–ma, la legge del vettore X = (X , . . . , X ) è proprio (5.29) con m = 6.

1 6

= . . . = q = 1/6 e ovviamente

Se in particolare il dado è bilanciato, allora q

1 6 1

n!

}

p (k , . . . , k ) = P{X = k , . . . , X = k =

1 6 1 1 6 6 n

k ! . . . k ! 6

1 6

Cosı̀ ad esempio, la probabilità che su n = 12 lanci di dado ogni faccia esca esattamente

due volte è 12! 1

p (2, 2, 2, 2, 2, 2) = 0.00344 .

12

2! 2! 2! 2! 2! 2! 6

mentre la probabilità che tre delle sei facce escano 1 volta e le altre tre 3 volte è

1

12! 0.00102 .

p (1, 1, 1, 3, 3, 3) = 12

1! 1! 1! 3! 3! 3! 6

Per le leggi multinomiali è anche possibile calcolare le leggi marginali e verificare che le

non sono indipendenti. Per semplicità ometteremo questa verifica e ci limi-

componenti X i

teremo solo ad osservare che è intuitivamente facile giustificare la non indipendenza delle

componenti se si riflette al fatto che esse devono sempre soddisfare la relazione (5.28), per

cui se fissassimo arbitrariamente le prime m 1 componenti, la m–a sarebbe immedia-

tamente già determinata con valore n (X + . . . + X ) e non potrebbe quindi essere

1 m−1

indipendente dalle altre.

Se invece le componenti del vettore aleatorio X = (X , . . . , X ) sono v.a. conti-

1 m , . . . , x ). Le

nue la legge congiunta è determinata da una fd con m variabili f (x 1 m

proprietà delle fd m–dimensionali sono del tutto analoghe a quelle delle fd con una

69

N. Cufaro Petroni: Statistica

sola variabile introdotte nella Definizione 5.10, ma la loro formulazione richiede l’uso

del calcolo differenziale con m variabili e noi la trascureremo. Ci limiteremo solo

, . . . , x ) è possibi-

ad osservare che anche in questo caso dalla fd congiunta f (x 1 m

le calcolare le fd marginali f (x ) che determinano le leggi marginali delle singole

i i

, e che ancora una volta dal Teorema 5.2 si può dimostrare che le

componenti X

i

componenti sono indipendenti se e solo se · ·

f (x , . . . , x ) = f (x ) . . . f (x ) . (5.30)

1 m 1 1 m m

70

Capitolo 6

Attesa e varianza

6.1 Attesa e varianza

Definizione 6.1. Data una v.a. X, se essa è discreta, per semplicità con valori

interi k e legge p = p (k) = P{X = k}, e se

k |k| p < +∞ , (6.1)

k

k

valore d’attesa attesa media)

chiameremo (o semplicemente o anche di X la

quantità

µ = E(X) = kp ; (6.2)

k

k

se invece X è continua con fd f (x), e se

X

+∞ |x|f (x) dx < +∞ , (6.3)

X

−∞

l’attesa sarà definita da +∞

µ = E(X) = xf (x) dx. (6.4)

X

−∞

Si noti che la somma in (6.2) è in realtà una serie se X assume infiniti valori.

Se le condizioni (6.1) e (6.3) non sono verificate la serie (6.2) e l’integrale (6.4) non

convergono e si dice che la v.a. X non possiede valore d’attesa. In pratica l’attesa non

è altro che la somma dei valori assunti da X moltiplicati per le rispettive probabilità

(x) dx può essere inteso come la probabilità che

(si ricordi che nel caso continuo f

X

X assuma valori in [x, x+dx]), e quindi non è altro che la media dei valori assunti da

X se si suppone che le frequenze relative coincidano con le rispettive probabilità. Nel

seguito, quando non diversamente specificato, le definizioni e le proprietà enunciate

con il simbolo E saranno valide sia per il caso discreto che per quello continuo.

71

N. Cufaro Petroni: Statistica

Teorema 6.1. Se X, X , . . . , X sono v.a. e a, b due numeri arbitrari, allora

1 n

E(aX + b) = aE(X) + b , (6.5)

E(X + . . . + X ) = E(X ) + . . . + E(X ) . (6.6)

1 n 1 n

varianza

Definizione 6.2. Chiameremo della v.a. X con attesa µ la quantità

2 2

σ = Var(X) = E[(X µ) ] ; (6.7)

%

deviazione standard Var(X). Chiameremo

si chiama invece la quantità σ =

covarianza

poi di due v.a. X e Y con attese rispettivamente µ e ν la quantità

− −

Cov(X, Y ) = E[(X µ)(Y ν)] , (6.8)

coefficiente di correlazione

e la quantità

Cov(X, Y )

%

% . (6.9)

=

ρ XY Var(X) Var(Y )

= 0, diremo che le v.a. X e Y sono

Se Cov(X, Y ) = 0, o equivalentemente ρ X,Y

non correlate.

Sarà utile dare anche la definizione (6.7) di varianza in termini espliciti: nel caso di

v.a. discrete a valori interi k avremo

2 2

σ = (k µ) p ; (6.10)

k

k

mentre nel caso di v.a. continue si ha

+∞

2 2

σ = (x µ) f (x) dx . (6.11)

X

−∞

Si vede subito dalle definizioni (6.7) e (6.8) che

Var(X) = Cov(X, X) , (6.12)

per cui la covarianza non è altro che una generalizzazione del concetto di varianza al

caso di due v.a. Come nella corrispondente discussione svolta nella parte di Statistica

Descrittiva si può mostrare (e gli argomenti sono gli stessi) che la varianza di una v.a.

rappresenta la dispersione dei valori di X attorno al suo valore d’attesa: una varianza

grande indica che X tende a prendere valori anche molto lontani da µ; viceversa nel

caso di varianza piccola i valori di X sono piuttosto concentrati attorno a µ. Il

coefficiente di correlazione, d’altra parte, non è altro che una covarianza ridotta, nel

senso che, mentre Cov(X, Y ) può assumere tutti i valori reali positivi e negativi,

−1 ≤ +1. Per il resto i significati di coefficiente di

si può dimostrare che ρ XY

correlazione e covarianza sono molto simili.

72 6.1 Attesa e varianza

Teorema 6.2. Se due v.a. X e Y sono indipendenti allora esse sono anche non

correlate.

Viceversa è facile far vedere con degli esempi che esistono v.a. non correlate che non

sono indipendenti. In altri termini indipendenza e non correlazione non sono concetti

equivalenti: l’indipendenza implica la non correlazione, ma in generale il viceversa

non è vero. Ciononostante per comodità la non correlazione viene spesso utilizzata

come una indipendenza debole, nel senso che v.a. non correlate sono considerate

quasi indipendenti. Se Cov(X, Y ) > 0 si parla di correlazione positiva e questo

indica che Y tende ad assumere valori grandi (rispettivamente: piccoli) quando X

assume valori grandi (rispettivamente: piccoli). Viceversa se Cov(X, Y ) < 0 si

parla di correlazione negativa e in tal caso Y tende ad assumere valori grandi

(rispettivamente: piccoli) quando X assume valori piccoli (rispettivamente: grandi).

A questo proposito si veda anche la corrispondente discussione svolta nella parte di

Statistica Descrittiva.

Teorema 6.3. Date due v.a. X e Y si ha −

Cov(X, Y ) = E(XY ) E(X)E(Y ) ; (6.13)

In particolare si ha anche che

2 2 2

σ = Var(X) = E(X ) E(X) . (6.14)

Dimostrazione: Partendo dalla definizione (6.8), ricordando che µ = E(X) e ν =

E(Y ) e usando i risultati del Teorema 6.1 si ricava che

− − − −

Cov(X, Y ) = E[(X µ)(Y ν)] = E(XY νX µY + µν)

− − −

= E(XY ) νE(X) µE(Y ) + µν = E(XY ) 2µν + µν

− −

= E(XY ) µν = E(XY ) E(X)E(Y ) .

La relazione (6.14) segue direttamente da (6.13) tramite (6.12).

Si noti che i valori d’attesa di prodotti di v.a. come quelli delle formule (6.8) e (6.13)

sono definiti tramite le leggi congiunte di X e Y : se queste v.a. sono discrete con

valori interi k e , e legge congiunta p (k, ), tali valori d’attesa sono del tipo

E(XY ) = k p (k, ) . (6.15)

k,

Non riporteremo invece le formule per il caso di v.a. continue perché esse richiedono

l’uso di integrali multipli. Inoltre, data l’utilità di (6.14) nel calcolo della varianza,

sarà utile dare in termini espliciti anche questa formula: con le solite notazioni nel

caso discreto avremo

2

2 2 2 2

− −

σ = k p kp = k p µ , (6.16)

k k k

k k k

73

N. Cufaro Petroni: Statistica

mentre nel caso continuo avremo

2

+∞ +∞ +∞

2 2 2 2

− −

σ = x f (x) dx xf (x) dx = x f (x) dx µ . (6.17)

X X X

−∞ −∞ −∞

Il Teorema 6.1 afferma in sostanza che il calcolo dell’attesa E(X) di una v.a. è

un’operazione lineare; non si può dire invece la stessa cosa per la varianza che

è un’operazione in cui compaiono v.a. elevate al quadrato. Il seguente Teorema

precisa alcune importanti proprietà della varianza.

Teorema 6.4. Se X è una v.a. e a e b due numeri si ha

2

Var(aX + b) = a Var(X) ; (6.18)

se X e Y sono due v.a. si ha

Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ) , (6.19)

e quindi, solo se X e Y sono non correlate potremo scrivere

Var(X + Y ) = Var(X) + Var(Y ) . (6.20)

Dimostrazione: Posto µ = E(X) da (6.5) si ha E(aX + b) = aµ + b; dalla

definizione (6.7) e dal Teorema 6.1 si ha quindi immediatamente la (6.18)

2 2 2 2 2 2

− −

− ] = E[a (X µ) ] = a E[(X µ) ] = a Var(X) .

Var(aX + b) = E[(aX aµ)

Per dimostrare la relazione (6.19), posto come al solito µ = E(X) e ν = E(Y ),

da (6.6) si ha E(X + Y ) = µ + ν, e quindi dalle definizioni (6.7) e (6.8) applicando

il Teorema 6.1 si ha

2 2

− −

− = E ((X µ) + (Y ν))

Var(X + Y ) = E ((X + Y ) (µ + ν))

2 2

− − − −

= E[(X µ) ] + E[(Y ν) ] + 2E[(X µ)(Y ν)]

= Var(X) + Var(Y ) + 2Cov(X, Y ) .

Se però X e Y sono non correlate si ha Cov(X, Y ) = 0 e quindi si ottiene (6.20).

Con qualche complicazione di calcolo si può dimostrare anche una generalizzazione

, . . . , X si ha

della relazione (6.19): date n v.a. X

1 n

n

Var(X + . . . + X ) = Cov(X , X )

1 n i j

i,j=1

) + . . . + Var(X ) + Cov(X , X ); (6.21)

= Var(X

1 n i j

i = j

se poi le X sono anche non correlate si ha

i + . . . + X ) = Var(X ) + . . . + Var(X ) . (6.22)

Var(X

1 n 1 n

74 6.2 Esempi di attese e varianze

2

Teorema 6.5. Se X è una v.a. con attesa µ e varianza σ , allora la v.a.

X µ

Y = σ v.a. standardizzata

avrà attesa 0 e varianza 1 e prenderà il nome di

Dimostrazione: Dalla relazione (6.5) si ha

1 −

E(Y ) = [E(X) µ] = 0 ;

σ −

tenendo conto poi di (6.18) e del fatto che E(X µ) = 0 si ha

2

− −

Var(X µ) E [(X µ) Var(X)

]

Var(Y ) = = = =1

2 2 2

σ σ σ

il che conclude la dimostrazione.

Ad esempio, con questo tipo di terminologia, si noterà che nel Teorema 5.9 la v.a.

X standardizzata.

Y non è altro che la v.a. momento di ordine momen-

Definizione 6.3. Chiameremo rispettivamente k e

to centrato di ordine k di una v.a. X le quantità

k k

− .

m = E(X ) , µ = E (X E(X))

k k asimmetria

Ovviamente m = E(X), e µ = Var(X). Chiameremo inoltre e

1 2

curtosi di X rispettivamente le quantità

µ µ

3 4

= , γ = .

γ 1 2 22

3/2 µ

µ 2

6.2 Esempi di attese e varianze

Osserviamo innanzitutto che il valore dell’attesa e della varianza dipendono soltanto

dalla legge di una v.a. e pertanto che v.a. diverse hanno la stessa attesa e la stessa

varianza se sono identicamente distribuite. Nel seguito esamineremo alcuni semplici

esempi di calcolo di queste quantità.

Inizieremo con le v.a. discrete: qualunque v.a. distribuita secondo una legge di

Bernoulli B(1, p) assume solo i due valori 0 e 1 con probabilità rispettivamente 1 p

e p. Pertanto dalla definizione si ha · − ·

E(X) = 0 (1 p) + 1 p = p

2 2 2

· − ·

) = 0 (1 p) + 1 p = p

E(X

e quindi da (6.14) si ha −

E(X) = p , Var(X) = p(1 p) . (6.23)

75


ACQUISTATO

1 volte

PAGINE

185

PESO

918.84 KB

AUTORE

flaviael

PUBBLICATO

+1 anno fa


DESCRIZIONE APPUNTO

Appunti di Statistica matematica. Nello specifico gli argomenti trattati sono i seguenti: la statistica descrittiva, la statistica univariata, la statistica multivariata, le probabilità, gli spazi di probabilità, il condizionamento e l'indipendenza, le variabili aleatorie.


DETTAGLI
Corso di laurea: Corso di laurea in matematica
SSD:
Università: Bari - Uniba
A.A.: 2005-2006

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher flaviael di informazioni apprese con la frequenza delle lezioni di Statistica matematica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Bari - Uniba o del prof Cufaro Petroni Nicola.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea in matematica

Matematica - le equazioni di secondo grado
Appunto