Statistica matematica - Appunti

Name: Statistica matematica - Appunti
Brand: Skuola.net
Rating: 3 (1 reviews)

Aggiornato il 22/03/2026

di Daniele

Publisher

Vota 3,0/5 (1)

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Appunti di Statistica matematica. Nello specifico gli argomenti trattati sono i seguenti: la statistica descrittiva, la statistica univariata, la statistica multivariata, le probabilità, …

Esame Statistica matematica

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Cufaro Petroni Nicola

Università Università degli Studi di Bari

A.A. 2004-2005

185 pagine

1 download

Appunto

Scarica

Estratto del documento

Università degli Studi di Bari

Facoltà di Scienze Matematiche, Fisiche e Naturali

Nicola Cufaro Petroni

Statistica

con Elementi di Probabilità

anno accademico 2004/05

Il testo di queste lezioni è liberamente disponibile all’indirizzo

http://www.ba.infn.it/~cufaro/didactic/StatisticaMatematica.pdf

e può anche essere richiesto scrivendo a

cufaro@ba.infn.it

c 2004 Nicola Cufaro Petroni

Università degli Studi di Bari

Facoltà di Scienze Matematiche, Fisiche e Naturali

via E.Orabona 4, 70125 Bari

Prefazione

La struttura di queste lezioni riﬂette una duplicità di signiﬁcato della parola Sta-

tistica. Per essere più chiari cominceremo con un esempio: supponiamo di voler

conoscere l’orientamento politico generale dei cittadini di un determinato paese. È

ben noto che in questo caso si organizzano delle elezioni che consistono nel racco-

gliere il voto di tutti gli elettori. Una volta esaurite le operazioni di voto si passerà

allo spoglio delle schede e alla registrazione dei risultati. Tali risultati si presentano

in generale come una grande quantità di dati numerici che possono essere esamina-

ti, combinati e rappresentati in diverse maniere in modo da estrarre l’informazione

rilevante ai ﬁni elettorali. Le elezioni generali sono però tipicamente delle opera-

zioni complesse e costose, e per questo motivo spesso si preferisce aﬃdarsi a dei

sondaggi per avere delle informazioni, almeno approssimative e provvisorie, sulla

volontà dei cittadini. Questi sondaggi consistono nella registrazione delle opinioni

di un piccolo numero di soggetti, a partire dal quale si ricavano delle indicazioni

sulla volontà generale della popolazione intera. Ovviamente i sondaggi non possono

essere sostitutivi delle elezioni, e non solo perchè bisogna dare a tutti i cittadini la

possibilità di esprimere la propria opinione, ma anche per una profonda diﬀerenza

fra i dati delle due operazioni. Il risultato del sondaggio, infatti, è aleatorio: sic-

come il campione di cittadini intervistato è scelto casualmente, una ripetizione del

sondaggio – per quanto eseguita con i medesimi criteri – porterebbe inevitabilmente

a dei risultati numerici diversi, anche se di poco. Viceversa nel caso delle elezioni

l’indagine esaurisce l’intera popolazione degli elettori: una eventuale ripetizione del

voto – supponendo per semplicità che non vi siano ripensamenti o errori – non mo-

diﬁcherebbe il risultato. Noi diremo che l’esame dei risultati elettorali complessivi

è compito della Statistica descrittiva, mentre le tecniche per ricavare informazioni

su tutta la popolazione a partire dai risultati relativi a un piccolo campione sono

parte della Statistica inferenziale. Naturalmente, come è noto, l’uso dei sondaggi

comporta dei rischi dovuti alla aleatorietà dei loro esiti, per cui diventa essenziale

per la Statistica inferenziale essere in grado di misurare l’aﬃdabilità dei risultati:

in questo giocheranno un ruolo essenziale i concetti e le tecniche del Calcolo delle

probabilità.

Si noti che nel caso dell’esempio elettorale citato la possibilità di registrare il voto di

tutti i cittadini esiste comunque: pertanto, in linea di principio, è sempre possibile

confrontare i risultati dei sondaggi con quelli delle elezioni generali e veriﬁcarne

I

N. Cufaro Petroni: Statistica

quindi l’attendibilità. Questa possibilità, però, non sussiste sempre: in molti casi

infatti un’indagine che esaurisca l’intera popolazione semplicemente non è possibile,

e ci si deve accontentate invece di esaminare le misure eseguite su un campione

tentando di dedurne le caratteristiche generali del fenomeno studiato. Ad esempio

in linea di principio la misura della massa di una particella elementare può essere

eseguita inﬁnite volte, e data la delicatezza della misura i risultati variano sempre

in maniera aleatoria. In pratica il numero delle nostre misure sarà sempre ﬁnito,

e d’altra parte, per quanto grande sia questo numero, non potremo mai dire di

aver esaurito l’intera popolazione teoricamente disponibile. Allo stesso modo la

determinazione della lunghezza media degli insetti di una determinata specie non

potrà che essere eﬀettuata su un campione casuale, visto che l’intera popolazione di

insetti resta comunque praticamente inaccessibile. In queste occasioni, ovviamente,

il raﬃnamento delle tecniche probabilistiche diventa essenziale.

Nasce da queste osservazioni la struttura – ormai classica – di queste lezioni divise

in tre parti. La prima esamina gli strumenti principali della Statistica descrittiva:

tabelle, graﬁci, indici di centralità e dispersione, correlazioni. La seconda intro-

duce i concetti più rilevanti del Calcolo delle probabilità, e funge da introduzione

alla terza che inﬁne studia le tecniche più note della Statistica inferenziale: stime,

intervalli di ﬁducia, test di ipotesi. Per ovvie ragioni di spazio e tempo gli argo-

menti non saranno trattati in maniera esaustiva. In particolare la parte di Calcolo

delle probabilità è ridotta a quanto è strettamente necessario per la comprensione

della parte di Statistica inferenziale. Lo scopo del corso rimane quello di mettere

gli studenti in grado di usare gli strumenti più semplici e più noti della statistica,

ma anche di stabilire alcuni pilastri concettuali che consentano loro, qualora se ne

presentasse l’occasione, di estendere le loro capacità in maniera autonoma. Alcuni

completamenti sono comunque già previsti per le prossime edizioni di questo testo.

Devo inﬁne ringraziare il collega Paolo Baldi dell’Università di Roma “Tor Vergata”

per aver messo gentilmente a mia disposizione il testo non pubblicato di un suo corso

di Statistica dal quale ho liberamente attinto idee, osservazioni ed esempi.

Bari, Novembre 2004 Nicola Cufaro Petroni

II

Indice

Prefazione I

I Statistica descrittiva 1

1 Statistica univariata 3

1.1 Dati e frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Tabelle e graﬁci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3 Moda, media e varianza . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.4 Mediana e quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.5 Momenti, asimmetria e curtosi . . . . . . . . . . . . . . . . . . . . . . 18

1.6 Medie generalizzate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2 Statistica multivariata 23

2.1 Dati multidimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2 Covarianza, correlazione e regressione . . . . . . . . . . . . . . . . . . 25

2.3 Componenti principali . . . . . . . . . . . . . . . . . . . . . . . . . . 28

II Probabilità 37

3 Spazi di probabilità 39

3.1 Spazio dei campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2 Eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.3 Probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4 Condizionamento e indipendenza 45

4.1 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5 Variabili aleatorie 51

5.1 Variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.2 Variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . 54

5.3 Variabili aleatorie continue . . . . . . . . . . . . . . . . . . . . . . . . 59

III

N. Cufaro Petroni: INDICE

Statistica

5.4 Quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.5 Vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

6 Attesa e varianza 71

6.1 Attesa e varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6.2 Esempi di attese e varianze . . . . . . . . . . . . . . . . . . . . . . . . 75

7 Teoremi limite 79

7.1 Legge dei Grandi Numeri . . . . . . . . . . . . . . . . . . . . . . . . . 79

7.2 Teorema Limite Centrale . . . . . . . . . . . . . . . . . . . . . . . . . 82

III Statistica inferenziale 87

8 Stima di parametri 89

8.1 Stima puntuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

8.2 Stima per intervalli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

8.2.1 Intervallo di ﬁducia per l’attesa µ . . . . . . . . . . . . . . . . 99

8.2.2 Intervallo di ﬁducia per la varianza σ . . . . . . . . . . . . . 101

8.3 Stima di Massima Verosimiglianza . . . . . . . . . . . . . . . . . . . . 103

9 Test di Ipotesi 109

9.1 Ipotesi ed errori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

9.2 Test sulla media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

9.2.1 Test di Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

9.2.2 Test di Student . . . . . . . . . . . . . . . . . . . . . . . . . . 120

9.3 Test per il confronto delle medie . . . . . . . . . . . . . . . . . . . . . 121

9.3.1 Campioni accoppiati . . . . . . . . . . . . . . . . . . . . . . . 122

9.3.2 Campioni indipendenti . . . . . . . . . . . . . . . . . . . . . . 126

9.4 Test di Fisher sulla varianza . . . . . . . . . . . . . . . . . . . . . . . 128

9.5 Test del χ di adattamento . . . . . . . . . . . . . . . . . . . . . . . . 129

9.6 Test del χ di indipendenza . . . . . . . . . . . . . . . . . . . . . . . 133

IV Appendici 137

A Esercizi 139

A.1 Esercizi di Statistica Descrittiva . . . . . . . . . . . . . . . . . . . . . 141

A.2 Esercizi di Probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . 145

A.3 Esercizi di Statistica Inferenziale . . . . . . . . . . . . . . . . . . . . . 148

B Schemi 157

B.1 Formulario di Statistica Inferenziale . . . . . . . . . . . . . . . . . . . 159

IV

INDICE INDICE

C Notazioni 163

C.1 Notazioni vettoriali . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

D Tavole Numeriche 167

N

D.1 Legge Normale standard (0, 1) . . . . . . . . . . . . . . . . . . . . . 169

D.2 Legge di Student t(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

2 (n) . . . . . . . . . . . . . . . . . . . . . . . 171

D.3 Legge del Chi Quadro χ

D.4 Legge di Fisher F (n, m) . . . . . . . . . . . . . . . . . . . . . . . . . 172

−λ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

D.5 Valori di e

Indice analitico 175

V

Parte I

Statistica descrittiva

Capitolo 1

Statistica univariata

1.1 Dati e frequenze

Distingueremo innanzitutto i dati in due categorie: quantitativi e qualitativi. I

dati quantitativi sono risultati di misure che forniscono valori numerici: ad esempio

posizioni, velocità, masse di particelle; peso, altezza, età di individui di una specie

di animali; reddito dei cittadini di un paese. I dati qualitativi viceversa non sono in

genere rappresentati da numeri: ad esempio i colori delle palline estratte da un’urna;

il gruppo sanguigno A, B, AB e 0 di un insieme di persone; il partito politico votato

dagli elettori di un paese. Si noti però che la diﬀerenza principale fra i due tipi di

dati non consiste nel fatto formale di essere rappresentati o meno da numeri: in

fondo potremmo convenzionalmente rappresentare i colori, i gruppi sanguigni e i

partiti degli esempi precedenti con dei numeri. Quel che è profondamente diverso

è il signiﬁcato di questi numeri: ad esempio il colore rosso delle palline dell’urna

può essere rappresentato indiﬀerentemente con 1, o 2 o qualsiasi altro numero senza

che nulla cambi nella discussione del problema. Invece i numeri che rappresentano i

redditi dei cittadini di un paese non possono essere assegnati arbitrariamente senza

perdere tutta l’informazione utile. Questa diﬀerenza è anche alla base del fatto che

taluni indicatori statistici hanno un senso solo nel caso di dati quantitativi e non

in quelli di dati qualitativi. Ad esempio è perfettamente sensato chiedersi quale è

il reddito medio dei cittadini di un paese, mentre non avrebbe alcun signiﬁcato il

concetto di colore medio, o di partito medio: e questo anche se i dati qualitativi

fossero rappresentati da numeri.

Nel linguaggio della Statistica l’insieme dei soggetti presi in considerazione nella

discussione di un determinato problema (animali di una specie, palline in un’urna,

cittadini di un paese) costituisce una popolazione, mentre le caratteristiche X, Y, . . .

che si osservano (colore, gruppo sanguigno, reddito, peso . . . ) prendono il nome di

caratteri. I caratteri numerici – quelli che forniscono dati quantitativi – sono poi

distinti in due categorie secondo che assumano valori discreti (ad esempio il numero

di ﬁgli delle famiglie di un dato paese) o continui (il peso o l’altezza degli individui

N. Cufaro Petroni: Statistica

di una popolazione). I possibili valori assunti dai caratteri numerici discreti (numero

dei ﬁgli di una famiglia), o dai caratteri qualitativi (colori delle palline in un’urna)

si chiamano anche modalità. Cosı̀ ad esempio: il peso dei cittadini di un paese è un

carattere numerico continuo; il gruppo sanguigno degli individui di un gruppo è un

carattere qualitativo con 4 modalità (A, B, AB e 0). Come vedremo nel Capitolo 2,

inﬁne, potremo avere anche dati multidimensionali, nel senso che su ogni individuo

si possono misurare due o più caratteri. Ad esempio se si misurano l’età e, il peso

p e il reddito r dei cittadini di un dato paese, ad ogni individuo sarà associata una

terna di numeri (e, p, r).

Nell’ambito della Statistica descrittiva supporremo sempre di avere a disposizione i

dati relativi a tutta la popolazione di nostro interesse che, quindi, dovrà contenere

un numero ﬁnito n di individui. I nostri insiemi di dati, chiamati campioni , saranno

, . . . , x , ed esauriranno tutta la popolazione considerata. Si no-

pertanto del tipo x 1 n

ti, però, a questo proposito che in genere il procedimento avviene in senso inverso:

si parte dai dati e poi si stabilisce quale è la popolazione di riferimento. Tipica-

, . . . , x il cui signiﬁcato può

mente nella realtà il punto di partenza è il campione x 1 n

cambiare secondo il punto di vista adottato. In un certo senso è lo statistico che, in

base alle proprie necessità, stabilisce quale è la popolazione di riferimento: se decide

che la popolazione di interesse è rappresentata solo dagli n dati a sua disposizione,

allora egli si colloca nell’ambito della Statistica descrittiva; se invece considera gli

n dati come un campione estratto da una popolazione più vasta sulla quale vuole

ricavare delle informazioni, allora si colloca nell’ambito della Statistica inferenziale

, . . . , x

che studieremo nella Parte III. Supponiamo ad esempio di avere i risultati x 1 n

del test d’ingresso di n studenti ad un corso di laurea universitario. Se il nostro sco-

po è solo quello di esaminare il livello di preparazione degli studenti che accedono

al corso di laurea in quell’anno accademico, è evidente che la nostra popolazione

sarà ristretta agli n individui che hanno sostenuto il test. Se invece dai risultati del

test volessimo dedurre delle conclusioni, ad esempio, sulla tutta la popolazione stu-

dentesca che accede all’università in un determinato anno accademico, è altrettanto

, . . . , x dovrà ora essere considerato come un campione estratto da

evidente che x 1 n

una popolazione più vasta. Il medesimo insieme di dati, cioè, può essere considerato

da due punti di vista diversi: nel primo caso si tratta di un problema di Statistica

descrittiva, nel secondo di un problema di Statistica inferenziale.

Supponiamo allora di osservare un carattere (numerico o qualitativo) X con un nu-

mero ﬁnito M di modalità su una popolazione di n individui: convenzionalmente

indicheremo le M possibili modalità con i numeri interi k = 1, . . . , M . I dati sa-

, . . . , x di n numeri interi con valori k = 1, . . . , M .

ranno allora un campione x 1 n delle x uguali

Chiameremo frequenza assoluta della k–ma modalità il numero N k j

{j = k} l’insieme degli individui della nostra

a k. In termini formali, detto : x j {j

è il numero di elementi di : x = k},

popolazione che assumono il valore k, N k j

ovvero indicando con # la cardinalità di un dato insieme,

= #{j : x = k} , k = 1, . . . , M . (1.1)

N k j 4 1.1 Dati e frequenze

Chiameremo invece frequenza relativa della k–ma modalità il numero

N k

p = , k = 1, . . . , M (1.2)

k n che assume il valore k. Naturalmente sono

che rappresenta la frazione delle x j

veriﬁcate le due relazioni di normalizzazione

N + . . . + N = n , p + . . . + p = 1 . (1.3)

1 M 1 M

Sia nel caso di frequenze assolute che in quello di frequenze relative si introduce poi

il concetto di frequenze cumulate:

k k

= N , f = p , k = 1, . . . , M (1.4)

F

k i k i

i=1 i=1

Come è evidente la frequenza assoluta (rispettivamente: relativa) cumulata F (f )

k k

con valore minore o uguale a k. Per le

rappresenta il numero (la frazione) delle x j

frequenze cumulate le relazioni (1.3) divengono

= n , f = 1 .

F

M M

Se invece il carattere X è numerico e continuo le sue modalità sono inﬁnite e non nu-

merabili per cui bisognerà procedere in modo diverso. Siccome anche in questo caso

, . . . , x che costituiscono la nostra popolazione sono in numero

i valori osservati x 1 n

n ﬁnito, essi cadranno in qualche intervallo ﬁnito del tipo [a, b] e noi li ripartire-

mo in opportune classi nel modo seguente: suddividiamo [a, b] in M sottointervalli

con k = 1, . . . , M e poniamo,

(non necessariamente tutti della stessa ampiezza) J

analogamente al caso discreto, N k

∈ }

N = #{j : x J , p = , k = 1, . . . , M .

k j k k n

Anche ora quindi potremo parlare di frequenze assolute e relative dei ritrovamenti

. Ovviamente le relazioni (1.3) continueranno a va-

dei nostri dati negli intervalli J

lere anche in questo caso. Si noti però che adesso i valori delle frequenze dipendono

|J delle classi che è scelta arbit

Anteprima

Vedrai una selezione di 10 pagine su 185