Estratto del documento

Università degli Studi di Bari

Facoltà di Scienze Matematiche, Fisiche e Naturali

Nicola Cufaro Petroni

Statistica

con Elementi di Probabilità

anno accademico 2004/05

Il testo di queste lezioni è liberamente disponibile all’indirizzo

http://www.ba.infn.it/~cufaro/didactic/StatisticaMatematica.pdf

e può anche essere richiesto scrivendo a

cufaro@ba.infn.it

c 2004 Nicola Cufaro Petroni

Copyright

Università degli Studi di Bari

Facoltà di Scienze Matematiche, Fisiche e Naturali

via E.Orabona 4, 70125 Bari

Prefazione

La struttura di queste lezioni riflette una duplicità di significato della parola Sta-

tistica. Per essere più chiari cominceremo con un esempio: supponiamo di voler

conoscere l’orientamento politico generale dei cittadini di un determinato paese. È

ben noto che in questo caso si organizzano delle elezioni che consistono nel racco-

gliere il voto di tutti gli elettori. Una volta esaurite le operazioni di voto si passerà

allo spoglio delle schede e alla registrazione dei risultati. Tali risultati si presentano

in generale come una grande quantità di dati numerici che possono essere esamina-

ti, combinati e rappresentati in diverse maniere in modo da estrarre l’informazione

rilevante ai fini elettorali. Le elezioni generali sono però tipicamente delle opera-

zioni complesse e costose, e per questo motivo spesso si preferisce affidarsi a dei

sondaggi per avere delle informazioni, almeno approssimative e provvisorie, sulla

volontà dei cittadini. Questi sondaggi consistono nella registrazione delle opinioni

di un piccolo numero di soggetti, a partire dal quale si ricavano delle indicazioni

sulla volontà generale della popolazione intera. Ovviamente i sondaggi non possono

essere sostitutivi delle elezioni, e non solo perchè bisogna dare a tutti i cittadini la

possibilità di esprimere la propria opinione, ma anche per una profonda differenza

fra i dati delle due operazioni. Il risultato del sondaggio, infatti, è aleatorio: sic-

come il campione di cittadini intervistato è scelto casualmente, una ripetizione del

sondaggio – per quanto eseguita con i medesimi criteri – porterebbe inevitabilmente

a dei risultati numerici diversi, anche se di poco. Viceversa nel caso delle elezioni

l’indagine esaurisce l’intera popolazione degli elettori: una eventuale ripetizione del

voto – supponendo per semplicità che non vi siano ripensamenti o errori – non mo-

dificherebbe il risultato. Noi diremo che l’esame dei risultati elettorali complessivi

è compito della Statistica descrittiva, mentre le tecniche per ricavare informazioni

su tutta la popolazione a partire dai risultati relativi a un piccolo campione sono

parte della Statistica inferenziale. Naturalmente, come è noto, l’uso dei sondaggi

comporta dei rischi dovuti alla aleatorietà dei loro esiti, per cui diventa essenziale

per la Statistica inferenziale essere in grado di misurare l’affidabilità dei risultati:

in questo giocheranno un ruolo essenziale i concetti e le tecniche del Calcolo delle

probabilità.

Si noti che nel caso dell’esempio elettorale citato la possibilità di registrare il voto di

tutti i cittadini esiste comunque: pertanto, in linea di principio, è sempre possibile

confrontare i risultati dei sondaggi con quelli delle elezioni generali e verificarne

I

N. Cufaro Petroni: Statistica

quindi l’attendibilità. Questa possibilità, però, non sussiste sempre: in molti casi

infatti un’indagine che esaurisca l’intera popolazione semplicemente non è possibile,

e ci si deve accontentate invece di esaminare le misure eseguite su un campione

tentando di dedurne le caratteristiche generali del fenomeno studiato. Ad esempio

in linea di principio la misura della massa di una particella elementare può essere

eseguita infinite volte, e data la delicatezza della misura i risultati variano sempre

in maniera aleatoria. In pratica il numero delle nostre misure sarà sempre finito,

e d’altra parte, per quanto grande sia questo numero, non potremo mai dire di

aver esaurito l’intera popolazione teoricamente disponibile. Allo stesso modo la

determinazione della lunghezza media degli insetti di una determinata specie non

potrà che essere effettuata su un campione casuale, visto che l’intera popolazione di

insetti resta comunque praticamente inaccessibile. In queste occasioni, ovviamente,

il raffinamento delle tecniche probabilistiche diventa essenziale.

Nasce da queste osservazioni la struttura – ormai classica – di queste lezioni divise

in tre parti. La prima esamina gli strumenti principali della Statistica descrittiva:

tabelle, grafici, indici di centralità e dispersione, correlazioni. La seconda intro-

duce i concetti più rilevanti del Calcolo delle probabilità, e funge da introduzione

alla terza che infine studia le tecniche più note della Statistica inferenziale: stime,

intervalli di fiducia, test di ipotesi. Per ovvie ragioni di spazio e tempo gli argo-

menti non saranno trattati in maniera esaustiva. In particolare la parte di Calcolo

delle probabilità è ridotta a quanto è strettamente necessario per la comprensione

della parte di Statistica inferenziale. Lo scopo del corso rimane quello di mettere

gli studenti in grado di usare gli strumenti più semplici e più noti della statistica,

ma anche di stabilire alcuni pilastri concettuali che consentano loro, qualora se ne

presentasse l’occasione, di estendere le loro capacità in maniera autonoma. Alcuni

completamenti sono comunque già previsti per le prossime edizioni di questo testo.

Devo infine ringraziare il collega Paolo Baldi dell’Università di Roma “Tor Vergata”

per aver messo gentilmente a mia disposizione il testo non pubblicato di un suo corso

di Statistica dal quale ho liberamente attinto idee, osservazioni ed esempi.

Bari, Novembre 2004 Nicola Cufaro Petroni

II

Indice

Prefazione I

I Statistica descrittiva 1

1 Statistica univariata 3

1.1 Dati e frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Tabelle e grafici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3 Moda, media e varianza . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.4 Mediana e quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.5 Momenti, asimmetria e curtosi . . . . . . . . . . . . . . . . . . . . . . 18

1.6 Medie generalizzate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2 Statistica multivariata 23

2.1 Dati multidimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2 Covarianza, correlazione e regressione . . . . . . . . . . . . . . . . . . 25

2.3 Componenti principali . . . . . . . . . . . . . . . . . . . . . . . . . . 28

II Probabilità 37

3 Spazi di probabilità 39

3.1 Spazio dei campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2 Eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.3 Probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4 Condizionamento e indipendenza 45

4.1 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5 Variabili aleatorie 51

5.1 Variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.2 Variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . 54

5.3 Variabili aleatorie continue . . . . . . . . . . . . . . . . . . . . . . . . 59

III

N. Cufaro Petroni: INDICE

Statistica

5.4 Quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.5 Vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

6 Attesa e varianza 71

6.1 Attesa e varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6.2 Esempi di attese e varianze . . . . . . . . . . . . . . . . . . . . . . . . 75

7 Teoremi limite 79

7.1 Legge dei Grandi Numeri . . . . . . . . . . . . . . . . . . . . . . . . . 79

7.2 Teorema Limite Centrale . . . . . . . . . . . . . . . . . . . . . . . . . 82

III Statistica inferenziale 87

8 Stima di parametri 89

8.1 Stima puntuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

8.2 Stima per intervalli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

8.2.1 Intervallo di fiducia per l’attesa µ . . . . . . . . . . . . . . . . 99

2

8.2.2 Intervallo di fiducia per la varianza σ . . . . . . . . . . . . . 101

8.3 Stima di Massima Verosimiglianza . . . . . . . . . . . . . . . . . . . . 103

9 Test di Ipotesi 109

9.1 Ipotesi ed errori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

9.2 Test sulla media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

9.2.1 Test di Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

9.2.2 Test di Student . . . . . . . . . . . . . . . . . . . . . . . . . . 120

9.3 Test per il confronto delle medie . . . . . . . . . . . . . . . . . . . . . 121

9.3.1 Campioni accoppiati . . . . . . . . . . . . . . . . . . . . . . . 122

9.3.2 Campioni indipendenti . . . . . . . . . . . . . . . . . . . . . . 126

9.4 Test di Fisher sulla varianza . . . . . . . . . . . . . . . . . . . . . . . 128

2

9.5 Test del χ di adattamento . . . . . . . . . . . . . . . . . . . . . . . . 129

2

9.6 Test del χ di indipendenza . . . . . . . . . . . . . . . . . . . . . . . 133

IV Appendici 137

A Esercizi 139

A.1 Esercizi di Statistica Descrittiva . . . . . . . . . . . . . . . . . . . . . 141

A.2 Esercizi di Probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . 145

A.3 Esercizi di Statistica Inferenziale . . . . . . . . . . . . . . . . . . . . . 148

B Schemi 157

B.1 Formulario di Statistica Inferenziale . . . . . . . . . . . . . . . . . . . 159

IV

INDICE INDICE

C Notazioni 163

C.1 Notazioni vettoriali . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

D Tavole Numeriche 167

N

D.1 Legge Normale standard (0, 1) . . . . . . . . . . . . . . . . . . . . . 169

D.2 Legge di Student t(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

2 (n) . . . . . . . . . . . . . . . . . . . . . . . 171

D.3 Legge del Chi Quadro χ

D.4 Legge di Fisher F (n, m) . . . . . . . . . . . . . . . . . . . . . . . . . 172

−λ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

D.5 Valori di e

Indice analitico 175

V

Parte I

Statistica descrittiva

1

Capitolo 1

Statistica univariata

1.1 Dati e frequenze

Distingueremo innanzitutto i dati in due categorie: quantitativi e qualitativi. I

dati quantitativi sono risultati di misure che forniscono valori numerici: ad esempio

posizioni, velocità, masse di particelle; peso, altezza, età di individui di una specie

di animali; reddito dei cittadini di un paese. I dati qualitativi viceversa non sono in

genere rappresentati da numeri: ad esempio i colori delle palline estratte da un’urna;

il gruppo sanguigno A, B, AB e 0 di un insieme di persone; il partito politico votato

dagli elettori di un paese. Si noti però che la differenza principale fra i due tipi di

dati non consiste nel fatto formale di essere rappresentati o meno da numeri: in

fondo potremmo convenzionalmente rappresentare i colori, i gruppi sanguigni e i

partiti degli esempi precedenti con dei numeri. Quel che è profondamente diverso

è il significato di questi numeri: ad esempio il colore rosso delle palline dell’urna

può essere rappresentato indifferentemente con 1, o 2 o qualsiasi altro numero senza

che nulla cambi nella discussione del problema. Invece i numeri che rappresentano i

redditi dei cittadini di un paese non possono essere assegnati arbitrariamente senza

perdere tutta l’informazione utile. Questa differenza è anche alla base del fatto che

taluni indicatori statistici hanno un senso solo nel caso di dati quantitativi e non

in quelli di dati qualitativi. Ad esempio è perfettamente sensato chiedersi quale è

il reddito medio dei cittadini di un paese, mentre non avrebbe alcun significato il

concetto di colore medio, o di partito medio: e questo anche se i dati qualitativi

fossero rappresentati da numeri.

Nel linguaggio della Statistica l’insieme dei soggetti presi in considerazione nella

discussione di un determinato problema (animali di una specie, palline in un’urna,

cittadini di un paese) costituisce una popolazione, mentre le caratteristiche X, Y, . . .

che si osservano (colore, gruppo sanguigno, reddito, peso . . . ) prendono il nome di

caratteri. I caratteri numerici – quelli che forniscono dati quantitativi – sono poi

distinti in due categorie secondo che assumano valori discreti (ad esempio il numero

di figli delle famiglie di un dato paese) o continui (il peso o l’altezza degli individui

3

N. Cufaro Petroni: Statistica

di una popolazione). I possibili valori assunti dai caratteri numerici discreti (numero

dei figli di una famiglia), o dai caratteri qualitativi (colori delle palline in un’urna)

si chiamano anche modalità. Cosı̀ ad esempio: il peso dei cittadini di un paese è un

carattere numerico continuo; il gruppo sanguigno degli individui di un gruppo è un

carattere qualitativo con 4 modalità (A, B, AB e 0). Come vedremo nel Capitolo 2,

infine, potremo avere anche dati multidimensionali, nel senso che su ogni individuo

si possono misurare due o più caratteri. Ad esempio se si misurano l’età e, il peso

p e il reddito r dei cittadini di un dato paese, ad ogni individuo sarà associata una

terna di numeri (e, p, r).

Nell’ambito della Statistica descrittiva supporremo sempre di avere a disposizione i

dati relativi a tutta la popolazione di nostro interesse che, quindi, dovrà contenere

un numero finito n di individui. I nostri insiemi di dati, chiamati campioni , saranno

, . . . , x , ed esauriranno tutta la popolazione considerata. Si no-

pertanto del tipo x 1 n

ti, però, a questo proposito che in genere il procedimento avviene in senso inverso:

si parte dai dati e poi si stabilisce quale è la popolazione di riferimento. Tipica-

, . . . , x il cui significato può

mente nella realtà il punto di partenza è il campione x 1 n

cambiare secondo il punto di vista adottato. In un certo senso è lo statistico che, in

base alle proprie necessità, stabilisce quale è la popolazione di riferimento: se decide

che la popolazione di interesse è rappresentata solo dagli n dati a sua disposizione,

allora egli si colloca nell’ambito della Statistica descrittiva; se invece considera gli

n dati come un campione estratto da una popolazione più vasta sulla quale vuole

ricavare delle informazioni, allora si colloca nell’ambito della Statistica inferenziale

, . . . , x

che studieremo nella Parte III. Supponiamo ad esempio di avere i risultati x 1 n

del test d’ingresso di n studenti ad un corso di laurea universitario. Se il nostro sco-

po è solo quello di esaminare il livello di preparazione degli studenti che accedono

al corso di laurea in quell’anno accademico, è evidente che la nostra popolazione

sarà ristretta agli n individui che hanno sostenuto il test. Se invece dai risultati del

test volessimo dedurre delle conclusioni, ad esempio, sulla tutta la popolazione stu-

dentesca che accede all’università in un determinato anno accademico, è altrettanto

, . . . , x dovrà ora essere considerato come un campione estratto da

evidente che x 1 n

una popolazione più vasta. Il medesimo insieme di dati, cioè, può essere considerato

da due punti di vista diversi: nel primo caso si tratta di un problema di Statistica

descrittiva, nel secondo di un problema di Statistica inferenziale.

Supponiamo allora di osservare un carattere (numerico o qualitativo) X con un nu-

mero finito M di modalità su una popolazione di n individui: convenzionalmente

indicheremo le M possibili modalità con i numeri interi k = 1, . . . , M . I dati sa-

, . . . , x di n numeri interi con valori k = 1, . . . , M .

ranno allora un campione x 1 n delle x uguali

Chiameremo frequenza assoluta della k–ma modalità il numero N k j

{j = k} l’insieme degli individui della nostra

a k. In termini formali, detto : x j {j

è il numero di elementi di : x = k},

popolazione che assumono il valore k, N k j

ovvero indicando con # la cardinalità di un dato insieme,

= #{j : x = k} , k = 1, . . . , M . (1.1)

N k j 4 1.1 Dati e frequenze

Chiameremo invece frequenza relativa della k–ma modalità il numero

N k

p = , k = 1, . . . , M (1.2)

k n che assume il valore k. Naturalmente sono

che rappresenta la frazione delle x j

verificate le due relazioni di normalizzazione

N + . . . + N = n , p + . . . + p = 1 . (1.3)

1 M 1 M

Sia nel caso di frequenze assolute che in quello di frequenze relative si introduce poi

il concetto di frequenze cumulate:

k k

= N , f = p , k = 1, . . . , M (1.4)

F

k i k i

i=1 i=1

Come è evidente la frequenza assoluta (rispettivamente: relativa) cumulata F (f )

k k

con valore minore o uguale a k. Per le

rappresenta il numero (la frazione) delle x j

frequenze cumulate le relazioni (1.3) divengono

= n , f = 1 .

F

M M

Se invece il carattere X è numerico e continuo le sue modalità sono infinite e non nu-

merabili per cui bisognerà procedere in modo diverso. Siccome anche in questo caso

, . . . , x che costituiscono la nostra popolazione sono in numero

i valori osservati x 1 n

n finito, essi cadranno in qualche intervallo finito del tipo [a, b] e noi li ripartire-

mo in opportune classi nel modo seguente: suddividiamo [a, b] in M sottointervalli

con k = 1, . . . , M e poniamo,

(non necessariamente tutti della stessa ampiezza) J

k

analogamente al caso discreto, N k

∈ }

N = #{j : x J , p = , k = 1, . . . , M .

k j k k n

Anche ora quindi potremo parlare di frequenze assolute e relative dei ritrovamenti

. Ovviamente le relazioni (1.3) continueranno a va-

dei nostri dati negli intervalli J

k

lere anche in questo caso. Si noti però che adesso i valori delle frequenze dipendono

|

|J delle classi che è scelta arbit

Anteprima
Vedrai una selezione di 10 pagine su 185
Statistica matematica - Appunti Pag. 1 Statistica matematica - Appunti Pag. 2
Anteprima di 10 pagg. su 185.
Scarica il documento per vederlo tutto.
Statistica matematica - Appunti Pag. 6
Anteprima di 10 pagg. su 185.
Scarica il documento per vederlo tutto.
Statistica matematica - Appunti Pag. 11
Anteprima di 10 pagg. su 185.
Scarica il documento per vederlo tutto.
Statistica matematica - Appunti Pag. 16
Anteprima di 10 pagg. su 185.
Scarica il documento per vederlo tutto.
Statistica matematica - Appunti Pag. 21
Anteprima di 10 pagg. su 185.
Scarica il documento per vederlo tutto.
Statistica matematica - Appunti Pag. 26
Anteprima di 10 pagg. su 185.
Scarica il documento per vederlo tutto.
Statistica matematica - Appunti Pag. 31
Anteprima di 10 pagg. su 185.
Scarica il documento per vederlo tutto.
Statistica matematica - Appunti Pag. 36
Anteprima di 10 pagg. su 185.
Scarica il documento per vederlo tutto.
Statistica matematica - Appunti Pag. 41
1 su 185
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze matematiche e informatiche MAT/06 Probabilità e statistica matematica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher flaviael di informazioni apprese con la frequenza delle lezioni di Statistica matematica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Bari o del prof Cufaro Petroni Nicola.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community