Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

quest’ultimo caso si rende anche necessaria la definizione del campione di indagine e cioè

il metodo da utilizzare per l’individuazione delle sole unità elementari da contattare per

acquisire le informazioni necessarie;

indiretto

∗ attraverso l’acquisizione delle informazioni qualitative e quantitative sotto forma

di dati statistici già esistenti con il ricorso all’utilizzo delle basi di dati;

un’osservazione sperimentale

∗ sottoponendo il collettivo in esame a determinate prove; in

tal caso è necessaria una chiara definizione del piano (protocollo) degli esperimenti;

• individuazione della lista delle unità elementari appartenenti al collettivo da osservare. La lista

costituisce lo strumento necessario per la scelta delle unità da rilevare appartenenti alla

popolazione oggetto d’indagine. Affinché non ci si imbatta in errori che possono minare alla

base i risultati che si otterranno con l’indagine statistica, la lista deve essere:

completa

∗ , e cioè deve contenere tutte le unità della popolazione;

esatta

∗ , nel senso che tutte le unità della lista devono individuare esattamente le unità della

popolazione;

aggiornata

∗ , nel senso che non devono essere presenti unità che per qualche ragione non

appartengono più alla popolazione di riferimento;

• scelta dell’epoca di rilevazione: in quanto deve essere ben definito il momento temporale di

rilevamento dei dati;

• scelta del personale e organizzazione collaterale necessaria alla materiale raccolta dei dati;

• definizione degli strumenti necessari alla rilevazione (stesura e stampa questionari) e alla

elaborazione dei dati (scelta del software da utilizzare per le elaborazioni);

• definizione delle fonti per il reperimento dei dati pubblicati;

• definizione dei tempi e dei costi relativi allo svolgimento dell’indagine;

• definizione delle modalità di diffusione dei risultati;

Questionario

Nella stesura del questionario si deve porre particolare attenzione ai seguenti aspetti:

• il linguaggio con cui vengono formulate le domande deve essere chiaro, preciso, semplice e

imparziale. Non deve creare la possibilità di fraintendimenti da parte del rispondente o

predisporre il rispondente ad un atteggiamento ostile nei confronti degli argomenti che vengono

trattati;

• l’ordine in cui vengono poste le domande deve prevedere in una prima fase domande molto

generiche che poi, nel loro susseguirsi, diventano sempre più specifiche (successione ad

imbuto);

• il tempo necessario per la compilazione non deve essere eccessivo, per cui il questionario non

deve risultare troppo lungo e pesante;

• presentazione tipografica nel senso che il questionario deve essere ordinato e mai organizzato

in modo confuso; le domande devono essere numerate all’interno di ciascuna sezione.

Tipologia delle domande

• Domande libere: non esiste alcuna classificazione a priori per cui l’intervistato è libero di

formulare la risposta in modo autonomo e con il proprio linguaggio.

• Domande aperte: le possibili risposte sono solo in parte precodificate lasciandone una libera,

cosicché l’intervistato può comunque rispondere anche laddove le varie risposte alternative

previste non corrispondessero alle sue caratteristiche.

• Domande chiuse: sono previste tutte le possibili risposte che quindi vengono elencate in forma

9

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

strutturata, per cui l’intervistato può scegliere una tra le possibili alternative. In questo caso è

necessario prevedere tutti i possibili modi di realizzarsi del fenomeno oggetto della domanda in

questione.

• Domande filtro: servono a selezionare subgruppi di intervistati ai quali sottoporre un insieme di

domande pertinenti alle rispettive caratteristiche.

• Domande multiresponse: sono consentite più risposte tra loro compatibili.

• Domande gerarchizzate: l’intervistato deve mettere in ordine di preferenza tutte o parte delle

modalità del fenomeno.

• Domande sul controllo della qualità del questionario: vengono in genere poste al termine del

questionario e sono rivolte al rilevatore che, ad esempio, è chiamato a rispondere sul grado di

disponibilità mostrato dall’intervistato o sulla difficoltà incontrata nel porgere le domande.

• Domande di opinione: si tratta di domande rivolte ad acquisire informazioni sul giudizio o sul

grado di soddisfazione dell’intervistato relativamente a qualche particolare aspetto del

fenomeno in esame. Viene generalmente prevista una scala di misurazione che può essere sia

su scala ordinale che quantitativa.

Raccolta dei Dati

In questa fase si procede materialmente alla raccolta dei dati, che in funzione delle scelte operate

nella fase del piano di rilevazione e quindi in funzione del metodo di rilevazione prescelto, si può

articolare in modi differenti.

• Nelle situazioni di rilevazione sperimentale, dopo aver definito le ipotesi di lavoro e i fattori di

controllo dell’esperimento attraverso i quali poter controllare le condizioni in cui si svolge

l’esperimento stesso, si procede all’effettivo svolgimento di tale esperimento con la rilevazione

delle informazioni di interesse. Un esempio è rappresentato da esperimenti nel campo della

fisica, della biologia e della chimica.

• Nelle situazioni di rilevazione osservazionale, tipiche del campo sociale come nel caso dei

sondaggi di opinione o delle indagini di mercato, in cui non è consentita alcuna possibilità di

controllo delle condizioni in cui si svolge l’osservazione, si può procedere all’acquisizione dei

dati in forma diretta, attraverso la misurazione del fenomeno o la somministrazione del

questionario, o in forma indiretta, attraverso la raccolta di dati già esistenti. Nel caso della

somministrazione di un questionario, si possono adottare tecniche differenti quali:

intervista diretta

∗ , con tecnica CAPI (computer assisted personal interviewing), che

prevede la presenza di un intervistatore munito di computer portatile che contatta di

persona l’intervistato;

intervista telefonica

∗ , con tecnica CATI (computer assisted telephone interviewing), che

prevede la presenza di un intervistatore munito di personal computer che contatta

telefonicamente l’intervistato;

autocompilazione (indagine postale)

∗ in cui la persona, che costituisce un’unità della

popolazione di riferimento, si vede recapitare a casa, tramite la posta, il questionario che

deve compilare in modo autonomo, e a sua volta rispedire al mittente.

Ciascuna tecnica di intervista diretta è corredata da vantaggi e svantaggi: la scelta dipende dal

tipo di indagine che si è predisposto e dal fenomeno oggetto di studio. Tra le tre tecniche

presentate si può far notare che:

∗ l’indagine postale è quella che raccoglie, in genere, la minor percentuale di risposta;

∗ l’intervista diretta con tecnica CAPI è la tecnica utilizzata nell’Indagine Trimestrale delle

Forze di Lavoro condotta dall’I . Nei censimenti della popolazione e delle abitazioni,

STAT

come pure nei censimenti dell’industria e dei servizi e dell’agricoltura si procede ad

10

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

un’intervista diretta senza l’ausilio del computer. Ma in generale questo tipo di tecnica è

utilizzata solo in caso di rilevazioni campionarie su fenomeni particolari e di difficile

osservazione;

∗ l’intervista telefonica è attualmente la tecnica più utilizzata nelle indagini campionarie.

Classificazione e spoglio dei dati

Dopo aver raccolto i dati è necessario rendere tali dati disponibili per le successive elaborazioni.

Nel caso di rilevazione diretta attraverso il questionario, le informazioni raccolte vengono inserite in

microdati microdato record

un file, chiamato file dati, che contiene i . Un o del file dati è una riga

di questo file che contiene tutte le informazioni raccolte relativa ad un unico rispondente.

Il file dati è quindi un archivio di dati qualitativi e quantitativi organizzato in righe e colonne. Esso

ha tante righe, e cioè record, quanti sono i rispondenti, e cioè le unità elementari osservate. Il

numero delle colonne invece è dato dal numero di caratteristiche osservate su ciascun rispondente:

tali caratteristiche in genere corrispondono alle domande inserite nel questionario.

Le ultime due fasi, l’elaborazione dei dati e l’interpretazione dei risultati, rappresentano la parte

applicativa dell’analisi dei dati: per questo motivo costituiranno l’oggetto dei prossimi capitoli. 11

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci Capitolo 2

struttura dei

La dati

2.1. Unita’ statistiche, popolazione e caratteri

Dall’osservazione di un insieme di manifestazioni individuali si ottengono i dati statistici che sono

alla base dell’analisi dei dati. Un dato statistico è costituito dall’informazione, relativa ad un

carattere, osservata (rilevata) su di un individuo o un oggetto o un aggregato di individui o di

oggetti. Per cui un dato statistico è un’osservazione che informa sul modo con cui si realizza un

carattere in corrispondenza di una unità statistica.

unità statistica

L’ è dunque l’unità elementare su cui vengono osservati i caratteri oggetto di studio.

L’unità statistica in generale è un’entità o un qualunque ente logico suscettibile di misura che

presenta le caratteristiche oggetto di studio.

Un insieme di unità statistiche omogenee (o simili) rispetto ad una o più caratteristiche (o caratteri)

collettivo statistico popolazione

costituisce un o una . Tale insieme può essere

• finito se costituito d un numero finito di unità statistiche: è la situazione che si riscontra più

frequentemente.

Esempio 5: popolazione delle aziende operanti in una determinata area geografica in un certo

periodo di tempo

• infinito se costituito da un numero infinito di unità statistiche: in questo caso si distingue tra

collettivo reale

, nel caso del collettivo dei pezzi producibili da una fabbrica a ciclo continuo, o

collettivo virtuale (o indefinito) nel caso della popolazione dei potenziali malati di una certa

patologia.

Termini equivalenti per indicare una unità statistica sono elemento (della popolazione), soggetto (se

persone), oggetto (se cosa), caso o individuo (con accezione più generica). Ognuno di questi termini

è più o meno appropriato a seconda del fenomeno, o, più in generale, del contesto nel quale si

svolge l'indagine.

carattere

Il oggetto di osservazione è una caratteristica della popolazione di cui si vuole

approfondire la conoscenza. Il modo con cui si realizza il carattere in corrispondenza di una unità

modalità

statistica è chiamata : un carattere può assumere modalità differenti in corrispondenza

delle differenti unità statistiche del collettivo. Le modalità, dunque, rappresentano i modi diversi

con cui un carattere si può manifestare sulle unità statistiche, oppure il modo di essere di una unità

statistica rispetto al carattere su di essa osservato.

modalità

Le di un carattere debbono essere esaustive (o necessarie) e non sovrapposte (o

incompatibili):

• esaustive si intende che le modalità elencate debbono rappresentare tutti i possibili modi di

essere del carattere;

• non sovrapposte quando ad ogni unità si può associare una ed una sola modalità.

Quando le modalità sono espresse numericamente il carattere è detto (o variabile),

QUANTITATIVO

altrimenti è detto (o mutabile).

QUALITATIVO

Esempio 6. Caratteri qualitativi: sesso, stato civile, settore di attività economica, titolo di studio,

grado militare. Caratteri quantitativi: età, peso, altezza, numero di addetti, numero di figli.

carattere qualitativo mutabile statistica

Un ( ) si manifesta con modalità espresse da aggettivi o

attributi. E’ possibile associare a ciascuna modalità attributo un numero intero che tuttavia non ha

alcun valore numerico nel senso che rappresenta solo una possibile codifica delle modalità del

12

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

carattere!

Esempio 7 (mutabili statistiche e loro modalità): accanto a ciascun attributo è riportato in parentesi

un numero intero ad esso associato che lo rappresenta in una tra le possibili codifiche delle

modalità Carattere Modalità

Sesso maschio (0), femmina (1)

Stato civile nubile/celibe (2), coniugato (4), divorziato (6), vedovo (8)

Settore di attività economica agricoltura (1), industria (2), servizi ( o terziario) (3)

Titolo di studio licenza elementare (10), licenza media inferiore (13), diploma

(18), laurea (22), dottorato/specializzazione (25)

carattere quantitativo variabile statistica

Un ( ) si manifesta con modalità espresse da numeri

(naturali o reali).

caratteri quantitativi

I vengono distinti in e :

DISCRETI CONTINUI

( ):

• l’insieme delle modalità assumibili

CARATTERE QUANTITATIVO DISCRETO VARIABILE DISCRETA

dal carattere può essere messo in corrispondenza biunivoca con un sottoinsieme dei numeri

interi le modalità assumibili da una variabile discreta sono un numero finito o numerabile

(numerabile = in corrispondenza biunivoca con l'insieme dei numeri naturali).

Esempio 8: numero di nati e di morti, numero di pezzi prodotti, numero di figli.

( ):

• l’insieme delle modalità

CARATTERE QUANTITATIVO CONTINUO VARIABILE CONTINUA

assumibili dal carattere può essere messo in corrispondenza biunivoca con un sottoinsieme dei

numeri reali le modalità assumibili da una variabile continua costituiscono un’infinità di

elementi in corrispondenza biunivoca con l'insieme dei numeri reali.

Esempio 9: reddito con modalità espresse dai numeri reali compresi tra un reddito minimo e un

reddito massimo, peso con modalità espresse dai numeri reali compresi tra 40 kg e 150 kg,

altezza con modalità espresse dai numeri reali compresi tra 140 cm e 220 cm.

Carattere

Qualitativo Quantitativo Continuo

Nominale Ordinale Discreto

Misurazione dei caratteri

carattere qualitativo mutabile)

(o viene distinto in:

Un ( ):

• o non esiste

CARATTERE QUALITATIVO SCONNESSO MUTABILE SCONNESSA CON SCALA NOMINALE

alcun ordine o relazione d’ordine tra le modalità con cui si può manifestare date due sue

modalità si può solo dire se queste sono uguali o diverse;

Esempio 10: sesso, stato civile, settore di attività economica

( ):

• o esiste un

CARATTERE QUALITATIVO ORDINATO MUTABILE ORDINATA CON SCALA ORDINALE 13

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci →

ordine naturale preciso tra le modalità con cui il carattere si manifesta date due sue modalità

è possibile dare un ordine specificando che una modalità precede l’altra ed è inoltre possibile

dire se queste sono uguali o diverse. Si può inoltre distinguere tra i caratteri ordinati rettilinei,

in cui esiste una modalità iniziale e una finale nella graduatoria delle modalità, e caratteri

ordinati ciclici per i quali pur individuando un ordine naturale di successione per le modalità,

tuttavia non esistono delle vere e proprie modalità iniziali e finali che dunque vengono

individuate e fissate in maniera convenzionale.

Esempio 11. Mutabili ordinate rettilinee: titolo di studio, grado militare, livello di

soddisfazione.

Mutabili ordinate cicliche: mese di nascita, direzione del vento.

caratteri quantitativi variabili)

(o

I vengono distinti in:

• : esiste un’unità di misura delle modalità

CARATTERI QUANTITATIVI CON SCALA A INTERVALLI

numeriche ma non esiste uno zero assoluto, naturale e non arbitrario, per cui ha senso

considerare la differenza o la distanza tra due modalità del carattere ma non il rapporto tra tali

modalità.

Esempio 12: temperatura, quoziente d’intelligenza.

• qualora esiste un’unità di misura delle

CARATTERI QUANTITATIVI CON SCALA DI RAPPORTI

modalità numeriche ed esiste uno zero assoluto che rende significativo sia il calcolo della

differenza tra due modalità del carattere che il loro rapporto.

Esempio 13: numero di nati e di morti, numero di pezzi prodotti, reddito.

I caratteri quantitativi con scala a intervalli e quelli con scala di rapporti sono analizzati utilizzando

le stesse tecniche statistiche: ciò è possibile sia perché la scala ad intervalli può essere trasformata

in una scala di rapporti fissando un’origine (uno zero) convenzionale, sia perché le elaborazioni

statistiche non si differenziano nei due casi.

Classificazione gerarchica delle scale di misurazione

Nominale

Tutti i caratteri

Ordinale

(modalità con ordinamento)

Intervallo

(modalità numeriche

con unità di misura)

Rapporto

(esiste zero naturale) 14

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

Si tenga conto inoltre che le scale di misura appena introdotte prevedono un crescente grado di

complessità e di apporto informativo secondo l’ordine con cui sono state presentate. Per cui a

partire dalla scala nominale (la più semplice) si passa alla scala ordinale, salendo un gradino nella

scala di complessità, fino a raggiungere i massimi livelli con i caratteri quantitativi con la scala a

intervalli e, ancor di più, fino all’ultimo grado rappresentato dalla scala di rapporti.

Trasformazione della scala di misura dei caratteri

Mediante alcune manipolazioni dei dati è possibile trasformare un carattere facendo in modo che il

suo livello di misura passi ad un altro livello di misura. Quest’operazione viene generalmente

utilizzata quando, dovendo analizzare caratteri con differenti scale di misura, si vuole cercare di

uniformare l’informazione disponibile e, conseguentemente, le elaborazioni dei dati.

Le principali trasformazioni del livello di misura dei caratteri sono le seguenti

A: Nominale Ordinale Scala a intervalli Scala di rapporti

DA: Introduzione di

Nominale parametri

Non tenere conto Introduzione di

Ordinale dell’ordine parametri

Suddividere in classi e Suddivisione

Scala a non tenere conto in classi

intervalli dell’ordine

Suddividere in classi e Suddivisione

Scala di non tenere conto in classi

rapporti dell’ordine

In linea generale il passaggio da una scala di misura superiore (caratteri quantitativi) ad una

inferiore (mutabili) avviene sicuramente ignorando l’ordine delle modalità con cui si presenta il

carattere e in alcuni casi, come ad esempio quando in presenza di un carattere quantitativo lo si

vuole trattare alla stregua di uno qualitativo, anche suddividendo le modalità in classi, e cioè

organizzando le modalità numeriche in sottogruppi di modalità.

Il passaggio, invece, da una scala di misura inferiore ad una superiore, come ad esempio quando si

vuole trattare una mutabile alla stregua di una variabile, necessità dell’introduzione di parametri che

devono essere scelti ad hoc in ciascuna situazione operativa e che dovrebbero tenere conto di

informazioni generalmente non disponibili: questa operazione, come ci si può rendere ben conto, è

piuttosto complessa e fonte di forte arbitrarietà.

La trasformazione del livello di misura dei caratteri è un’operazione che pur semplificando l’analisi

dei dati può condurre in due direzioni opposte a seconda del tipo di trasformazione che si sta

adottando: da una parte comporta una perdita di informazioni mentre dall’altra introduce dei forti

elementi di arbitrarietà. Infatti tutte le operazioni che prevedono un passaggio da un livello di

misura superiore ad uno inferiore sono abbastanza semplici ma allo stesso tempo richiedono la

rinuncia a una certo tipo di informazione insito nei dati: si perde l’informazione relativa ai singoli

dati (perché li si sta considerando come gruppi di dati) e l’informazione relativa all’ordinamento,

senza tener conto della discrezionalità con cui sono state organizzate le classi di dati osservati.

Le operazioni che prevedono la trasformazione di un carattere da un livello di misura inferiore ad

uno superiore risultano essere nella maggior parte dei casi troppo discutibili e quindi fortemente

sconsigliate.

Esempio 14. I dati diffusi dall'I (Istituto Nazionale di Statistica) riportano che nel 2000 gli

STAT

esercizi ricettivi per area geografica sono 15

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

alberghi 33.244

campeggi e villaggi turistici 2.360

alloggi agro-turistici 6.480

altri esercizi e alloggi (REC) 73.052

Le modalità sono su scala nominale. In maniera soggettiva si può assegnare alle 4 modalità un

punteggio in decimi che rispecchia, ad esempio, il gradimento personale di chi utilizza tali dati:

alberghi = 8, campeggi e villaggi turistici = 6 , alloggi agro-turistici = 10, altri esercizi = 7. Le

modalità sono ora espresse in scala di rapporti grazie ai parametri introdotti.

2.2. Distribuzioni statistiche e tabelle

distribuzione statistica

La del carattere osservato su un collettivo di unità statistiche è uno

strumento con il quale è possibile presentare in modo sintetico le informazioni sul fenomeno

oggetto di studio contenute in un insieme di dati.

Nel momento in cui si osservano diversi caratteri su un insieme di unità statistiche allora l’insieme

di dati è costituito da tutte le misurazioni dei caratteri effettuate su ciascuna delle unità statistiche.

x

E’ possibile rappresentare l’informazione di cui si dispone mediante un tabella “unità caratteri”

x

(in generale si parla di tabella “unità variabili” anche quando i caratteri osservati sono qualitativi)

dove ciascuna riga è associata ad una unità statistica e ciascuna colonna ad un carattere: ne

consegue che la generica cella di tale tabella rappresenta la modalità del carattere, corrispondente

alla colonna, osservata sull’unità statistica, corrispondente alla riga. Una tabella di questo tipo

distribuzione unitaria multipla (unitaria perché è rappresentata ciascuna unità

costituisce una

statistica e multipla perché sono riportate le osservazioni di più caratteri su un medesimo collettivo).

Se si considera una sola colonna della tabella, e dunque l’elencazione delle modalità di un solo

distribuzione unitaria

carattere osservate su ciascuna unità statistica si sta rappresentando un

semplice

.

Esempio 15 x

. Tabella “unità variabili”: il collettivo di unità statistiche è costituito da 8 persone

sulle quali sono stati rilevati i caratteri stato civile, età, altezza

Tabella 1. Distribuzione unitaria multipla Caratteri

Unità statistiche Stato civile Età Altezza

Marco 1 Sposato 35 175

Paola 2 Nubile 29 163

Lorenzo 3 Celibe 42 180

Agnese 4 Nubile 36 158

Silvia 5 Sposata 30 170

Giuliana 6 Divorziata 39 166

Pietro 7 Celibe 32 178

Luca 8 Divorziato 31 186

Si tratta di una tabella con 8 righe (le unità statistiche) e 3 colonne (i caratteri osservati). La cella

corrispondente all’incrocio (3,1) (terza riga e prima colonna) presenta la modalità “celibe” che sta

ad indicare che l’unità statistica “Lorenzo” presenta la modalità “celibe” per il carattere statistico

“stato civile”. La distribuzione unitaria semplice del carattere Età è data dal seguente elenco di

coppie (unità, modalità): (1, 35) (2, 29) (3, 42) (4, 36) (5, 30) (6, 39) (7, 32) (8, 31).

La distribuzione semplice di frequenze assolute

Molte volte la distribuzione unitaria di un carattere può essere talmente dispersiva da risultare di

difficile interpretazione: si rende necessario, quindi, sintetizzare tutte le informazioni a disposizione

x

in modo da renderle più facilmente analizzabili. L’informazione presentata in una tabella “unità

16

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

variabili” può essere sintetizzata e resa ancora più funzionale attraverso una elaborazione statistica

distribuzione di frequenze semplici o multiple

che ci porta alla costruzione delle . Una

semplice

distribuzione di frequenze si dice quando è riferita ad un unico carattere, mentre sarà

doppia se riferita a due caratteri osservati congiuntamente sul medesimo collettivo di unità

multipla

statistiche, ed in generale è se si riferisce a più di un carattere.

distribuzione semplice di frequenze assolute

In una l’informazione insita nei dati osservati è

sintetizzata nel seguente modo:

• si costruisce una lista delle modalità che il carattere osservato può assumere, sia esso

qualitativo o quantitativo, considerando che se il carattere è quantitativo o qualitativo ordinato

le modalità saranno ordinate in senso crescente. In questa operazione si deve tener conto del

fatto che due o più unità statistiche possono presentare la medesima modalità del carattere

osservato, per cui la lista delle modalità comprenderà solo le modalità che si presentano almeno

una volta e cioè solo le modalità differenti tra loro;

frequenza assoluta

• accanto a ciascuna modalità si associa la con cui quella modalità si è

frequenza assoluta è il numero

realizzata nella popolazione di unità statistiche considerate. La

di volte con cui la modalità di un carattere viene osservata (o si manifesta, si realizza) nel

collettivo.

Osservazione: L N

A OTAZIONE

E’ venuto il momento di introdurre la notazione che ci consentirà di parlare di elementi abbastanza

complessi in maniera relativamente semplice e senza possibilità di equivoci: infatti una volta che si

è assegnato ad un simbolo un determinato significato, questo stesso significato rimarrà immutato

nel corso della trattazione e allo stesso tempo ci consentirà di fare riferimento a situazioni del tutto

generali senza dover necessariamente ricorrere a ulteriori spiegazioni.

Vediamo allora i simboli che utilizzeremo e il loro significato:

• X è il carattere osservato, sia esso quantitativo o qualitativo. Qualora dovessimo riferirci a due

caratteri osservati congiuntamente nel medesimo collettivo li indicheremo uno con X e l’altro

con Y

• x , x ,…, x ,…, x rappresentano le K modalità che il carattere X può assumere su un qualsiasi

j

1 2 K

collettivo di unità statistiche. Quindi x è la prima modalità, x è la seconda modalità, x è la

1 2 j

generica modalità, che indicheremo come j-esima modalità, ed infine x è la K-esima

K

modalità, e cioè l’ultima. Se il carattere X è qualitativo ordinato o quantitativo allora le

< < < < <

modalità x , x ,…, x ,…, x sono tali che x x … x … x , mentre se il carattere X è

1 2 K 1 2 K

j j

qualitativo sconnesso tale ordine non esiste per cui qualunque modalità può essere considerata

come prima ( x ) o come ultima ( x ). Qualora ci trovassimo di fronte a due caratteri X e Y,

1 K

allora le H modalità che può assumere il secondo carattere Y saranno indicate con

y , y ,…, y ,…, y (per esse valgono le stesse considerazioni già fatte)

1 2 H

i

• n indica il numero totale di unità statistiche che compongono il collettivo esaminato

• n , n ,…, n ,…, n rappresentano le frequenze assolute associate alle K modalità del carattere

1 2 K

j

X, nello stesso ordine con cui sono state ordinate tali modalità. Quindi n rappresenta il numero

1

di unità statistiche (frequenza assolta) su cui è stata osservata la modalità x , n è la frequenza

1 2

assoluta con cui è stata osservata la modalità x , n è la frequenza assolta con cui si è

2 j

realizzata la generica modalità x ed infine n è la frequenza assolta con cui si è manifestata

K

j + + + + + =

l’ultima modalità x . Si deve notare che n n … n … n n cioè le frequenze

j

K 1 2 K

assolute nel loro complesso devono rappresentare la totalità del collettivo esaminato. 17

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

La tabella che descrive la distribuzione semplice di frequenze di un generico carattere X con K

modalità osservato su un collettivo di n unità statistiche può essere così rappresentata:

Carattere X Frequenza assoluta

x n

1 1

x n

2 2

# #

x n

j j

# #

x n

K K

Totale n

Molto spesso quando si osserva un carattere quantitativo su un ampio collettivo di unità statistiche

le modalità che tale carattere può assumere (cioè i valori numerici osservati sulle unità) possono

essere molto diversi tra loro, perciò la lista delle modalità da compilare per elaborare una

distribuzione di frequenze del carattere può essere molto lunga e dispersiva. In queste situazioni si

preferisce sintetizzare l’informazione insita nell’elevato numero di modalità differenti, che

classi di modalità

dovrebbero essere esaminate separatamente, costruendo delle : in pratica alcune

modalità vengono raggruppate in base a determinati criteri scelti a priori in modo tale da formare

sottogruppi di modalità che rappresentano proprio le classi. I criteri da considerare possono essere

differenti a seconda della situazione e del contesto in cui ci si trova ad operare, tuttavia in generale

essi dovrebbero essere tali da

1. consentire che ciascuna unità statistica presenti una modalità facente parte di una sola classe:

quindi in base alla modalità su di essa osservata ciascuna unità deve essere classificabile senza

ambiguità in una ed una sola classe di modalità;

2. non avere un numero di classi troppo elevato né un’ampiezza troppo “dispersiva”.

In generale una classe di modalità di un carattere quantitativo è costituita da un insieme di valori

numerici compresi tra un estremo inferiore ed un estremo superiore. A seconda che tali estremi

siano o meno considerati parte integrante della classe possiamo avere diversi tipi di classi

• classe aperta: né l’estremo inferiore né quello superiore fanno parte della classe;

• classe chiusa a sinistra e aperta a destra: l’estremo inferiore è parte della classe ma non accade

altrettanto per quello superiore;

• classe aperta a sinistra e chiusa a destra: l’estremo inferiore non è parte della classe mentre lo è

quello superiore ;

• classe chiusa (sia a destra sia a sinistra): sia l’estremo inferiore che quello superiore fanno parte

della classe.

Si tenga bene conto che, affinché non ci siano equivoci, nel momento della definizione delle classi

laddove un valore numerico costituisce sia l’estremo superiore di una data classe che l’estremo

inferiore di quella successiva è necessario specificare se si è in presenza di classi chiuse a destra o a

sinistra in modo tale che quel valore appartenga ad una ed una sola classe.

Infine le classi possono avere ampiezza, definita come la differenza tra l’estremo superiore e quello

inferiore, differente: non è quindi necessario, anche se in molti casi risulta essere utile, avere classi

tutte della stessa dimensione.

Una volta definite le classi di modalità, la distribuzione di frequenze assolute viene costruita

associando a ciascuna classe il numero di unità statistiche che presentano un valore numerico

(modalità) in essa contenuto. 18

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

La distribuzione semplice di frequenze relative o percentuali

Le distribuzioni di frequenze assolute possono essere a loro volta elaborate al fine di pervenire a

tabelle di numeri percentuali che ci consentono di confrontare l’informazione relativa ad un

medesimo carattere (o coppie di caratteri) riferite a due o più gruppi formati da un differente

distribuzioni semplici di frequenze relative o

numero di unità statistiche. Si passa così alle

percentuali distribuzione semplice di frequenze relative o percentuali

. In una l’informazione

insita nei dati osservati è sintetizzata nel seguente modo:

• si costruisce una lista delle modalità che il carattere osservato può assumere (il criterio è lo

stesso delle distribuzioni di frequenze assolute anche per ciò che riguarda la costruzione delle

classi di modalità per caratteri quantitativi); frequenza relativa o percentuale

• accanto a ciascuna modalità si associa la con cui quella

modalità si è realizzata nella popolazione di unità statistiche considerate.

frequenza relativa

∗ La si ottiene dividendo la frequenza assoluta, associata a quella

medesima modalità, con il numero totale n di unità statistiche osservate (l’ampiezza del

collettivo). Essa rappresenta il numero relativo di volte (rispetto al totale delle unità) con cui

la modalità di un carattere viene osservata (o si manifesta, si realizza) nel collettivo.

Indicheremo con f , f ,…, f ,…, f le frequenze relative associate alle K modalità del

j

1 2 K

carattere X, nello stesso ordine con cui sono state ordinate tali modalità. Quindi

x , la frequenza relativa con cui questa è stata osservata è

considerando la generica modalità j n

=

f : questo valore viene ottenuto mediante il rapporto f . Si deve notare che

j n

j

j + + + + + =

f f … f … f 1 .

j

1 2 K

frequenza percentuale

∗ La si ottiene moltiplicando la frequenza relativa, associata a quella

medesima modalità, per 100. Essa rappresenta la percentuale di volte (rispetto al totale delle

unità) con cui la modalità di un carattere viene osservata (o si manifesta, si realizza) nel

collettivo. Indicheremo con p , p ,…, p ,…, p le frequenze percentuali associate alle K

1 2 K

j

modalità del carattere X, nello stesso ordine con cui sono state ordinate tali modalità. Quindi

considerando la generica modalità x , la frequenza percentuale con cui questa è stata

j = ×

osservata è p : questo valore viene ottenuto come p f 100 . Si deve notare che

j j j

+ + + + + =

p p … p … p 100 .

1 2 K

j

La tabella che descrive la distribuzione semplice di frequenze assolute, relative e percentuali di un

generico carattere X con K modalità osservato su un collettivo di n unità statistiche può essere così

rappresentata:

Carattere X Frequenza assoluta Frequenza relativa Frequenza percentuale

= ×

n

n p f 100

=

f j

j j j

n

j

x n f p

1 1 1 1

x n f p

2 2 2 2

# # # #

x n f p

j j j j

# # # #

x n f p

K K K K

Totale n 1 100 19

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

Esempio 16 x

. Distribuzioni di frequenze: si consideri la tabella “unità variabili” dell’esempio 15 in

cui su di un collettivo di 8 unità statistiche sono stati rilevati i caratteri stato civile, età, altezza. Si

consideri il carattere “stato civile”: la distribuzione semplice di frequenze assolute, relative e

percentuali per tale carattere, elaborate a partire dalle informazioni presenti nell’esempio 15, è

rappresentata nella seguente tabella

Tabella 2. Distribuzione di frequenze del carattere “Stato Civile”

Carattere Frequenza relativa Frequenza percentuale

Frequenza assoluta

Stato Civile = ×

n

n p f 100

=

f j

j j j

n

j

X

Nubile/Celibe 4 0,5 50

Sposato 2 0,25 25

Divorziato 2 0,25 25

Totale 8 1,00 100

Dalla tabella 2 possiamo dedurre che 4 persone (il 50% del collettivo esaminato) sono nubili o

celibi mentre solo 2 (rispettivamente il 25% del collettivo esaminato) sono sposate o divorziate.

Si consideri ora il carattere “altezza”: la distribuzione semplice di frequenze assolute, relative e

percentuali per tale carattere raggruppato in classi di modalità, elaborata a partire dalle

informazioni presenti nell’esempio 15, è presentata nella seguente tabella

Tabella 3. Distribuzione di frequenze del carattere “Stato Civile”

Carattere Frequenza relativa

Frequenza assoluta Frequenza percentuale

Altezza in cm = ×

n

n p f 100

=

f j

j j j

n

j

X

158 – 166 3 0,375 37,5

[158, 167)*

167 – 179 3 0,375 37,5

[167, 180)*

180 – 190 2 0,250 25,0

[180,190]*

Totale 8 1,000 100,0

*Modo di rappresentare l’informazione relativa al tipo di chiusura considerata per le classi: la

parentesi tonda indica che l’estremo non è incluso nella classe mentre la parentesi quadra

indica che quell’estremo è incluso nella classe

In questo caso sono state costruite 3 classi di differente ampiezza: la prima classe ha ampiezza 9

cm, la seconda ha ampiezza 13 cm e la terza ha ampiezza 10 cm. Le prime due classi sono chiuse

a sinistra e aperte a destra mentre l’ultima è chiusa sia a sinistra che a destra.

Dalla tabella 3 possiamo dedurre che 3 persone hanno un’altezza compresa tra 158 e 167 cm: il

37,5% del collettivo esaminato ha un’altezza compresa tra questi due estremi!

x

Il passaggio dalla tabella 1 “unità variabili” alle distribuzioni di frequenze delle tabelle 2 e 3 ci ha

permesso di evidenziare le caratteristiche dei caratteri osservati sul collettivo di unità statistiche

considerato, presentando inoltre tali informazioni in maniera sintetica e non dispersiva. Tuttavia tale

processo di sintesi implica, come tutti i procedimenti di condensazione, una perdita d’informazione.

Nella transizione da una distribuzione unitaria ad una distribuzione di frequenze si perde

l’informazione puntuale sulle unità statistiche per cui non si conosce più quale unità statistica ha

20

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

presentato una determinata modalità avendo perso il riferimento preciso a ciascuna unità statistica:

queste ultime diventano delle entità senza identità. Si tenga conto inoltre che, mentre è sempre

possibile costruire una distribuzione di frequenze conoscendo la distribuzione unitaria

corrispondente, non è mai possibile ricostruire tale distribuzione unitaria avendo solo a disposizione

la distribuzione di frequenze di uno o più caratteri osservati.

Distribuzione unitaria Distribuzione di frequenze

Distribuzione unitaria Distribuzione di frequenze

Osservazione

Si è già accennato al fatto che le distribuzioni di frequenze percentuali o relative consentono di

confrontare l’informazione relativa ad un medesimo carattere riferita a due o più collettivi formati

da un differente numero di unità statistiche. Infatti, considerato un carattere osservato su due

differenti collettivi, le frequenze assolute delle due rispettive distribuzioni dipendono dal numero di

unità statistiche considerate in ciascun collettivo. Ne consegue che se sono state osservate poche

unità statistiche anche le frequenze assolute saranno piccole, mentre avverrà il contrario qualora

siano state osservate un cospicuo numero di unità. Quindi facendo un raffronto tra le distribuzioni

semplici di frequenze assolute di un carattere osservato su due gruppi di unità, di cui il primo molto

più grande del secondo, avremmo che le frequenze assolute, riferite alle medesime modalità, del

primo carattere saranno sistematicamente più grandi delle frequenze assolute del secondo. Questo

risultato è dovuto esclusivamente alla dimensione dei due collettivi e non al differente modo di

presentarsi del carattere. Per superare tale inconveniente, che ci porta a trarre conclusioni errate sul

fenomeno oggetto di studio, si confrontano le distribuzioni semplici percentuali o relative che non

dipendono più dalla numerosità dei collettivi.

Esempio 17 . Si supponga di aver osservato il carattere “stato civile” sul collettivo A costituto da 15

unità statistiche e sul collettivo B composto da 60 persone. Le distribuzioni semplici di frequenze

del carattere nei due collettivi sono le seguenti

Collettivo A Collettivo B

Carattere Frequenza assoluta Carattere Frequenza assoluta

Stato Civile Stato Civile

n n

Aj Bj

Nubile/celibe 7 Nubile/celibe 9

Sposato 3 Sposato 20

Divorziato 1 Divorziato 15

Vedovo 4 Vedovo 6

Totale 15 Totale 50

Dal confronto di tali distribuzioni si può dedurre che nel collettivo A sono meno numerose le

persone non sposate (celibi o nubili) e le persone vedove rispetto alla situazione osservata nel

collettivo B (rispettivamente 7 contro 9 e 4 contro 6). Tuttavia se si va a considerare le distribuzioni

percentuali del medesimo carattere nei due collettivi si può notare che quanto appena affermato non

è vero: infatti, eliminando l’influenza della differente numerosità dei due gruppi di individui

considerati, la situazione dipinta dalle distribuzioni di frequenze assolute viene contraddetta. Si può

notare, in realtà, che la quota di persone non sposate nel collettivo A (46,7%) è di gran lunga

superiore (più del doppio) della corrispondente quota presente nel collettivo B (18%) e lo stesso

accade per la modalità “vedovo” che è presente nel 26,6% di casi nel collettivo A e solo nel 12% di

individui del collettivo B. 21

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

Collettivo A Collettivo B

Carattere Frequenza percentuale Carattere Frequenza percentuale

Stato Civile

Stato Civile p p

Aj Bj

Nubile/celibe 46,7 Nubile/celibe 18

Sposato 20,0 Sposato 40

Divorziato 6,7 Divorziato 30

Vedovo 26,6 Vedovo 12

Totale 100,0 Totale 100

Osservazione

A seconda del tipo di carattere osservato su un collettivo di unità statistiche, la corrispondente

distribuzione, sia essa di frequenze assolute o relative o percentuali, assume denominazioni

seriazione

differenti per cui si chiamerà la distribuzione di un carattere quantitativo mentre con il

serie

termine indicheremo la distribuzione di un carattere qualitativo.

La distribuzione di quantità distribuzioni di quantità . Queste

Oltre alle distribuzioni di frequenze si possono costruire anche le

ultime si ottengono andando a misurare l’ammontare di un carattere quantitativo sull’insieme delle

unità del collettivo che presentano una medesima modalità (sia essa qualitativa o quantitativa) di un

altro carattere (sia esso qualitativo o quantitativo). In tal caso la distribuzione di quantità descrive

come l’ammontare globale di un carattere si distribuisce rispetto alle modalità di un secondo

carattere osservato su quello stesso collettivo.

Esempio 18 . Si supponga di osservare il carattere sesso (carattere qualitativo sconnesso) su una

popolazione. A questo punto tra le unità che presentano la modalità “maschio” e tra quelle che

presentano la modalità “femmina” si calcola l’ammontare del carattere reddito (carattere

quantitativo continuo). Il reddito totale del gruppo dei maschi e quello del gruppo delle femmine

rappresenta la distribuzione di quantità del carattere reddito rispetto alle modalità del carattere

sesso. Tabella 4. Distribuzione di quantità del carattere reddito indotta dal carattere sesso

Sesso Ammontare di reddito in

migliaia di euro

Maschi 88

Femmine 53

Totale 141

Dalla tabella 4 si deduce che in un collettivo di persone, le donne nel loro complesso hanno un

reddito inferiore a quello dei maschi: infatti il totale dei redditi delle donne (ottenuto sommando i

redditi di ciascuna donna intervistata) è di 53 mila euro mentre quello degli uomini (ottenuto

sommando i redditi di ciascun uomo intervistato) è di ben 88 mila euro.

La distribuzione doppia di frequenze

La distribuzione doppia di frequenze di due caratteri X e Y (siano essi entrambi qualitativi, uno

qualitativo e uno quantitativo, entrambi quantitativi) osservati su un medesimo collettivo di n unità

tabella a doppia entrata

statistiche viene rappresentata attraverso la . Tale tabella è una matrice le

cui righe corrispondono a ciascuna delle H differenti modalità del carattere Y osservate sulle n unità

22

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

del collettivo, mentre le colonne sono associate alle K differenti modalità del carattere X osservate

sulle medesime n unità del collettivo. In ciascuna cella della tabella, corrispondente ad una coppia

di modalità ( y , x ) dei caratteri Y e X rispettivamente, viene riportata la frequenza n con cui tale

i j ij

coppia di modalità viene osservata congiuntamente nel collettivo in esame: quindi n rappresenta il

ij

numero di unità del collettivo che presentano la modalità y del carattere Y assieme alla modalità

i

x del carattere X.

j

Una tabella a doppia entrata assume denominazioni differenti a seconda delle caratteristiche dei

due caratteri ivi rappresentati:

• se i due caratteri X e Y osservati sono entrambi qualitativi oppure uno qualitativo e uno

una tabella di contingenza

quantitativo siamo in presenza di ; tabella di

• se i due caratteri X e Y osservati sono entrambi quantitativi siamo in presenza di una

correlazione

.

Una tabella a doppia entrata si presenta nel seguente modo Tot.

X

... ...

Y x x x x

1 2 K

j

... ...

n n n n .

n

y 11 12 1j 1K 1

1 ... ...

n n n n n .

y 21 22 2j 2K 2

2 ... ...

# # # # # #

... ...

n n n n .

n

y i1 i2 ij iK i

i ... ...

# # # # # #

... ...

y n n n n .

n H1 H2 Hj HK H

H

Tot. n. n. ... n. ... n. n

1 2 j K

Nella tabella, oltre alle frequenze assolute n con cui è stato possibile osservare tutte le possibili

ij

copie di modalità dei due caratteri, troviamo i seguenti elementi:

• . è la somma delle frequenze assolute della riga corrispondente alla modalità y del carattere

n i i

+ + + + + =

Y, cioè n n … n … n n .

i

i

1 i 2 i

K

ij

• n. è la somma delle frequenze assolute della colonna corrispondente alla modalità x del

j j

+ + + + + =

carattere X, cioè n n … n … n n. j

1 j 2 j Hj

ij

• n è il numero totale di unità statistiche considerate e quindi

n . + n . +…+ n . +…+ n . = n. + n. +…+ n. +…+ n. = n

1 2 i H 1 2 j K

Regole generali per la costruzione di distribuzioni di frequenze

1. Deve sempre essere presente un’intestazione o un titolo che indichi di che tipo di dati si tratta e

a cosa e quando sono riferiti tali dati; è necessario anche numerare le tabelle

2. Ogni colonna e ogni riga devono aver un nome appropriato e comprensibile; evitare l’uso di

codici o abbreviazioni se non chiaramente specificate

3. L’unità di misura deve sempre essere specificata (esempio “kg”, “cm”)

4. Deve sempre essere presente la fonte da cui sono stati tratti i dati

5. Se è necessario specificare dei chiarimenti su alcune parti della tabella, inserire delle note sotto

23

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

la tabella stessa

6. La disposizione dei dati deve essere particolarmente curata e la loro rappresentazione non deve

essere confusa per rendere la tabella di facile comprensione

7. E’ necessario allineare sempre le cifre numeriche, soprattutto in presenza di cifre decimali, e

considerare sempre, all’interno della medesima tabella, lo stesso numero di cifre decimali

8. Includere i totali e i subtotali rilevanti nella tabella ed assicurarsi che siano coretti: è necessario

sapere sempre il numero totale di unità statistiche osservate nel collettivo in esame

9. Non lasciare le tabelle isolate nel testo; inoltre nel testo deve essere inserito un rimando alla

tabella a cui si sta facendo riferimento 24

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

Classificazione dei caratteri statistici secondo il livello di misurazione

Caratteri Caratteristiche Operazioni Elaborazioni consentite

consentite (Distribuzioni semplici)

Caratteri qualitativi (Mutabili)

Nessun ordinamento - relazioni di unicità - Frequenze assolute,

Scala nominale delle modalità ( = e ≠ ) frequenze relative, frequenze

(mutabile qualitative percentuali, altri rapporti

sconnessa) statistici

⇓ - Indici di posizione: moda

Nessuna struttura - Misure di mutabilità: indici di

algebrica eterogeneità, entropia

Le modalità - relazioni di unicità - Frequenze assolute,

Scala ordinale qualitative ( = e ≠ ) frequenze relative, frequenze

(mutabile rettilinea possiedono un - relazioni ordinali percentuali, altri rapporti

o ciclica) ordinamento ( > e < ) statistici, frequenze cumulate

semplice - Indici di posizione: moda,

medie di posizione (mediana,

⇓ quartili)

Struttura d’ordine - Misure di mutabilità: indici di

eterogeneità, entropia

Caratteri quantitativi (variabili) - relazioni di unicità

Esiste un’unità di - Frequenze assolute,

Scala a intervalli misura costante ( = e ≠ ) frequenze relative, frequenze

- relazioni ordinali cumulate, frequenze

quindi una distanza

tra le modalità ( > e < ) percentuali, altri rapporti

quantitative - operazioni di statistici

distanza ( + e – ) - Indici di posizione: moda,

⇓ medie di posizione (mediana,

Struttura algebrica quartili); medie analitiche

di corpo ordinato (aritmetica, geometrica, ecc.)

- Misure di variabilità: indici

di dispersione (scarto

quadratico medio, varianza);

campo di variazione.

Esiste uno zero - relazioni di unicità - Frequenze assolute,

Scala di rapporti naturale (assoluto) ( = e ≠ ) frequenze relative, frequenze

quindi la grandezza - relazioni ordinali cumulate, frequenze

assoluta delle ( > e < ) percentuali, altri rapporti

modalità - operazioni di statistici

quantitative distanza (+ e – ) - Indici di posizione: moda,

- medie di posizione (mediana,

rapporto

⇓ quartili); medie analitiche

Struttura algebrica (aritmetica, geometrica, ecc.)

di corpo ordinato - Misure di variabilità: indici

di dispersione (scarto

quadratico medio, varianza);

campo di variazione;

coefficiente di variazione. 25

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci Capitolo 3

EVENTI E PROBABILITA'

E’ un punto di vista comunemente acquisito che i dati che è possibile raccogliere su un certo

fenomeno, nella quasi generalità dei casi, riguardano soltanto una parte degli oggetti su cui vengono

rilevati il carattere, o i caratteri, scelti per rappresentare il fenomeno. Ad esempio, la rilevazione del

numero di addetti nell’industria in Italia viene effettuata con cadenza decennale dall’Istituto

nazionale di statistica. Il fenomeno è l’attività produttiva delle industrie, il carattere il numero di

addetti e gli oggetti sui quali la rilevazione è effettuata sono le aziende. In questo caso sono

acquisiti i dati relativi alla totalità degli oggetti. Gli indicatori di sintesi, quali ad esempio il numero

medio di addetti per azienda, o il numero massimo di addetti in una singola azienda, sono in questo

caso calcolabili con esattezza. E’ evidente che una rilevazione totale di questo tipo, chiamata

censimento, richiede un impegno organizzativo e finanziario che solo un Istituto specializzato i cui

compiti sono espressamente stabiliti per legge può sostenere. Le società di ricerca che effettuano i

sondaggi di opinione, ad esempio, non effettuano rilevazioni totali ma rilevazioni parziali. I dati

sono raccolti interrogando o osservando un numero limitato di oggetti che fanno parte dell’insieme

totale. Quest’ultimo viene chiamato popolazione e il sottinsieme degli elementi dai quali sono

ricavati i dati è chiamato campione. Lo stesso Istituto nazionale di statistica, negli intervalli tra un

censimento e il successivo, limita la rilevazione ad un campione di aziende, proprio in quanto le

esigenze finanziarie ed organizzative richieste da un censimento sono realmente molto rilevanti.

Il problema essenziale è che, se non viene effettuato un censimento, gli indicatori di sintesi vengono

calcolati sulla base dei dati relativi al campione. I valori sono esatti se riferiti al campione, ma è

ragionevole attendersi che i medesimi valori non siano esatti se riferiti alla popolazione. La

differenza tra l’indicatore di sintesi per il campione, esatto ma parziale, e quello per la popolazione,

completo ma incognito, viene valutata a seconda del modo con cui sono scelti gli oggetti che

entrano a far parte del campione. Le valutazioni di probabilità sono appropriate se il campione è

casuale, cioè se gli oggetti vengono scelti a caso nella popolazione, ad esempio con estrazioni

indipendenti. Anche se il campione non è strettamente casuale, le valutazioni di probabilità possono

comunque fornire una indicazione di massima o approssimata.

3.1. EVENTI evento

Definiamo con il termine di una proposizione che può dimostrarsi vera oppure falsa. In

questo modo è necessario distinguere due momenti, quello iniziale, quando non è noto se la

proposizione sia vera o falsa, e quello finale, quando si constata la verità o la falsità della

proposizione. La nozione di probabilità si applica soltanto nel momento in cui non è noto se la

proposizione sia vera o falsa. E’ importante tuttavia che la proposizione sia enunciata in modo che

si possa dare un significato preciso alla sua verità o falsità senza ambiguità possibili. Inoltre, nel

presente contesto, è necessario introdurre il termine proposizione in modo non eccessivamente

astratto. Associamo pertanto all’evento una prova, cioè una operazione dall’esito incerto. L’evento

assume così il significato di risultato di una prova. Ad esempio, la prova può consistere nel lanciare

un dado a 6 facce. L’esito di questa operazione, a meno che il dado non sia truccato, è incerto, nel

senso che non è noto, prima di effettuare il lancio, quale delle 6 facce mostrerà il dado. E’ però

certamente non ambigua la proposizione: il dado mostrerà la faccia con il numero 3. Questa

proposizione definisce un evento. Ma l’evento così definito è il risultato della prova di lancio del

dado.

Un evento si indica con una lettera maiuscola, molto spesso, ovviamente, la E. Un’algebra degli

eventi si può elaborare se si considera il numero 0 per indicare l’evento se falso, e il numero 1 per

indicare l’evento se vero. Mutuando la terminologia dalla teoria degli insiemi, si definiscono due

∪ ∩.

operazioni fondamentali: l’unione e l’intersezione 26

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

evento unione ∪

L’ di due eventi E ed E è l’evento E E (E oppure E ) che si verifica se almeno

1 2 1 2 1 2

uno dei due eventi, cioè uno dei due oppure entrambi, si verificano. L’operazione di unione di due

eventi si riassume nella seguente tabella

Tabella 1. Unione di due eventi E ed E

1 2

0 (falso) 1 (vero)

↓ ∪ →

E E

1 2

0 (falso) 0 1

1 (vero) 1 1

Esempio 1. Sia E l’evento che il risultato del lancio del dado sia 5, E l’evento che il risultato del

1 2

lancio del dado sia 3. Si ha E E = vero se il dado mostra il numero 5 oppure il 3, mentre

1 2

E E = falso se il dado mostra uno qualunque dei restanti numeri. In questo caso si ha la

1 2

particolarità che, essendo uno solo il possibile risultato della prova, gli eventi E ed E non si

1 2

possono verificare contemporaneamente.

L’operazione di unione si può estendere in modo evidente ad un numero qualunque di eventi. Ad

esempio, sia E1 l’evento che il risultato del lancio del dado sia un numero pari, E2 l’evento che il

risultato del lancio del dado sia un numero maggiore di 3. Perché E1 sia vero il risultato della

prova deve essere 2, 4 oppure 6, cioè E1 è esso stesso unione di tre eventi. Affinché, d’altra parte,

sia vero E2 il risultato della prova deve essere 4, 5 oppure 6, e anche E2 è unione di tre eventi. Il

risultato E1∪ E2 =1 se il dado mostra la faccia 2,4,5 oppure 6, ed è E1∪ E2 =0 se il dado mostra

la faccia 1 oppure 3.

ed E siano i possibili risultati di una prova ma che se ne possa verificare solo

Si supponga che E 1 2

uno dei due (cioè E ed E non si possono verificare contemporaneamente). Due eventi che si

1 2

escludono a vicenda si dicono incompatibili.

evento intersezione ∩

L’ di due eventi E ed E è l’evento E E (E e E ) che si verifica se

1 2 1 2 1 2

entrambi gli eventi si verificano. L’operazione di intersezione di due eventi si riassume nella

seguente tabella

Tabella 2. Intersezione di due eventi E ed E

1 2

0 (falso) 1 (vero)

↓ ∩ →

E E

1 2

0 (falso) 0 0

1 (vero) 0 1

Esempio 2. Come nell’esempio precedente, sia E l’evento che il risultato del lancio del dado sia 5,

1 ∩

E l’evento che il risultato del lancio del dado sia 3. Si ha E E = falso e quindi l’evento

2 1 2

intersezione non si verifica in quanto, anche se il risultato è 5 oppure 3, essendo i due eventi

incompatibili, non si possono verificare contemporaneamente,. Se poi il risultato è uno qualunque

dei restanti numeri, l’intersezione è ancora nulla in quanto sia E che E sono uguali a 0 (cioè

1 2

falso).

Esempio 3. Il seguente esempio riguarda due eventi che, a loro volta, sono definiti dall’intersezione

di più eventi. Sia E l’evento che il lancio di due dadi abbia come risultato due 6. Questo evento è

1

intersezione di due eventi, ciascuno riguardante un dado, che consistono entrambi nell’ottenere il

risultato 6. Sia E l’evento che il lancio dei medesimi due dadi abbia come risultato due numeri la

2 ∩

cui somma è un numero pari. Evidentemente E E = vero se si ottengono due 6, mentre

1 2

E E = falso in tutti gli altri casi.

1 2

Notiamo che, negli esempi precedenti, vi sono eventi che è possibile definire sia tramite operazioni

di unione di altri eventi che descrivendo la prova dei quali sono il risultato, mentre altri eventi sono

definiti unicamente come risultato di una prova. Gli eventi che non risultano dalla unione o dalla

27

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

eventi elementari . Abbiamo anche visto un esempio nel quale

intersezione di altri eventi sono detti

l’evento sia sempre falso, l’evento, cioè, che il lancio di un dado abbia contemporaneamente

evento impossibile

risultato 5 e 3. Un evento identicamente nullo (cioè sempre falso) è detto . Al

evento certo

contrario, un evento identicamente uguale a 1 (cioè sempre vero) è detto . Ad

esempio, l’evento E che il lancio di un dado dia un numero compreso fra 1 e 6, estremi inclusi, è un

evento certo, cioè E = vero.

negazione di un evento

La E è l’evento che è vero se E è falso, ed è falso se E è vero. La

negazione di E si indica Ē o anche ~E. Dalla stessa definizione risulta Ē = 1−E. La tabella che

definisce la negazione di un evento assume la forma

E Ē

0 (falso) 1 (vero)

1 (vero) 0 (falso) differenza tra eventi

La negazione di un evento permette di definire l’operazione . Si ha

− ∩

E E = E Ē . L’operazione differenza tra eventi si può esporre nella seguente forma di tabella

1 2 1 2 0 (falso) 1 (vero)

↓ − →

E E

1 2

0 (falso) 0 0

1 (vero) 1 0

Esempio 4. Consideriamo il lancio di due dadi e definiamo E l’evento che il risultato del lancio del

1

primo dado sia 5, E l’evento che il risultato del lancio del secondo dado sia 3. La differenza

2

− E tra i due eventi può essere descritta come l’evento che è vero se il primo dado mostra la

E

1 2 −

faccia 5 mentre il secondo dado mostra una qualunque faccia purché non la 3. D’altra parte E E

1 2

è falso sia se il primo dado non dà risultato 5 sia che il secondo dado dia risultato 3.

3.2. Definizione di probabilitA'

probabilità di un evento

La E è un numero, compreso tra 0 e 1, che corrisponde al grado di

fiducia sulla realizzazione dell’evento. La probabilità di un evento E si indica con la notazione P(E).

Questa definizione di probabilità è caratteristica della impostazione soggettiva. Questa

impostazione postula che ciascun individuo sia in grado di esprimere le proprie valutazioni di

probabilità su qualunque evento espresso da una corrispondente proposizione. La valutazione di

probabilità relativa ad un medesimo evento può differire da individuo a individuo, e può essere

differente anche per un medesimo individuo se espressa in tempi o condizioni diverse. D’altra parte,

la valutazione della probabilità di un evento non è da considerarsi arbitraria, dovendo obbedire a

delle condizioni di coerenza le quali evitano che si incorra in paradossi.

Ad esempio, si immagini di valutare pari a 1/8 la probabilità che il risultato del lancio di un dado sia

uno qualunque dei numeri da 1 a 6. Accettiamo quindi di pagare, poniamo, 8 ¢ di euro chi

scommetta 1 ¢ di euro che il lancio di un dado dia come risultato 5 e vinca la scommessa. Dal

nostro punto di vista, quindi, i termini della scommessa sono, indicando vincita e perdita con il

+ − −7 +1

segno e rispettivamente, se il dado dà risultato 5 e se il risultato è uno qualunque degli

altri numeri. Tuttavia, allo stesso modo, dobbiamo anche accettare le scommesse di altri eventuali

scommettitori che puntano 1 ¢ di euro sui restanti numeri 1, 2, 3, 4 e 6 rispettivamente, e pagare,

ancora, 8 ¢ di euro in caso di vincita di uno qualunque di questi scommettitori. Pur operando

perfettamente in accordo con le nostre valutazioni di probabilità, incorriamo così nella perdita certa

−2 +1

di ¢ di euro, in quanto incassiamo dai nostri scommettitori ¢ di euro ciascuno, per un totale di

+6 −8

¢ di euro, ma paghiamo all’unico certo vincitore ¢ di euro. La nostra valutazione di

probabilità 1/8 è, in questo senso, incoerente, conduce, cioè, ad una perdita certa.

E’ necessario, dunque, effettuare le valutazioni liberamente ma nell’ambito delle condizioni di

28

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

coerenza. Si dimostra che queste implicano le seguenti proprietà della probabilità

a) P(E) = 0 se E è l’evento impossibile

b) P(E) = 1 se E è l’evento certo

< <

c) 0 P(E) 1 per tutti gli altri eventi

∪ +

d) P(E E ) = P(E ) P(E ) se gli eventi E ed E sono incompatibili.

1 2 1 2 1 2

legge delle probabilità totali

La proprietà d) è nota con il nome di .

indipendenti

Due eventi si dicono se il verificarsi dell’uno non influenza in alcun modo il

verificarsi dell’altro. In formula, per due eventi indipendenti si ha l’uguaglianza

P(E E ) = P(E ) P(E )

1 2 1 2

La probabilità dell’unione di due eventi, non necessariamente incompatibili, si calcola con la

formula ∪ + − ∩

E ) = P(E ) P(E ) P(E E )

P(E

1 2 1 2 1 2

Per eventi incompatibili, evidentemente, vale l’uguaglianza

P(E E ) = 0

1 2

Due eventi si dicono necessari, o esaustivi, se la loro unione è l’evento certo, cioè se

P(E E ) = 1

1 2

La necessità può riguardare, in generale, n eventi e la loro unione è l’evento certo. Una famiglia di n

eventi incompatibili e necessari si chiama partizione.

Le proprietà della probabilità spiegano il paradosso dell’esempio precedente. Se indichiamo con E

i

l’evento che il risultato del lancio del dado sia i, con i che assume i possibili valori 1,2,3,4,5 e 6, si

ha allora, essendo gli eventi incompatibili e l’evento certo la loro unione,

∪ ∪ ∪ ∪ ∪ + + + + +

E E E E E ) = P(E ) P(E ) P(E ) P(E ) P(E ) P(E ) = 1

P(E

1 2 3 4 5 6 1 2 3 4 5 6

Pertanto l’ovvia valutazione di probabilità, in accordo con il principio di coerenza, è P(E )= 1/6. In

i

accordo con questa valutazione di probabilità, pagheremmo così 6 volte la posta, realizzando né un

guadagno né una perdita nel caso, sopra ipotizzato, di sei scommettitori ciascuno dei quali puntasse

su uno dei numeri da 1 a 6 rispettivamente.

Sono state proposte altre impostazioni nell’ambito delle quali sviluppare la teoria della probabilità.

Nel presente contesto queste diverse impostazioni possono essere considerate equivalenti, in quanto

tutte implicano le proprietà a), b), c) e d) sopra enunciate.

Impostazione classica . La probabilità di un evento è il rapporto tra il numero di casi favorevoli al

verificarsi dell’evento e il numero di casi possibili, purché questi ultimi siano tutti ugualmente

probabili. Con il termine caso favorevole si intende qualunque evento elementare che corrisponde al

verificarsi dell’evento considerato. Ad esempio, il lancio di un dado ha 6 possibili risultati, quindi 6

casi totali. Se si vuole determinare la probabilità che il risultato sia un numero pari, è sufficiente

contare quanti sono i possibili risultati corrispondenti ad un numero pari. Questi sono 2, 4 e 6, cioè

3 casi favorevoli. La probabilità richiesta è quindi uguale a 3/6 = 1/2.

Impostazione frequentista . Probabilità di un evento è il limite del numero di casi in cui l’evento si

verifica diviso il numero totale di casi. Questa impostazione implicitamente assume che una

medesima prova possa essere ripetuta quante volte si vuole nelle stesse identiche condizioni. Sia n il

numero di prove e n(E) il numero di volte che l’evento E si è verificato nelle n prove. La

definizione di probabilità dell’evento E si scrive allora

P(E)=limn→∞ [n(E)/n]

In pratica non è possibile effettuare un esperimento costituito di infinite prove, ma se n è

29

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

sufficientemente grande il valore del quoziente n(E)/n può essere ragionevolmente assunto per

rappresentare la probabilità di E. L’uguaglianza che definisce la probabilità secondo l’impostazione

frequentista è un caso particolare della legge dei grandi numeri.

Impostazione assiomatica Ω, σ-algebra

. Si considera un insieme una (che definisce le operazioni

Ω)

tra i sottinsiemi di e una misura che assume valori nell’intervallo [0,1] (che definisce la

Ω). Ω

probabilità dei sottinsiemi di I sottinsiemi di si identificano con gli eventi, e la misura di

probabilità fornisce quindi la probabilità degli eventi con il medesimo significato che nelle altre

impostazioni.

3.3. I numeri casuali

Nell’esempio del lancio di un dado, abbiamo sostanzialmente identificato il risultato della prova,

cioè la faccia mostrata dal dado dopo il lancio, con il corrispondente numero. In realtà si tratta di

due aspetti distinti, in quanto, ad esempio, potremmo usare un dado a sei facce su ciascuna delle

quali è disegnato un simbolo non numerico. L’associazione di un numero ad un evento è tuttavia

una operazione molto comune la quale conduce, a sua volta, ad associare al numero la probabilità

dell’evento. Ancora nell’esempio del dado, si può associare all’evento che il lancio abbia come

risultato 5 la vincita conseguita per una eventuale scommessa, poniamo 6 ¢ di euro. Lo

scommettitore riceve cioè 6 ¢ di euro con probabilità 1/6. Viene definito in tal modo un numero

casuale che assume determinati valori con corrispondenti probabilità. In generale, se associamo ad n

eventi altrettanti valori numerici, resta definito un numero casuale che assume valori x

1, x

2, …, xn

), p2=P(E ), …, p =P(E ). Indichiamo con la lettera maiuscola X

con probabilità rispettive p1=P(E n

1 2 n

il numero casuale così definito. Sinonimi di numero casuale sono numero aleatorio, variabile

casuale e variabile aleatoria. La sequenza delle coppie (x

1, p1), …, (xn , p ) specifica la

n

distribuzione di probabilità del numero casuale X. Un numero casuale X che assume un insieme

finito o un insieme infinito numerabile di valori si chiama numero casuale discreto. Ad esempio, si

consideri il lancio di due dadi e si associ ad ognuno dei possibili risultati di questa prova un numero

dato dalla somma dei valori mostrati dalle facce del primo e del secondo dado. Assumiamo

nuovamente, come d’uso, che le facce siano numerate da 1 a 6. Il numero casuale X assume

evidentemente valori tra 2 e 12. Quindi X è un numero casuale discreto a valori in un insieme finito.

La distribuzione di probabilità di X è determinata dal calcolo delle probabilità di ciascuna delle

coppie di valori che si ottengono dal lancio dei due dadi. I risultati possibili sono 36, in quanto, per

ognuno dei possibili 6 eventi elementari relativi al primo dado ve ne sono altrettanti per il secondo.

Gli eventi favorevoli a ciascuna delle somme da 2 a 12 si possono determinare come segue

2=1+1

3=1+2=2+1

4=1+3=2+2=3+1

5=1+4=2+3=3+2=4+1

6=1+5=2+4=3+3=4+2=5+1

7=1+6=2+5=3+4=4+3=5+2=6+1

8=2+6=3+5=4+4=5+3=6+2

9=3+6=4+5=5+4=6+3

10=4+6=5+5=6+4

11=5+6=6+5

12=6+6

ed il calcolo dei quozienti con denominatore 36 fornisce la distribuzione di probabilità di X, cioè (2,

1/36), (3, 1/18), (4, 1/12), (5, 1/9), (6, 5/36), (7, 1/6), (8, 5/36), (9, 1/9), (10, 1/12), (11, 1/18), (12,

30

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

1/36).

Ad esempio, il risultato più probabile è 7 perché si può ottenere in 6 modi diversi, più che

qualunque altra somma.

Un numero casuale può tuttavia anche assumere valori in un intervallo di numeri reali, ovvero

nell’intero insieme dei numeri reali. Il numero casuale X si chiama allora continuo. La principale

differenza rispetto ad un numero casuale discreto consiste nel fatto che non è possibile assegnare

probabilità non nulla ad un singolo valore reale. E’ possibile invece assegnare probabilità non nulla

ad un intervallo nell’insieme dei valori reali che può assumere il numero casuale continuo X. In

formula, la distribuzione di probabilità di un numero casuale discreto si scrive

p(x) = P(X = x)

mentre la distribuzione di probabilità di un numero casuale continuo si scrive

< <

f(x)dx=P(x X x + dx)

dove f(x) è una funzione reale di variabile reale chiamata densità di probabilità e dx è l’incremento

infinitesimo del valore di X. Coerentemente con le proprietà a), b), c) e d) della probabilità, la

funzione f(x) deve essere non negativa ed il suo integrale uguale ad 1. Per valutare la probabilità che

il numero casuale continuo X sia compreso in un intervallo (a, b) si calcola l’integrale

∫ = < <

f ( x ) dx P ( a X b )

( , )

a b

3.4. la distribuzione binomiale

In molte applicazioni viene utilizzato il numero casuale X a valori interi tra 0 e n con probabilità

n

  x n−x

P(X = x)= p (1−p)

 

x

 

dove x può assumere un qualunque valore tra 0 ed n. Il numero casuale X viene spesso descritto

come il numero di successi in n prove indipendenti.

Ad esempio, se un dado viene lanciato n volte e ogni volta si punta sul numero 5, il successo è

rappresentato dal fatto che il dado mostra il numero 5, mentre è considerato un insuccesso uno

qualsiasi degli altri casi. E’ naturale rappresentare un successo con il numero 1 e l’insuccesso con lo

0. Nell’esempio, la somma degli 1 fornisce immediatamente il numero di vincite. Il simbolo p

rappresenta la probabilità di successo. Nell’esempio, p = 1/6. Su n = 10 prove, ad esempio, la

probabilità di vincere 1 sola volta, cioè la probabilità che X = 1, è 0,323.

distribuzione di probabilità binomiale

I numeri n e p definiscono completamente la e sono

chiamati i parametri della distribuzione. La distribuzione binomiale è simmetrica, cioè

P(X = x) = P(X = n−x) solo se p = 1/2

Figura 1. Distribuzione binomiale con n = 10 e p = 1/2. 31

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

Figura 2. Distribuzione binomiale con n = 10 e p = 1/10.

3.5. La distribuzione normale

La più nota e importante distribuzione di probabilità largamente adoperata per descrivere un

distribuzione normale gaussiana

numero casuale X continuo è la , o . La densità di probabilità è

data dalla formula  

2

1 ( µ )

x

1  

 

2

2 σ

 

e

f(x) = 2

2πσ 2 2

µ σ µ σ

dove è la media del numero casuale X e la varianza. I numeri e definiscono

completamente la distribuzione di probabilità normale e sono chiamati i parametri della

µ,

distribuzione. Un numero casuale normale è simmetrico rispetto alla media nel senso che

− µ) + µ).

f(x = f(x

La distribuzione normale viene spesso introdotta come distribuzione degli errori accidentali intorno

alla media. Si immagina, cioè, di eseguire diverse misure della medesima grandezza, la lunghezza

di barre di acciaio prodotte da uno stabilimento, ad esempio. Per quanto i macchinari siano precisi

le barre non saranno tutte della stessa identica lunghezza, se si richiede una determinazione accurata

µ

per rientrare in standard prefissati. E’ ragionevole attendersi, tuttavia, che la lunghezza media

coincida con lo standard richiesto, e che le inevitabili deviazioni delle lunghezze delle singole barre

dalla media siano descritte dalla distribuzione normale.

E’ noto, ad esempio, che, se il numero casuale X segue la distribuzione normale, allora i diversi

valori di X, le lunghezze delle barre nel presente esempio, si può calcolare restino comprese fra

µ−2σ µ+2σ

e con probabilità approssimativamente uguale a 0,95. I macchinari vengono calibrati di

2

σ µ+2σ)

conseguenza in modo che la varianza sia tale che l’intervallo (µ−2σ, sia conforme allo

standard richiesto. Implicitamente si ammette che vengano prodotte barre di lunghezza non standard

con probabilità 0,05. Delle barre prodotte in un mese, poniamo, approssimativamente il 5% saranno

al di fuori degli standard, ma questa circostanza è inevitabile e viene comunemente accettata.

Macchinari più precisi possono ridurre il numero di barre di lunghezza non standard, nel senso che

2 2/3,

σ

una riduzione della varianza di 2/3, cioè la diminuzione della varianza da a 2σ fa sì che le

lunghezze delle barre siano comprese nel medesimo intervallo con probabilità superiore 0,999, per

cui ci si può attendere che solo una barra su mille sia al di fuori degli standard. E’ evidente che

l’esempio riguarda una situazione molto semplificata, nella quale non si tiene conto del costo di

macchinari più precisi, delle esigenze degli acquirenti, di eventuali penalità previste negli accordi di

compravendita. Il calcolo delle probabilità, con gli adattamenti del caso, è tuttavia indispensabile

per tenere conto di questi altri importanti aspetti in modo appropriato.

Il calcolo delle probabilità per un numero casuale X normale risulta molto facilitato se si considera

il medesimo numero casuale X standardizzato. L’operazione di standardizzazione consiste nel

2,

µ σ

sottrarre da X la media e dividendo la differenza per la radice quadrata della varianza che

32

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci σ

viene indicata, con ovvia notazione, ed è chiamata scarto quadratico medio, o scarto standard o

deviazione standard. La notazione usuale per il numero casuale standardizzato è Z, e si ha

Z = (X−µ)/σ.

Si può dimostrare che la media di Z è uguale a 0, e la varianza di Z è uguale a 1. Per ricalcolare il

2

µ σ

numero casuale X con media e varianza si adopera la trasformazione inversa

µ + σZ.

X =

L’operazione di standardizzazione è conveniente soprattutto in quanto consente di calcolare la

probabilità che un qualunque numero casuale X sia compreso in un determinato intervallo

utilizzando la tavola della distribuzione normale standardizzata, nella quale sono tabulati i valori di

probabilità corrispondenti agli intervalli più comunemente usati nelle situazioni pratiche. Nella

Tabella 3 sono riportate le probabilità che un numero casuale Z normale standardizzato sia

compreso in certi intervalli. Nella prima colonna sono riportate le probabilità che Z sia al di fuori

α

del corrispondente intervallo. Queste probabilità si indicano generalmente con la lettera e sono

spesso assunte come valutazione della probabilità di errore, intendendo con questo termine la non

conformità allo standard rappresentato dall’intervallo corrispondente.

Tabella 3. Alcune probabilità per la normale standardizzata Z

z P(Z < z) z P(–z < Z < z)

α

1 -

0,5 0 0,5 0,68 0,5

0,9 1,29 0,9 1,65 0,9

0,95 1,65 0,95 1,96 0,95

0,99 2,33 0,99 2,58 0,99

0,999 3 0,999 3,3 0,999

Figura 3. Distribuzione normale con media 0 e varianza 1

Figura 4. Distribuzione normale con media 10 e varianza 10 33

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

Esempio 4. Si immagini di produrre barre di acciaio di lunghezza conforme ad uno standard di 1 m,

con scostamento massimo di 1 cm. Questo significa che una barra di acciaio lunga, poniamo,

1,005 m è accettabile, mentre non lo è una barra di acciaio lunga 0,9. Supponiamo di valutare

l’acquisto di un macchinario in grado di produrre barre di acciaio della lunghezza media richiesta

di 1 m con varianza 0,000016. Quale percentuale di barre di acciaio non conformi allo standard

richiesto potremmo attenderci se acquistassimo e utilizzassimo questo macchinario? Il problema si

pone nei termini di valutare la probabilità che X sia compreso fra 0,99 e 1,01. Poiché X ha media 1

e varianza 0,004, il numero casuale standardizzato è

Z = (X–1)/0,004 = 250(X–1)

L’intervallo che definisce lo standard, riportato in termini del numero casuale Z, è

[250(0,99–1), 250(1,01–1)]=( –2,5, 2,5)

e, approssimativamente, dalla Tabella 3 si desume che la probabilità che il numero casuale Z sia

compreso tra –2,5 e 2,5 è uguale a 0,99 (quest’ultima probabilità corrisponde, per l’esattezza,

all’intervallo (–2,58, 2,58)). In definitiva, possiamo aspettarci che le barre di acciaio non conformi

allo standard siano da valutare poco più dell’1% delle barre prodotte. Questo calcolo non risolve,

naturalmente, il problema di decisione, che spetta al nostro personale giudizio, ma fornisce una

informazione importante che è di grande aiuto nel prendere la decisione finale, in quanto si può

rapportare immediatamente, ad esempio, alle perdite dovute alle barre prodotte non conformi allo

standard.

3.6. il campionamento

E’ spesso conveniente, soprattutto per economia di tempo e di costo, effettuare la rilevazione di uno

o più caratteri su un collettivo che rappresenta soltanto una parte della popolazione totale. Il

collettivo deve essere scelto in modo da risultare “rappresentativo” della popolazione, ne deve, cioè

riprodurre, con buona approssimazione, le principali caratteristiche. Esistono diverse tecniche per

fissare il numero e le unità statistiche che compongono il campione. Distinguiamo anzitutto due

classi di campioni. I campioni probabilistici e i campioni non probabilistici.

Tra i campioni probabilistici annoveriamo i seguenti:

Campione casuale semplice

• : tutte le unità statistiche hanno uguale probabilità di essere

selezionate

Campione stratificato

• : la popolazione viene suddivisa in gruppi (gli “strati”) secondo un certo

altro carattere, diverso da quello che è oggetto della rilevazione. All’interno di ciascuno strato

la selezione delle unità statistiche segue lo schema del campionamento casuale semplice

Campione a più stadi

• : vengono scelte successivamente unità di diverso “livello”; ad esempio,

comuni, province, regioni. In ciascuno stadio viene usato il campionamento casuale.

Tra i tipi di campionamento non probabilistici citiamo:

campionamento ragionato

• : le unità statistiche sono selezionate in modo da risultare simili,

il

per alcuni caratteri strutturali, alla popolazione da cui sono tratte

campionamento per “quote”

• : la numerosità del campione e le caratteristiche dei

il

sottogruppi sono fissati in anticipo, ma la scelta delle unità statistiche da intervistare è lasciata,

nel rispetto delle quote, alla discrezionalità degli intervistatori

campionamento a valanga

• il : si usa per popolazioni “rare”. Viene scelto un gruppo iniziale di

persone, dalle quali poi ottenere nomi e indirizzi di altre unità appartenenti alla stessa

popolazione

Per l’elaborazione e l’analisi dei dati provenienti da rilevazioni, di uno o più caratteri, sulle unità

statistiche di campioni probabilistici, vengono adoperati i metodi dell’inferenza statistica. I metodi

dell’inferenza statistica consentono di calcolare il grado di attendibilità dei risultati dell’indagine nei

confronti della popolazione da cui è stato selezionato il campione. 34

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci Capitolo 4

medie e variabilita'

4.1. Indici medi, di posizione e di dimensione

Per un particolare carattere di una data popolazione, una volta scelta una appropriata scala di

misurazione, ha interesse valutare un qualche indicatore di sintesi che fornisca una prima

rappresentazione del fenomeno, in termini qualitativi o quantitativi.

Qualunque sia la scala di misurazione per un carattere, si può riportare quale sia la modalità rilevata

con maggiore frequenza, cioè sul maggior numero di elementi della popolazione. Questo indice si

moda

chiama . Ad esempio, in un condominio di 20 famiglie, supponiamo che il carattere X:

numero di figli per famiglia, sia rilevato secondo le seguenti modalità

X: numero di figli 0 1 2 3 4

frequenza: numero di famiglie 2 7 6 3 2

La moda è 1 figlio per famiglia, in quanto 1 è la modalità rilevata sul maggior numero di famiglie, 7

sulle 20 considerate.

Per un carattere misurabile su scala (almeno) ordinale, è possibile calcolare un indice di posizione

che tenga conto dell'ordinamento delle modalità. In questo senso, l'indice di posizione più noto è la

mediana , definito come il valore tale che su metà degli elementi della popolazione è rilevata una

modalità inferiore o uguale, e sull'altra metà una modalità superiore o uguale. Nell'esempio, la

mediana è 2 figli per famiglia, in quanto metà delle famiglie ha 2 figli o meno, e l'altra metà 2 o più

figli.

Se il carattere è misurato su scala intervallare o proporzionale, è utile calcolare un valore che

definisca l’ordine di grandezza delle modalità rilevate. Si chiamano indici di dimensione, per un

dato carattere quantitativo in una data popolazione, i valori che rappresentano una media delle

modalità rilevate.

4.2. La media aritmetica

Il termine media si può intendere in senso generale, ovvero può essere adoperato per indicare un

particolare indice di dimensione, definito, solo per un dato carattere quantitativo X, con la formula

+ +...+ +...+ + +...+ +...+

M(X) = (x n x n x n x n ) / (n n n n ),

1 1 2 2 i i K K 1 2 i K

dove con x , x ,..., x ,…, x si indicano le differenti modalità rilevate e con n il numero di elementi

1 2 i K i

della popolazione sui quali si è rilevata la medesima modalità x , i = 1,…,K. Si intende che gli

i

elementi della popolazione siano

+ +...+ +...+

N = n n n n

1 2 i K

e che K sia il numero delle modalità che il carattere X assume nella popolazione. E’ di uso comune

media aritmetica

adoperare il termine , o semplicemente media, per designare l’indice di

dimensione M(X). La formula che definisce M(X) si può specificare in modo più compatto usando

Σ

l’operatore sommatoria nel modo seguente

K

M(X) = x n / N

i i

i=

1

dove x e n , i = 1,…,K, hanno il medesimo significato già specificato. Le due formulazioni sono in

i i µ

realtà la medesima formula. Spesso per indicare M(X) si usa il simbolo per intendere la media del

carattere relativa all’insieme degli elementi nella popolazione. 35

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

µ

La media può essere calcolata solo effettuando una rilevazione completa del carattere X

sull’intera popolazione. Questa operazione può richiedere un onere non indifferente dal punto di

vista sia organizzativo che finanziario, quando si tratti di una popolazione numerosa ovvero la

rilevazione implichi l’uso di particolari strumenti di misurazione. Nei censimenti della popolazione,

ad esempio, la rilevazione è effettuata sul totale delle persone presenti nel territorio nazionale, per

cui è possibile conoscere con precisione quale sia la media di caratteri come l’età o il tempo

impiegato nello spostamento da casa al lavoro.

4.3. La media campionaria: stima della media di un

carattere

Se non viene effettuata la rilevazione totale, tuttavia, occorre stimare la media del carattere nella

popolazione tramite il calcolo di un indice di dimensione riferito non all’intera popolazione ma ad

una parte di essa, cioè ad un campione. Nel caso della media, l’indice che si usa per la stima è

definito dalla medesima formula della media (incognita) della popolazione. Si calcola, cioè, la

media delle modalità del carattere rilevate sugli elementi del campione, ovvero la media

campionaria . In formula

K

∑ + +...+ +...+

x = x n / (n n n n )

i i 1 2 i K

i=

1

dove però si ha, in questo caso,

+ +...+ +...+

n = n n n n

1 2 i K <

dove n è il numero di elementi del campione e risulta n N, cioè il numero di elementi del

campione è inferiore al numero di elementi della popolazione. Si noti che operando il

campionamento con ripetizione, cioè ammettendo che si possa scegliere più volte uno stesso

oggetto nella popolazione per formare il campione, può aversi un campione più numeroso della

popolazione. La motivazione alla base del campionamento, tuttavia, implica che si debba scegliere

n non solo più piccolo di N, ma molto più piccolo di N, cioè, in formula

<<

n N

Nel caso in cui la popolazione sia composta da un numero infinito di elementi, il campione deve

però includere un numero di elementi finito, e la disuguaglianza resta verificata in modo ovvio.

Una volta scelto il campione e calcolata la media campionaria, quest’ultimo valore si assume valido

µ

in sostituzione della media incognita del carattere nell’intera popolazione. Diciamo che la media

campionaria è una stima della media del carattere nella popolazione e poniamo

x

=

µ̂

La media campionaria gode di alcune proprietà che, pur essendo valide nel caso di campionamento

casuale, la rendono generalmente preferibile, nelle applicazioni correnti, rispetto ad altre possibili

stime della media. Considerata come numero casuale, cioè prima che la rilevazione sia effettuata, la

µ.

media campionaria si indica con il simbolo X e si considera uno stimatore di La media

µ.

campionaria calcolata è invece, come abbiamo visto, un numero x ed è la stima di

µ̂

Le proprietà e le relative dimostrazioni si riferiscono allo stimatore. Se ne può comunque dare una

definizione molto generale, anche se non rigorosa, come segue:

Consistenza

a) . All’aumentare della numerosità del campione, aumenta la probabilità che lo

µ ε

stimatore X differisca dalla media meno di una quantità fissata arbitrariamente.

Non distorsione µ.

b) . La media dello stimatore X è uguale a

Efficienza µ,

c) . Tra gli stimatori non distorti di X ha variabilità minima. 36

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

Esempio 1

. Si immagini di voler calcolare il tempo medio di attesa in un ufficio postale per i servizi

erogati da un determinato sportello. Non è evidentemente possibile rilevare tutti i tempi di servizio

relativi allo sportello, non solo per motivi di tempo e costo, ma anche perché non sono disponibili

i tempi di servizio futuri, che pure fanno parte della popolazione. Il campione può essere scelto

casualmente, abbastanza numeroso in modo da tenere conto esaurientemente delle diverse fasce

orarie e dei diversi giorni della settimana. La proprietà di consistenza, inoltre, incoraggia la scelta

di un campione di numerosità elevata, compatibilmente con l’impegno previsto. Può essere

conveniente, inoltre, raggruppare i tempi di servizio rilevati in classi, in modo da ridurre

l’impegno di calcolo e permettere una rappresentazione più leggibile della rilevazione effettuata.

Ad ogni classe si può associare, ammettendo una certa approssimazione, la semisomma dei tempi

minimo e massimo della classe. Ad esempio, se la misurazione è condotta in minuti, il risultato

della rilevazione sia il seguente

classe 0-2 2-8 8-12 12-28 > 28

tempo 1 5 10 20 50

frequenza 43 129 240 61 9

La media campionaria si calcola

x = 9,87 = 4758/482 = (1×43+5×129+10×240+20×61+50×9) / (43+129+240+61+9)

per cui la stima della media dei tempi di servizio è µ̂ = 9,87 minuti.

4.4. Indici di variabilita'

Sia X un carattere quantitativo, misurato, cioè su scala intervallare o proporzionale. Si immagini di

rilevare le modalità di X sugli elementi di due differenti popolazioni, e di confrontare i risultati. Una

prima valutazione sintetica è fornita usualmente dal calcolo delle medie di X nelle due popolazioni.

Il confronto delle medie certamente è in grado di dare una idea della diversità o somiglianza delle

due popolazioni. Ad esempio, distinguendo, in una stessa popolazione umana, le stature dei bambini

da quelle degli adulti, le prime avranno una media notevolmente inferiore rispetto alle seconde. Il

solo esame delle medie porta, in un caso del genere, alla conclusione che i due collettivi, rispetto al

carattere statura, corrispondono a popolazioni con caratteristiche decisamente differenti tra loro.

Può tuttavia accadere che le medie calcolate per due differenti popolazioni, relativamente ad un

medesimo carattere X, siano uguali o molto vicine tra loro, e malgrado questo ci siano, per altri

aspetti, delle differenze non trascurabili. Ad esempio, si consideri il numero di auto X per famiglia

rilevato in due condomini, A e B, nei quali, per semplificare, si suppone abitino il medesimo

numero di famiglie. I dati sono riportati come segue

Numero di auto per famiglia Condominio A Condominio B

Famiglia 1 2 4

Famiglia 2 2 0

Famiglia 3 2 3

Famiglia 4 2 1

Media auto per famiglia 2 2

E’ evidente che, malgrado le medie risultino uguali, il carattere X non varia fra le famiglie del

condominio A, mentre, nel condominio B, vi sono forti differenze per quanto riguarda le modalità

del carattere. Questa circostanza si esprime dicendo che il carattere X ha maggiore variabilità nella

popolazione B che nella popolazione A. Per distinguere le due popolazioni riguardo al carattere X,

quindi, accanto alla media è opportuno considerare una misura della variabilità.

4.5. La varianza

L’indice sintetico più frequentemente adoperato per dare una misura delle differenze fra le modalità

varianza

di un carattere quantitativo X, rilevate sugli elementi di una popolazione, è la , la cui

37

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

formula si scrive k

∑ µ)2

− + +...+ +...+

var(X) = (x n / (n n n n )

i i 1 2 i K

=

i 1

e n , i = 1,...,K, rappresentano le modalità e le frequenze rispettivamente. Se non ci sono

dove x i i

equivoci riguardo quale carattere si stia considerando, si usa, più brevemente, il simbolo

2

σ = var(X)

Se N è la numerosità della popolazione e n quella del campione, si avrà

+ +...+ +...+

N = n n n n se il carattere è stato rilevato sull’intera popolazione

1 2 i K

oppure + +...+ +...+

n n n se il carattere è stato rilevato su un campione

n = n 1 2 i K

rispettivamente. Il numeratore nella formula della varianza si chiama devianza e, per indicarlo, si

usa generalmente il simbolo dev(X).

Si può dimostrare che la varianza di un carattere X gode delle seguenti proprietà:

a) var(X) è maggiore o uguale a zero

b) var(X) = 0 se e solo se le modalità rilevate sono tutte uguali fra loro

µ

c) se al posto della media si sostituisce un qualsiasi altro valore, la formula fornisce un numero

più grande della varianza

d) la varianza è un valore medio, ed è quindi consentito confrontare le varianze, di un medesimo

carattere, di popolazioni di diversa numerosità

e) l’unità di misura della varianza è il quadrato dell’unità di misura del carattere.

Talvolta è conveniente disporre di un indice di variabilità che si esprima nella medesima unità di

misura del carattere. L’accorgimento più naturale consiste nel calcolare la radice quadrata della

varianza. Si ottiene un indice sintetico che prende il nome di scarto quadratico medio, spesso anche

σ.

chiamato scarto standard o deviazione standard, e si designa con il simbolo In formula

σ = var( X )

Lo scarto quadratico medio gode delle stesse proprietà della varianza, eccetto che la e) è sostituita

dalla seguente proprietà:

e’) lo scarto quadratico medio è espresso nella medesima unità di misura del carattere. µ

Nella formula della varianza, riferita ad un campione, abbiamo considerato nota la media della

popolazione. In questo caso, lo stimatore corrispondente è consistente, non distorto ed efficiente.

Tuttavia spesso la media della popolazione è incognita, e occorre utilizzare al suo posto una stima,

generalmente µ̂ . Lo stimatore corrispondente, chiamato, analogamente che nel caso della media

varianza campionaria

calcolata sul campione, , in questo caso è

K

S2 )2

= (Xi X n / n

i

i=

1 2.

σ

il quale, pur essendo consistente, è tuttavia distorto, cioè la sua media non coincide con

S2

Neppure, quindi, consideriamo uno stimatore efficiente, inteso nel senso che abbiamo

specificato e cioè limitato agli stimatori non distorti, proprio perché esso è invece distorto. Poiché si

S2

può dimostrare che il valor medio di è

n 1

M(S2) 2

σ

= ,

n 38

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

lo stimatore k

∑ )2

2 − −

σ̂ = (Xi X n / (n 1)

i

=

i 1

è consistente, non distorto ed efficiente.

Esempio 2

. Si consideri il carattere X definito come il tempo impiegato per rispondere ad un

questionario di valutazione dell’apprendimento di un determinato insegnamento. Si disponga di

una prova già effettuata, sostenuta da 20 candidati, dalla quale sono risultati i punteggi seguenti,

espressi in trentesimi:

21; 29; 21; 22; 30; 25; 26; 25; 22; 22; 23; 27; 28; 24; 22; 21; 22; 24; 24; 22.

Le modalità rilevate e le rispettive frequenze sono le seguenti

Xi 21 22 23 24 25 26 27 28 29 30

ni 3 6 1 3 2 1 1 1 1 1

Consideriamo i dati riportati come relativi ad un campione rappresentativo delle prove del

medesimo tipo e con le medesime caratteristiche. La stima della media è la media campionaria

x = 24 = 480/20 = (21×3+22×6+23+24×3+25×2+26+27+28+29+30) / 20

Si calcolano quindi gli scarti dalla media

0 1 2 3 4 5 6

− −3 −2 −1

xi x

E i loro quadrati, restando sempre immutate le frequenze per le rispettive modalità, sono

)2 9 4 1 0 1 4 9 16 25 36

(xi x

ni 3 6 1 3 2 1 1 1 1 1

La formula per la varianza campionaria fornisce quindi

2

σ̂ = 7,58 = 144/19 = (9×3+4×6+1+1×2+4+9+16+25+36) / (20−1).

4.6. Intervalli di confidenza

Le affermazioni riguardo la stima di un parametro raramente sono esatte, ed è utile, quindi, poter

formulare affermazioni di carattere probabilistico sull'attendibilità che un intervallo di valori

θ

includa la vera determinazione dell’indice di sintesi incognito che ci interessa riguardo un

intervallo di confidenza

carattere X relativo ad una certa popolazione. Si dice un intervallo di

θ,

valori per il parametro corredato di una probabilità (spesso 0,95 oppure 0,99). L'affermazione che

è formulata viene, quindi, ad assumere il seguente significato: al variare di tutti i possibili campioni,

il 95% (o il 99%) di essi portano a calcolare un intervallo che contiene il vero valore del parametro

θ. statistica appropriata, dove, con

Per costruire intervalli di confidenza è necessaria la scelta di una

questo termine, si intende una appropriata funzione matematica che abbia come argomento

esclusivamente le modalità rilevate, o osservazioni. Ci poniamo qui nell'ambito dell'inferenza detta

"parametrica": si formula un'ipotesi circa la distribuzione di probabilità del carattere nella

popolazione. Si assume, quindi, che il carattere di interesse sia distribuito secondo una legge di

statistica

probabilità nota a meno di uno (o più) parametri. La distribuzione di probabilità della si

θ. θ

desume da quella della popolazione, e risulta nota a meno del parametro Ad esempio, sia la

2 statistica

σ

µ

media di una popolazione normale la cui varianza sia nota e pari a 1. Come

assumiamo la media campionaria X . Prima che la rilevazione sia effettuata, a ciascuna unità

statistica non corrisponde, in realtà, un'osservazione, ma una variabile casuale che ha la medesima

39

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci statistica

distribuzione del carattere X nella popolazione. La X è quindi anch'essa una variabile

casuale e si può dimostrare che

• µ, µ

la media di X è uguale a in quanto X è stimatore non distorto di

2

• σ

la varianza di X è un n-esimo della varianza della popolazione, cioè, nel nostro esempio,

1/n

E' possibile pertanto definire la variabile casuale standardizzata

− µ)

Z = ( X / (1 / n )

Dalla Tabella 3 del capitolo 3, si ha, approssimativamente

≤ ≤

P(−2 Z 2) = 0,95

L'evento del quale è indicata la probabilità è espresso tramite una disuguaglianza che si può

µ,

esplicitare rispetto a dal momento che

≤ ⇒ − µ) ≤ ⇒ µ ≥ −

Z 2 ( X / (1 / n ) 2 X 2 / n

Quindi si può scrivere

− ≤ µ ≤ +

P( X 2 / n X 2 / n ) = 0,95

− +

Ne consegue che ( X 2 / n , X 2 / n ) è, una volta che sia stato determinato x , cioè

µ

l'effettivo valore numerico di X sullo specifico campione osservato, l'intervallo di confidenza per

al livello di confidenza del 95%.

L’esempio 4 considerato nel paragrafo dedicato alla distribuzione normale del capitolo 2 illustra, in

effetti, la determinazione di un intervallo di confidenza per la media.

Supponiamo che si sia osservato un campione di n = 10 pneumatici di un determinato tipo, e si

siano rilevate le altezze del battistrada in mm come segue:

8,2 10 10,5 9,4 9,7 10,2 9,1 8,9 9,5 9,9

2.

σ

Si assuma nota e pari a 0,25 la varianza

La media campionaria è x = 9,54. Applicando la formula per l’intervallo di confidenza al livello

95% si ottiene (9,13; 9,95). Questo intervallo contiene il vero valore della media della popolazione

(cioè di tutti i pneumatici di quel tipo) con probabilità 0,95.

Facciamo ancora riferimento all'esempio precedente, ma supponiamo che la varianza non sia nota.

statistica

Si ricorre allora ad un altro tipo di , la cui distribuzione è nota, detta "t di Student". Si può

statistica 2

− µ) −

dimostrare che la n ( X / σ̂ è distribuita secondo una "t di Student" con (n 1)

statistica

gradi di libertà. E' indispensabile ricorrere a questa nuova in quanto, non essendo nota la

2

varianza, questa viene stimata per mezzo della varianza campionaria σ̂ . L'intervallo di confidenza

2 2

− +

diventa ( X t σ̂ / n , X t σ̂ / n ), dove ora t va determinato in base alla distribuzione "t di

Student".

Proseguendo l'esame dell'esempio dello studio sul battistrada dei pneumatici, la varianza

campionaria, che usiamo al posto della varianza incognita del carattere nella popolazione, si può

calcolare pari a 0,2116. Essendo, inoltre, n = 10, per determinare t occorre fare riferimento alla

− α

distribuzione "t di Student" con (n 1) = 9 gradi di libertà. Al livello di significatività = 0,05

(livello di confidenza 0,95) si ha t = 2,26 (rispetto al valore approssimativamente 2 per la

α

distribuzione normale) mentre al livello di significatività = 0,01 (livello di confidenza 0,99) si ha

t = 3,25 (rispetto al valore 2,58 per la distribuzione normale). Ad esempio, al livello di confidenza

del 95%, si può calcolare l'intervallo di confidenza (9,21; 9,87). L'intervallo è più ampio, in accordo

con la circostanza che disponiamo di un'informazione più limitata riguardo il carattere di interesse.

40

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

La formula della densità di probabilità della "t di Student" è la seguente:

−(g+1)/2

2/g)

f(x)=c(1+x

dove c è una costante tale che l'integrale di f(x) è uguale ad 1, e g rappresenta i gradi di libertà, cioè,

come si è detto, il numero di elementi del campione diminuito di 1.

Nelle figure seguenti sono riportati i grafici delle funzioni di densità di probabilità delle

distribuzione "t di Student" con 1 e 10 gradi di libertà. A titolo di esempio, inoltre, nella Tabella 1

sono riportati i valori di t in corrispondenza dei quali la probabilità che un numero casuale,

distribuito secondo una "t di Student", assuma un valore più piccolo di ciascuno di essi è uguale a

1−α = 1−0,05 = 0,95, oppure a 1−α = 1−0,01 = 0,99. Allo stesso modo sono riportati i valori degli

estremi di un intervallo simmetrico intorno allo zero cui corrisponda probabilità 0,05 oppure 0,01. I

valori variano con i gradi di libertà: sono considerati i gradi di libertà 1,5, 10, 20 e 40. E' evidente

che, quanto più aumentano i gradi di libertà, tanto più si hanno valori vicini a quelli relativi ad una

distribuzione normale standardizzata. In pratica, non si hanno differenze apprezzabili tra la

distribuzione della “t di Student” e la distribuzione della normale standardizzata se i gradi di libertà

superano il centinaio.

Figura 1. Distribuzione "t di Student" con 1 grado di libertà

Figura 2. Distribuzione "t di Student" con 10 gradi di libertà

α α

Tabella 1. Alcuni valori della distribuzione t di Student in corrispondenza di = 0,05 e = 0,01

gradi di libertà t : P(T < t) = 0,95 t : P(-t < T < t) = 0,95 t : P(T < t) = 0,99 t : P(-t < T < t)=0,99

1 6,31 12,71 31,82 63,66

5 2,01 2,57 3,36 4,03

10 1,81 2,23 2,76 3,17

20 1,72 2,09 2,53 2,84

40 1,68 2,02 2,42 2,70

>120 1,65 1,96 2,33 2,58 41

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

4.7. I test delle ipotesi

test

Un consiste nella scelta tra due "ipotesi" contrapposte relative al valore di un parametro

θ

incognito della popolazione, dove la scelta è basata su un campione estratto dalla popolazione

stessa. Si fissano due ipotesi, incompatibili tra loro, che indichiamo H (ipotesi “nulla”) e H

0 1

θ

(ipotesi “alternativa”). L'insieme dei valori possibili per il parametro viene suddiviso in due parti:

regione di rifiuto regione di accettazione

una e una . Si effettua la scelta sulla base del valore di

statistica statistica

una opportuna . Se il valore calcolato della cade nella regione di rifiuto, si

statistica

respinge H a favore di H . Se, viceversa, il valore della non resta compreso nella regione

0 1

di rifiuto, si accetta H .

0

La procedura del test delle ipotesi è soggetta a due tipi di errore

errore di prima specie

• : viene respinta H , mentre H è vera

0 0

errore di seconda specie

• : H viene accettata, ma in realtà H è falsa

0 0

Dal momento che non è possibile rendere minimi simultaneamente i due tipi di errore, si fissa la

α,

probabilità dell'errore di prima specie ad un livello generalmente, piccolo, che si chiama

"ampiezza" del test. Si cerca, quindi, di rendere minimo l’errore di seconda specie (test più potente

α).

di ampiezza 2

θ µ σ

Ad esempio, sia ancora = la media di una popolazione normale la cui varianza sia nota e pari

statistica

a 1. Come assumiamo la media campionaria, che indichiamo con X . Fissato un valore c,

le due ipotesi, nulla e alternativa, siano le seguenti:

θ

H : = c.

0 θ >

H : c.

1

La regione di rifiuto, data la specificazione delle ipotesi, deve includere valori elevati della media

α

campionaria. Si scelga come ampiezza del test = 0,05. Ammettendo che l’ipotesi nulla sia vera,

allora la media della popolazione e’ c. La variabile casuale

Z = ( X c) / (1 / n )

ha, pertanto, distribuzione normale standardizzata. In base alla Tabella 1, risulta

>

P(Z 1,65) = 0,05 X la disuguaglianza in

da cui, sostituendo a Z la sua espressione precedente e risolvendo rispetto a

parentesi, si ottiene

> +

P( X c 1,65 / n ) = 0,05. > +

In definitiva, se respingiamo H quando X c 1,65 / n , abbiamo, così come richiesto dal test,

0

una probabilità pari a 0,05 di incorrere in un errore di prima specie. La regola di decisione è quindi

la seguente:

• > +

se X c 1,65 / n , si respinge H a favore di H

0 1

• ≤ +

se X c 1,65 / n , si accetta H

0

Esempio 3

. Riprendiamo in considerazione il campione di pneumatici e sottoponiamo a verifica

l'ipotesi H : “media del battistrada 10 mm”, contro l'ipotesi alternativa H : “la media del

0 1

α

battistrada è meno di 10 mm”, al livello di significatività = 0,05. Assumiamo la varianza nota

2 σ 2

σ = 0,25. La regione di rifiuto è X < c−1,65 / n . Sostituendo, nella formula, c = 10 mm,

σ 2 = = 0,5 mm e n = 10, si ottiene X <9,74. Dato che la media campionaria è x =9,54,

0, 25

l'ipotesi nulla H viene rifiutata.

0 42

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci Capitolo 5

rappresentazioni grafiche

Una tabella statistica contiene molte informazioni che è possibile cogliere solo con un’analisi

accurata. Queste stesse informazioni possono essere comprese in maniera intuitiva attraverso una

loro rappresentazione grafica.

rappresentazione grafica

Una quindi consiste in una trasformazione delle informazioni contenute

in una tabella unitaria o di frequenze in immagine grafica. Lo scopo di tale operazione consiste

nell’illustrare una distribuzione di frequenze o unitaria in funzione delle modalità, qualitative o

quantitative, di un carattere al fine di rendere più evidenti le caratteristiche distribuzionali di tale

carattere sul collettivo preso in esame. Tuttavia, pur presentando dei vantaggi rispetto alla

rappresentazione tabellare, la rappresentazione grafica è fonte di informazione meno ricca della

prima per cui nella maggior parte dei casi tabella e grafico associato sono uno complemento

dell’altra e quindi vanno utilizzati entrambi nella rappresentazione dei fenomeni oggetto di studio.

Esistono diversi modi di rappresentare graficamente la distribuzione di un carattere a seconda che

esso sia qualitativo o quantitativo: il tipo giusto di grafico dipende, quindi, dal tipo di dati che si

deve rappresentare!!

5.1. Rappresentazioni grafiche per distribuzioni semplici

Grafico a torta (o areale)

Si tratta di una rappresentazione grafica circolare adatta per la raffigurazione di distribuzioni

semplici di quantità o di frequenze di qualsiasi tipo di carattere, in particolare caratteri qualitativi

sconnessi o ordinati. Un grafico a torta rappresenta le categorie dei dati (le modalità del carattere

osservato) come parti di un cerchio o “fette di una torta”: la generica fetta, o settore circolare, della

torta corrisponde ad una ben precisa modalità del carattere ed è caratterizzata dall’angolo al suo

centro che deve essere proporzionale alla frequenza con cui si realizza la modalità ad esso associata

nel collettivo in esame. Poiché il cerchio comprende 360 gradi, l’ampiezza di ciascun settore

circolare (fetta) è ottenuta moltiplicando per 360 la frequenza (assoluta, relativa o percentuale) della

modalità corrispondente, che quindi risulta essere convertita in gradi.

I grafici a torta sono particolarmente utili quando si vuole rappresentare la composizione di un

aggregato (soprattutto in termini di valori relativi o percentuali) in quanto con questo tipo di grafico

si pone maggiormente in evidenza l’importanza relativa delle frequenze delle singole modalità

rispetto alla frequenza totale del carattere. Principalmente, quindi, i grafici a torta sono utilizzati per

la rappresentazione di dati espressi in forma di percentuali o proporzioni (distribuzioni di frequenze

percentuali o relative) quando il numero di modalità del carattere esaminato non è troppo elevato.

Esempio 1

. Si supponga di aver osservato il carattere qualitativo ordinato “classe dimensionale” sul

collettivo delle imprese della provincia di Rieti nell’anno 1996: il grafico a torta relativo alla

distribuzione di frequenze percentuali elaborata illustra la composizione del collettivo esaminato

rispetto al carattere osservato.

Tabella 1. Imprese per classe dimensionale nella provincia di Rieti nel 1996

Classe dimensionale Frequenze assolute Frequenze percentuali

1-2 addetti 6.604 80,41

3-9 addetti 1.426 17,36

oltre 10 addetti 183 2,23

Totale 8.213 100,00

Fonte: I , Censimento Intermedio dell’Industria e dei Servizi (C.I.I.S.), 1996

STAT 43

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

Imprese per classe dimensionale

2%

17%

classe 1-2 addetti

classe 3-9 addetti

classe oltre 10

addetti 81%

Fonte: I , Censimento Intermedio dell’Industria e dei Servizi (C.I.I.S.), 1996

STAT

Grafico a barre e a nastri

Si tratta di una rappresentazione grafica costituita da una successione di rettangoli verticali (barre) o

orizzontali (nastri) adatta per la raffigurazione di distribuzioni semplici di quantità o di frequenze di

caratteri qualitativi (mutabili ordinate o sconnesse). In questi grafici ogni modalità del carattere è

rappresentata da una barra o da un nastro la cui dimensione è proporzionale alla corrispondente

frequenza (assoluta, relativa o percentuale) o intensità.

grafici a barre

Nel caso di si ha una successione di rettangoli aventi tutti la stessa base ma altezze

differenti: ciascuna modalità è rappresentata da una barra la cui altezza è proporzionale alla

frequenza o alla quantità osservata per la modalità associata. In questo caso nel corrispondente

riferimento cartesiano l’asse delle ascisse rappresenta le modalità del carattere, mentre quello delle

ordinate le corrispondenti frequenze osservate. Poiché la successione delle barre da sinistra verso

destra può richiamare un implicito ordinamento delle modalità, questo grafico è particolarmente

adatto per la rappresentazione di mutabili ordinate.

grafici a nastro

, i rettangoli hanno tutti la stessa altezza ma basi differenti e sono

Nel caso di

collocati orizzontalmente: la base di ciascun nastro, associato ad una determinata modalità, è

proporzionale alla frequenza o quantità con cui quella stessa modalità è stata osservata. Nel

corrispondente riferimento cartesiano l’asse delle ascisse rappresenta le frequenze osservate, mentre

l’asse delle ordinate le modalità del carattere. Poiché la successione dei nastri non richiama alcun

ordinamento implicito, questo tipo di grafico è particolarmente adatto per la rappresentazione di

mutabili sconnesse.

In generale, considerato che nei grafici a barre o a nastri ciascuna barra o nastro rappresenta

modalità diverse di caratteri qualitativi, le barre o i nastri non devono mai toccarsi:

convenzionalmente la distanza tra di esse è sempre la stessa.

Se per uno stesso carattere si sono osservate due o più distribuzioni semplici relativamente a diversi

collettivi, è possibile mettere a confronto tali distribuzioni raffigurandole in un unico grafico: si

grafico a barre o a nastri multiplo

costruisce così un . In questi grafici, per ogni modalità del

carattere si hanno tante barre o nastri contigui quanti sono i collettivi considerati: ciascuna barra o

nastro ha una dimensione (rispettivamente altezza o base) proporzionale alla frequenza con cui la

modalità da esso rappresentata è stata osservata in ciascun collettivo.

Questo tipo di grafico consente di rappresentare contemporaneamente più distribuzioni semplici

dello stesso carattere mettendo a confronto per ciascuna modalità le diverse frequenze con cui tale

modalità è stata osservata nei differenti collettivi. 44

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

Esempio 2

. Si supponga di aver osservato il carattere qualitativo sconnesso “settore di attività

economica” sui 4 collettivi degli occupati della provincia di Rieti, della regione Lazio, del centro

Italia e dell’Italia nel suo complesso, nell’anno 2000. Il grafico a nastri relativo alla distribuzione

di frequenze percentuali delle imprese nella provincia di Rieti secondo il settore di attività

economica illustra l’articolazione del carattere osservato. E’ possibile confrontare la distribuzione

del medesimo carattere nei 4 collettivi considerati attraverso il grafico a barre multiplo.

Tabella 2. Occupati per settore di attività economica nella provincia di Rieti, nella regione Lazio,

nel centro Italia e in Italia nel suo complesso (anno 2000).

Rieti Lazio Centro Italia

n p n p n p n p

Settore di attività j j j j j j j j

economica

Agricoltura 4.259 7,7 61.062 3,2 153.751 3,6 1.119.939 5,3

Industria 11.674 21,2 381.062 19,9 1.210.506 28,5 6.766.928 32,1

Altre attività 39.239 71,7 1.474.073 76,9 2.890.296 67,9 13.192.918 62,6

Totale 55.172 100,0 1.916.197 100,0 4.254.553 100,0 21.079.785 100,0

Fonte: I , Indagine Trimestrale delle Forze Lavoro, 2000

STAT Occupati per Settore di Attività Economica nella provincia di Rieti

Grafico a nastri

Altre attività

attività economica Industria

di

Settore Agricoltura 0 10 20 30 40 50 60 70 80

Frequenze percentuali

Occupati per Settore di Attività Economica

Grafico a barre multiplo

80

percentuali 70

60

50

40

Frequenze 30

20

10

0 Agricoltura Industria Altre attività

Settore di attività economica

Rieti Lazio Centro Italia

Fonte: I , Indagine Trimestrale delle Forze Lavoro, 2000

STAT 45

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

Grafico a barre cumulate

Si tratta di una rappresentazioni grafica costituita da un rettangolo verticale (barra) suddiviso in

tante parti (rettangolini) quante sono le modalità del carattere osservato. Questi grafici sono adatti

per la rappresentazione di due o più distribuzioni semplici di quantità o di frequenze di caratteri

qualitativi (mutabili sconnesse o ordinate) osservati su collettivi differenti.

In questi grafici ogni modalità del carattere è rappresentata da una parte (un rettangolino) di

un’unica barra che rappresenta a sua volta il collettivo nel suo insieme. L’ampiezza della base della

barra è puramente convenzionale mentre la sua altezza è proporzionale all’ampiezza del collettivo,

nel caso in cui si rappresentano le frequenze assolute, oppure è proporzionale a 100, nel caso in cui

vengono considerate le frequenze percentuali. Ciascun rettangolino che compone tale barra avrà

un’altezza proporzionale alla frequenza (assoluta o percentuale) della modalità che rappresenta:

considerata la prima modalità, e quindi un rettangolino che la rappresenta con altezza proporzionale

alla corrispondente frequenza, sopra di esso si posiziona un altro rettangolino di altezza

proporzionale alla frequenza della successiva modalità considerata e da esso rappresentata, e così

via fino a ricomporre l’intero collettivo e il complesso delle modalità del carattere osservato.

Come i grafici a torta, i grafici a barre cumulate sono utili quando si vuole rappresentare la

composizione di un aggregato (soprattutto in termini di valori relativi o percentuali) in quanto con

questo tipo di grafico si pone in evidenza la composizione percentuale del collettivo in esame in

relazione al carattere osservato. Principalmente, inoltre, questi grafici, come i grafici a barre

multipli, sono utilizzati per mettere a confronto la differente composizione percentuale o relativa di

due o più differenti collettivi in relazione al medesimo carattere osservato su di essi: tuttavia in

alcuni casi con questi grafici la rappresentazione dei dati è meno efficace rispetto a quella dei

grafici a barre multipli.

Esempio 3

. Si consideri ancora una volta la tabella 2, il confronto tra la distribuzione del medesimo

carattere nei 4 collettivi considerati è possibile attraverso il grafico a barre cumulate.

Occupati per Settore di Attività Economica

Grafico a barre cumulate

100%

percentuali 80%

60%

Frequenze 40%

20%

0% Rieti Lazio Centro Italia

Agricoltura Industria Altra attività

Fonte: I , Indagine Trimestrale delle Forze Lavoro 2000

STAT

Istogramma di frequenza

Si tratta di un grafico composto da barre (rettangoli) non distanziate aventi basi in generale di

ampiezza differente e un’area proporzionale alla frequenza della modalità che rappresentano.

Questi grafici sono adatti per la rappresentazione di distribuzioni semplici di frequenza di caratteri

quantitativi continui suddivisi in classi. Ai fini della costruzione dell’istogramma le classi possono

46

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

avere la stessa ampiezza o ampiezza differente: i rettangoli dell’istogramma, associati ciascuno ad

una classe di modalità del carattere e cioè ad un intervallo di valori numerici, hanno una base di

ampiezza uguale all’ampiezza della classe e area proporzionale alla frequenza (assoluta, relativa o

percentuale) con cui quella classe di valori è stata osservata nel collettivo. Ne consegue che

l’altezza di ciascun rettangolo è pari alla quantità che si ottiene rapportando la frequenza (assoluta,

densità media di

relativa o percentuale) all’ampiezza della classe: questa quantità viene chiamata

frequenza . Il generico j-esimo rettangolo dell’istogramma corrispondente alla j-esima classe

( x , x ) di modalità numeriche del carattere è tale che

1

j j Densità media di frequenza

Frequenza assoluta Frequenza relativa Frequenza percentuale

a n f p

j j j j

n f p

j j j

x x

Base Altezza ( ) ( ) ( )

j j 1 − − −

x x x x x x

− − −

j j 1 j j 1 j j 1

Nel caso in cui le classi hanno tutte la stessa ampiezza, i rettangoli avranno stessa base ma altezze, e

quindi aree, differenti. Nel riferimento cartesiano l’asse delle ascisse rappresenta il carattere

osservato mentre quello delle ordinate rappresenta la densità media di frequenza.

L’informazione che si rappresenta attraverso un istogramma consiste nel fornire il numero o la

frequenza delle osservazioni che si trovano entro ciascun intervallo di valori numerici

rappresentanti le classi di modalità in cui è stato suddiviso il carattere.

E’ possibile confrontare le distribuzioni di frequenze di un medesimo carattere quantitativo

continuo osservato su differenti collettivi attraverso la costruzione dei relativi istogrammi: a tale

scopo è però necessario che la suddivisione in classi del carattere osservato sia la stessa in ciascuna

distribuzione e quindi in ciascun istogramma. Mettendo a confronto gli istogrammi così costruiti si

può avere immediatamente la percezione della differente distribuzione del carattere.

Osservazione: attenzione a non confondere un istogramma con un diagramma a barre. I due

grafici sembrano molto simili tra loro ma tra di essi esistono sostanziali differenze. Ecco le

caratteristiche distintive dei due grafici a confronto

Grafico a barre Istogramma

caratteri quantitativi continui suddivisi in classi

caratteri qualitativi ordinati ↔

barre distanziate tra loro barre non distanziate l’una dall’altra

uguale base delle barre barre non necessariamente aventi la stessa base

altezza delle barre proporzionale alla area delle barre proporzionale alla frequenza

frequenza della modalità da esse della classe di valori numerici da esse

rappresentata rappresentata

Esempio 4

. Si consideri la distribuzione della popolazione per classi di età nella provincia di Rieti

relativa all’anno 2000

Tabella 3. Popolazione per classi di età nella provincia di Rieti (anno 2000)

Classi di età n f p a d

j j j j j

(0, 14] 20.451 0,13 13,5 14 0,010

(14, 64] 97.793 0,65 64,7 50 0,013

64 e oltre 32.999 0,22 21,8 56 0,004

(64, 120]

Totale 151.243 1,00 100,0

Fonte: I , 2000

STAT 47

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

Istogramma della distribuzione di frequenze della popolazione

per classi di età nella provincia di Rieti (anno 2000)

D

ENSITÀ MEDIA

DI FREQUENZA

d 2

d 1 f 2

f 1

d 3 f 3

14 64 120 E ’

0 TA

Fonte: I , 2000

STAT

Diagramma in coordinate cartesiane ortogonali a canne d’organo

Si tratta di un grafico adatto alla rappresentazione di distribuzioni semplici di frequenze di caratteri

quantitativi discreti non raggruppati in classi. Nel riferimento cartesiano in corrispondenza di

ciascuna modalità numerica, rappresentata sull’asse delle ascisse, viene disegnato un segmento

verticale la cui altezza è proporzionale alla frequenza (assoluta, relativa o percentuale) con cui la

modalità corrispondente è stata osservata.

L’utilità di questi grafici è la stessa di quella degli istogrammi, di cui in certi versi ne rappresentano

una “esasperazione”: al rimpicciolirsi dell’ampiezza delle basi dell’istogramma, e cioè quando le

classi della distribuzione del carattere tendono ad assumere un unico valore numerico, i rettangoli

diventano segmenti verticali.

Esempio 5

. Si consideri la distribuzione delle famiglie italiane residenti secondo il numero di

componenti, tratta dal censimento della popolazione del 1991

Tabella 4. Famiglie italiane residenti secondo il numero di componenti.

Valori assoluti, relativi e percentuali. Censimento della Popolazione 1991.

Numero Componenti n f p

j j j

1 4.099 0,206 20,60

2 4.920 0,247 24,70

3 4.410 0,222 22,20

4 4.228 0,212 21,20

5 1.576 0,079 7,90

6 474 0,024 2,40

7 e più 198 0,099 0,99

Totale 19.905 1,000 100,00

Fonte: I , Censimento della Popolazione, 1991

STAT 48

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

Diagramma in coordinate cartesiane ortogonali a canne d’organo della distribuzione di

frequenze delle famiglie residenti italiane secondo il numero di componenti (Censimento 1991)

F

REQUENZA

RELATIVA

0,5 3 6 7

0 1 2 4 5 N

UMERO COMPONENTI

Fonte: I , Censimento della Popolazione, 1991

STAT

Box Plot

Si tratta di un grafico che consente di rappresentare la distribuzione di un carattere quantitativo

(discreto o continuo) mettendone in evidenza la sua variabilità: tale grafico, quindi, tiene conto

dello scarto quadratico medio o del range interquartile della distribuzione del carattere osservato.

Il box plot è caratterizzato da tre elementi:

1) una linea o un punto che individuano la posizione della media (aritmetica o mediana) della

distribuzione del carattere;

2) un rettangolo (box) la cui altezza rappresenta la variabilità (scarto quadratico medio o range

interquartile) dei valori prossimi alla media scelta (rispettivamente media aritmetica o

mediana);

3) due segmenti che partono dai lati maggiori del rettangolo e i cui estremi sono rappresentati

dai valori minimo e massimo della distribuzione.

Si possono costruire due differenti tipi di box plot a seconda della media, e del conseguente indice

di variabilità, che si sceglie.

Box Plot mediana Box Plot media aritmetica

con con

⇓ ⇓

1) media = mediana 1) media = media aritmetica (M)

2) altezza box = differenza interquartile 2) altezza box = 2 volte scarto quadratico medio (σ)

estremo sup. box = terzo quartile σ

estremo sup. box = M +

estremo inf. box = primo quartile σ

estremo inf. box = M -

3) estremi dei segmenti 3) estremi dei segmenti

superiore = valore max superiore = M + 1,96σ

inferiore = valore min inferiore = M - 1,96σ 49

Analisi dei Dati

Dispense a cura di R. Baragona e L. Bocci

Il Box Plot consente anche di individuare i valori anomali e i valori eccedenti della distribuzione del

carattere osservato.

Sono considerati valori anomali quei valori (modalità numeriche) della distribuzione per i quali si

verifica una delle due seguenti condizioni

λ

a) sono maggiori di LSR + (LSR - LIR)

x

λ

b) sono minori di LIR - (LSR - LIR)

x

Sono considerati valori eccedenti quei valori (modalità numeriche) della distribuzione per i quali si

verifica una delle due seguenti condizioni

c) sono maggiori di LSR + 2λ (LSR - LIR)

x

d) sono minori di LIR - 2λ (LSR - LIR)

x

Dove LSR è il Limite Superiore del Rettangolo (box), mentre LIR è il Limite Inferiore del

λ

Rettangolo (box), mentre è una costante positiva che ad esempio può essere uguale a 1,5. Per cui

nel mediana

• →

box plot con LSR = Q (terzo quartile) e LIR = Q (primo quartile)

3 1

media aritmetica

• → σ σ

box plot con LSR = Media aritmetica + e LIR = Media aritmetica -

Se vengono individuati eventuali valori anomali allora gli estremi superiore e inferiore dei segmenti

del Box Plot devono cambiare: essi diventano i due valori della distribuzione più vicini ai valori

anomali individuati.

Fasi per la costruzione di un Box Plot

1. Ordinare i dati

2. Calcolare la media e l’indice di variabilità associato

σ

a) media aritmetica e scarto quadratico medio

, terzo quartile Q , range interquartile come differenza tra Q e Q

b) mediana, primo quartile Q

1 3 3 1

3. Calcolare gli estremi del box σ

LIR = M -

Media aritmetica σ

LSR = M +

LIR = Q

⇒ 1

Mediana LSR = Q

3

4. Calcolare i limiti per i valori anomali σ σ) σ

x x x

Limite inferiore = M - – (1,5 2 = M – 4

Media aritmetica σ+ σ) σ

x x x

Limite superiore = M + (1,5 2 = M + 4

x

Limite inferiore = Q – (1,5 range interquartile)

⇒ 1

Mediana x

Limite superiore = Q + (1,5 range interquartile)

3

5. Calcolare i limiti per i valori eccedenti σ σ) σ

x x x x

Limite inferiore = M - – (2 1,5 2 = M – 7

Media aritmetica σ+ σ) σ

x x x x

Limite superiore = M + (2 1,5 2 = M + 7

x x

Limite inferiore = Q – (2 1,5 range interquartile)

⇒ 1

Mediana x x

Limite superiore = Q + (2 1,5 range interquartile)

3

6. Trovare la prima osservazione dentro i limiti (siano essi dei valori anomali o eccedenti)

7. Fare una lista dei valori esterni ai limiti dei punti 4 o 5 (lista degli outlier)

8. Disegnare il box plot tenendo conto di tutti gli elementi calcolati 50


PAGINE

95

PESO

1.15 MB

PUBBLICATO

+1 anno fa


DESCRIZIONE APPUNTO

Appunti completi di Analisi dei dati per l'esame del professor Baragona. Gli argomenti trattati sono i seguenti: introduzione all’Analisi dei Dati, la struttura dei dati, gli eventi e le probabilità, le medie e le variabilità, le rappresentazioni grafiche,l'analisi dell’associazione tra caratteri qualitativi, l'analisi multivariata: la correlazione e la regressione, i componenti principali.


DETTAGLI
Corso di laurea: Corso di laurea in scienze e tecnologie della comunicazione (POMEZIA, ROMA)
SSD:
A.A.: 2013-2014

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher valeria0186 di informazioni apprese con la frequenza delle lezioni di Analisi dei dati e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università La Sapienza - Uniroma1 o del prof Baragona Roberto.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Analisi dei dati

Analisi dei dati  - Esercizi
Esercitazione
Analisi dei dati - Prima parte
Appunto
Analisi dei dati - Seconda parte
Appunto
Analisi dei dati - Terza parte
Appunto