vuoi
o PayPal
tutte le volte che vuoi
LE FONTI DI DATI
I dati possono essere ottenuti da fonti esistenti o attraverso indagini e studi sperimentali disegnati per
rilevare nuovi dati.
LE FONTI ESISTENTI
I dati necessari per una particolare applicazione esistono già. Ad esempio, le società costruiscono e
conservano una serie di basi di dati sui dipendenti, sui clienti e sulle operazioni produttive e
commerciali. I dati sui salari, l’età e gli anni di esperienza dei dipendenti possono essere ottenuti dai
documenti interni sul personale.
Le organizzazioni specializzate nella rilevazione dei dati rendono disponibili quantità cospicue di dati
economici e aziendali. I dati sono disponibili anche presso diverse associazioni industriali e
istituzionali. Anche Internet è sempre più una fonte importante di dati e di informazioni statistiche.
Un’altra fonte importante è costituita dalle istituzioni governative.
GLI STUDI STATISTICI
Alcune volte i dati necessari per una particolare applicazione non sono disponibili presso le fonti
esistenti. In questi casi, i dati possono essere ottenuti conducendo uno studio statistico. Gli studi
statistici possono essere classificati come sperimentali o osservazionali.
In uno studio sperimentale, viene prima identificata una variabile di interesse. Poi vengono
identificate e controllate una o più variabili diverse in modo da ottenere dati su come queste variabili
influenzano la variabile di interesse. Un esempio può essere un esperimento per determinare in che
modo un nuovo farmaco influenza la pressione sanguigna (variabile di interesse).
Gli studi statistici non sperimentali, o osservazionali, non fanno alcun tentativo per controllare le
variabili di interesse. L’indagine è il tipo di studio osservazionale più comune.
GLI ERRORI NELL’ACQUISIZIONE DEI DATI
Bisogna essere consapevoli della possibilità che negli studi statistici vi siano errori nei dati. Un errore
nell’acquisizione dei dati si verifica quando il valore del dato ottenuto non è uguale al valore del dato
vero o effettivo che si otterrebbe con una procedura corretta. Tali errori si possono verificare in vari
modi. Per esempio, un intervistatore potrebbe commettere un errore di registrazione del dato, o la
persona che risponde a una domanda dell’intervista potrebbe fornire una risposta non corretta.
LA STATISTICA DESCRITTIVA
Molte delle informazioni statistiche consistono in dati sintetizzati e rappresentati in una forma che il
lettore possa comprendere facilmente. Tali sintesi dei dati, che possono essere in forma grafica,
numerica o in forma di tabelle, sono chiamate statistiche descrittive.
Oltre alle tabelle e ai grafici, per la sintesi dei dati, sono utilizzate anche le statistiche descrittive
numeriche. La statistica descrittiva numerica più comune è la media.
2
L’INFERENZA STATISTICA
Molte situazioni richiedono informazioni su un gruppo consistente di unità. Tuttavia i dati possono
essere rilevati solamente su una piccola frazione del gruppo. In uno studio, il gruppo più consistente di
unità è chiamato popolazione, e il gruppo più piccolo è chiamato campione.
Popolazione è l’insieme di tutte le unità di interesse;
Campione è un sottoinsieme della popolazione;
Il processo di conduzione di un’indagine per rilevare i dati dell’intera popolazione è chiamato
censimento, invece quello per rilevare i dati di un campione è chiamato indagine campionaria.
La statistica utilizza i dati di un campione per elaborare stime e saggiare ipotesi sulle caratteristiche di
una popolazione attraverso un processo chiamato inferenza statistica.
Quando gli statistici utilizzano un campione per stimare una caratteristica della popolazione di
interesse, generalmente forniscono un’indicazione sulla qualità, o precisione, associata alla stima.
cap.2 STATISTICA DESCRITTIVA: TABELLE E RAPPRESENTAZIONI GRAFICHE
DISTRIBUZIONE DI FREQUENZA
Una distribuzione di frequenza è una tabella di sintesi dei dati che mostra il numero (frequenza) di
unità in ciascuna di molte classi non sovrapposte.
FREQUENZA RELATIVA E FREQUENZA PERCENTUALE
La frequenza relativa di una classe equivale alla frazione o proporzione di elementi appartenenti ad una
classe. Per un insieme di dati con n osservazioni, la frequenza relativa di ciascuna classe può essere
determinata facendo la frequenza della classe/ n.
La frequenza percentuale di una classe è la frequenza relativa moltiplicata per 100.
Una distribuzione di frequenza relativa è una tabella di sintesi dei dati che mostra la frequenza
relativa per ciascuna classe. Una distribuzione di frequenza percentuale sintetizza la frequenza
percentuale dei dati per ciascuna classe.
In ogni distribuzione di frequenza la somma delle frequenze eguaglia sempre il numero complessivo di
osservazioni. In ogni distribuzione di frequenza relativa la somma delle frequenze relative eguaglia
sempre 1 e, in una distribuzione di frequenza percentuale, la somma delle percentuali eguaglia 100.
GRAFICI A BARRE E DIAGRAMMI A TORTA
Un grafico a barre, o diagramma a barre, è uno strumento grafico per la rappresentazione di dati
qualitativi sintetizzati in una distribuzione di frequenza, di frequenza relativa o di frequenza
percentuale. Su un asse del grafico, generalmente l’asse orizzontale, specifichiamo le etichette
utilizzate per le classi. Una scala della frequenza, della frequenza relativa o della frequenza percentuale
può essere utilizzata per l’altro asse del grafico.
Quando le barre sono disposte in ordine decrescente di altezza, da sinistra a destra con le cause più
frequenti che appaiono per prime, il grafico a barre è chiamato diagramma di Pareto.
Il diagramma a torta costituisce un altro strumento grafico per la rappresentazione delle distribuzioni
di frequenza relativa e di frequenza percentuale per dati qualitativi.
3
Per costruire un diagramma a torta disegniamo un cerchio che rappresenta la globalità delle
informazioni raccolte. Facciamo poi uso delle frequenze relative per ciascuna classe. Per calcolare
l’ampiezza di un settore del diagramma a torta, moltiplico la frequenza relativa di ciascuna etichetta per
360.
I valori numerici mostrati per ciascun settore possono essere frequenze assolute, relative o percentuali.
DISTRIBUZIONE DI FREQUENZA
Una distribuzione di frequenza è una tabella di sintesi dei dati che mostra il numero di unità in ciascuna
di un insieme di classi non sovrapposte. Questa definizione vale sia per i dati qualitativi che per quelli
quantitativi.
I tre passi necessari per definire le classi di una distribuzione di frequenza per dati quantitativi sono:
1. determinare il numero di classi non sovrapposte;
2. determinare l’ampiezza di ciascuna classe;
3. determinare i limiti della classe;
numero delle classi le classi sono formate specificando gli intervalli che saranno utilizzati per
raggruppare i dati. L’obiettivo è quello di utilizzare un numero sufficiente di classi tale da consentire,
da un lato, di mostrare la variabilità nei dati ma, dall’altro lato, di non avere classi che contengono
solamente poche unità.
ampiezza delle classi l’ampiezza dev’essere la stessa per tutte le classi. Per calcolare l’ampiezza
approssimata delle classi faccio: (valore dei dati più grande – valore dei dati più piccolo)/ numero di
classi.
limiti della classe devono essere scelti in modo tale che ciascuna unità dell’insieme dei dati
appartenga solo ad una classe. Il limite inferiore della classe identifica il più piccolo valore possibile
dei dati assegnato alla classe. Il limite superiore della classe invece indica il più grande valore possibile
dei dati assegnato alla classe.
punto medio della classe in una distribuzione di frequenza per dati quantitativi, il punto medio della
classe è il valore situato a metà tra il limite inferiore e il limite superiore.
DISTRIBUZIONE DI FREQUENZA RELATIVA E DI FREQUENZA PERCENTUALE
La frequenza relativa di una classe si calcola facendo: frequenza della classe/ n osservazioni.
La frequenza percentuale di una classe è la frequenza relativa moltiplicata per 100.
DIAGRAMMA A PUNTI
Il diagramma a punti è uno degli strumenti grafici più semplici per la sintesi dei dati. L’asse
orizzontale mostra l’intervallo dei dati. Ciascun valore dei dati è rappresentato da un punto collocato
sopra l’asse. I diagrammi a punti rappresentano i dati nel dettaglio e sono utili per confrontare le
distribuzioni dei dati relative a due o più variabili.
ISTOGRAMMA
Un istogramma si costruisce disponendo la variabile di interesse sull’asse orizzontale e la frequenza
assoluta, relativa o percentuale sull’asse verticale.
Uno degli utilizzi più importanti di un istogramma è quello di fornire informazioni sulla forma di una
distribuzione. 4
Un istogramma è definito asimmetrico a sinistra se la sua coda si estende maggiormente verso sinistra.
Questo istogramma è tipico per i risultati di un esame con nessun risultato sopra il 100%, molti dei
risultati sopra il 70% e solamente alcuni particolarmente bassi.
Un istogramma è definito asimmetrico a destra se la sua coda si estende maggiormente verso destra. I
dati provenienti da applicazioni economiche e aziendali portano spesso ad istogrammi che sono
asimmetrici a destra. Per esempio i dati sui prezzi delle case, i salari, i consumi e così via.
In un istogramma simmetrico la coda di sinistra rispecchia la forma della coda di destra. Gli istogrammi
per dati che provengono da contesti pratici non sono mai perfettamente simmetrici, anche se dati sui
punteggi dei test di ammissione all’università, sull’altezza e il peso delle persone danno luogo d
istogrammi che sono approssimativamente simmetrici.
DISTRIBUZIONI CUMULATE
La distribuzione di frequenza cumulata mostra il numero di unità che hanno valore inferiore o uguale
al limite superiore di ciascuna classe. La distribuzione di frequenza cumulata utilizza il numero,
l’ampiezza e i limiti delle classi usati per costruire la distribuzione di frequenza.
Una distribuzione di frequenza cumulata relativa mostra la proporzione, e una distribuzione di
frequenza cumulata percentuale mostra la percentuale, di unità di valore inferiore o uguale al limite
superiore di ciascuna classe.
OGIVA
Il grafico di una distribuzione cumulata, definito ogiva, mostra i valori dei dati sull’asse orizzontale e le
frequenze assolute cumulate, le frequenze relative cumulate o le frequenze percentuali cumulate
sull’asse verticale. L’ogiva è costruita disegnando un punto in corrispondenza della frequenza cumulata
di ciascuna classe. Per completare l’ogiva,