Cap. 1: I dati e la statistica
I dati
I dati sono i fatti e i numeri rilevati, analizzati e sintetizzati per la presentazione e l'interpretazione.
Unità, variabili e osservazioni
Le unità sono le entità su cui i dati sono rilevati. Una variabile (o carattere) è una caratteristica di interesse delle unità. L’insieme delle misure ottenute per una particolare unità è chiamato osservazione (o modalità). Il numero di osservazioni è sempre uguale al numero di unità.
Le scale di misura
La rilevazione dei dati deve fare riferimento a una delle seguenti scale di misura: nominale, ordinale, intervallare o di rapporto. La scala di misura determina l'ammontare di informazioni contenute nei dati e indica quali sono le sintesi dei dati e le analisi statistiche più appropriate.
Quando i dati per una variabile consistono in etichette, o nomi, utilizzate per identificare un attributo dell'unità, la scala di misura è chiamata scala nominale. Nei casi in cui la scala di misura è nominale, può essere utilizzato un codice numerico così come possono essere utilizzate etichette non numeriche.
La scala di misura di una variabile è chiamata scala ordinale se i dati esibiscono le proprietà dei dati nominali e l’ordinamento dei dati ha un significato. Ad esempio, i dati – eccellente, buono o scadente – sono etichette e hanno le proprietà dei dati nominali. Inoltre, possono essere ordinati rispetto alla qualità del servizio. La scala di misura è quindi ordinale. I dati ordinali possono anche essere registrati utilizzando un codice numerico.
La scala di misura di una variabile diventa una scala intervallare se i dati mostrano le proprietà dei dati ordinali e l’intervallo tra i valori viene espresso in un’unità di misura fissa. I dati intervallari sono sempre numerici. I punteggi ottenuti ad un test scolastico attitudinale sono un esempio di dati su scala intervallare. Infatti, possono essere ordinati dal risultato peggiore a quello migliore e le differenze tra i punteggi hanno un senso (lo studente X ha ottenuto tot. punti in più rispetto allo studente Y).
La scala di misura di una variabile è una scala di rapporto se i dati hanno tutte le proprietà dei dati intervallari e il rapporto tra due valori ha un senso. Variabili come la distanza, l’altezza, il peso e il tempo utilizzano la scala di misura di rapporto. Questa scala richiede che sia incluso il valore zero a indicare che per la variabile al punto zero non esiste niente. Per esempio, considerando il prezzo di un’automobile, un valore pari a zero del prezzo indicherebbe che l’automobile non ha prezzo ed è gratis.
I dati qualitativi e i dati quantitativi
I dati qualitativi includono etichette o nomi per identificare l’attributo di ciascuna unità. I dati qualitativi utilizzano la scala di misura nominale o la scala ordinale e possono essere numerici o non numerici. Sono spesso chiamati dati categorici.
I dati quantitativi richiedono valori numerici che indichino delle quantità. Si ottengono utilizzando la scala di misura intervallare o la scala di rapporto. Possono essere discreti o continui. Una variabile qualitativa è una variabile con dati qualitativi, e una variabile quantitativa è una variabile con dati quantitativi.
I dati cross-sezionali e le serie storiche
I dati cross-sezionali sono dati rilevati nel medesimo istante di tempo. Le serie storiche sono dati rilevati in diversi istanti di tempo. I grafici di serie storiche si trovano spesso nelle pubblicazioni che trattano di economia o di discipline aziendali.
Le fonti di dati
I dati possono essere ottenuti da fonti esistenti o attraverso indagini e studi sperimentali disegnati per rilevare nuovi dati.
Le fonti esistenti
I dati necessari per una particolare applicazione esistono già. Ad esempio, le società costruiscono e conservano una serie di basi di dati sui dipendenti, sui clienti e sulle operazioni produttive e commerciali. I dati sui salari, l’età e gli anni di esperienza dei dipendenti possono essere ottenuti dai documenti interni sul personale. Le organizzazioni specializzate nella rilevazione dei dati rendono disponibili quantità cospicue di dati economici e aziendali. I dati sono disponibili anche presso diverse associazioni industriali e istituzionali. Anche Internet è sempre più una fonte importante di dati e di informazioni statistiche. Un’altra fonte importante è costituita dalle istituzioni governative.
Gli studi statistici
Alcune volte i dati necessari per una particolare applicazione non sono disponibili presso le fonti esistenti. In questi casi, i dati possono essere ottenuti conducendo uno studio statistico. Gli studi statistici possono essere classificati come sperimentali o osservazionali.
In uno studio sperimentale, viene prima identificata una variabile di interesse. Poi vengono identificate e controllate una o più variabili diverse in modo da ottenere dati su come queste variabili influenzano la variabile di interesse. Un esempio può essere un esperimento per determinare in che modo un nuovo farmaco influenza la pressione sanguigna (variabile di interesse).
Gli studi statistici non sperimentali, o osservazionali, non fanno alcun tentativo per controllare le variabili di interesse. L’indagine è il tipo di studio osservazionale più comune.
Gli errori nell'acquisizione dei dati
Bisogna essere consapevoli della possibilità che negli studi statistici vi siano errori nei dati. Un errore nell’acquisizione dei dati si verifica quando il valore del dato ottenuto non è uguale al valore del dato vero o effettivo che si otterrebbe con una procedura corretta. Tali errori si possono verificare in vari modi. Per esempio, un intervistatore potrebbe commettere un errore di registrazione del dato, o la persona che risponde a una domanda dell’intervista potrebbe fornire una risposta non corretta.
La statistica descrittiva
Molte delle informazioni statistiche consistono in dati sintetizzati e rappresentati in una forma che il lettore possa comprendere facilmente. Tali sintesi dei dati, che possono essere in forma grafica, numerica o in forma di tabelle, sono chiamate statistiche descrittive. Oltre alle tabelle e ai grafici, per la sintesi dei dati, sono utilizzate anche le statistiche descrittive numeriche. La statistica descrittiva numerica più comune è la media.
L'inferenza statistica
Molte situazioni richiedono informazioni su un gruppo consistente di unità. Tuttavia i dati possono essere rilevati solamente su una piccola frazione del gruppo. In uno studio, il gruppo più consistente di unità è chiamato popolazione, e il gruppo più piccolo è chiamato campione.
- Popolazione è l’insieme di tutte le unità di interesse;
- Campione è un sottoinsieme della popolazione;
Il processo di conduzione di un’indagine per rilevare i dati dell’intera popolazione è chiamato censimento, invece quello per rilevare i dati di un campione è chiamato indagine campionaria. La statistica utilizza i dati di un campione per elaborare stime e saggiare ipotesi sulle caratteristiche di una popolazione attraverso un processo chiamato inferenza statistica. Quando gli statistici utilizzano un campione per stimare una caratteristica della popolazione di interesse, generalmente forniscono un’indicazione sulla qualità, o precisione, associata alla stima.
Cap. 2: Statistica descrittiva: tabelle e rappresentazioni grafiche
Distribuzione di frequenza
Una distribuzione di frequenza è una tabella di sintesi dei dati che mostra il numero (frequenza) di unità in ciascuna di molte classi non sovrapposte.
Frequenza relativa e frequenza percentuale
La frequenza relativa di una classe equivale alla frazione o proporzione di elementi appartenenti a una classe. Per un insieme di dati con n osservazioni, la frequenza relativa di ciascuna classe può essere determi...