Capitolo 2 – Disponibilità e produzione delle informazioni statistiche
Concetti generali
Nella sua attività l'impresa ha bisogno di reperire informazioni (dati), classificabili nel seguente modo:
- Provenienza:
- Dati interni (provenienti dall'impresa)
- Dati esterni (provenienti da soggetti terzi)
- Significatività:
- Dati primari (quasi esclusivamente esterni, commissionati per finalità specifiche: indagini presso esperti, focus group, studi sperimentali, indagini dirette con comunicazione, tecniche di osservazione)
- Dati secondari (esterni come i dati ISTAT ed interni come bilanci, contabilità dei costi e controllo qualità collaterali alla normale attività di impresa). Provengono dalle fonti statistiche, termine con il quale si può indicare un ente appartenente alla statistica ufficiale (Sistema Statistico Nazionale), l'indagine/rilevazione specifica o la pubblicazione/mezzo di diffusione dei dati
- Dati per analogia (casi di studio, simulazioni, previsioni)
C'è una distinzione (anche se spesso possono coincidere) fra i concetti di:
- Unità di rilevazione: le unità che compongono il campione, dalle quali si vuole ottenere informazioni sulle unità di analisi
- Unità di analisi (unità statistica): gli individui/entità sui quali vengono rilevate le singole informazioni
Le informazioni statistiche, i dati, si classificano in:
- Dato elementare (dato statistico): è una misurazione, un dato (valore/modalità), che si riferisce al singolo carattere osservato in una singola unità statistica appartenente ad una popolazione/campione
- Microdato (record): insieme dei dati elementari rilevati su di una singola unità di analisi (es. età, residenza, genere, ecc.)
- Macrodato (dato aggregato o statistica): deriva dalle aggregazioni di dati elementari, è una funzione di dati elementari nonché un modo di presentare le informazioni contenute nei dati tramite indicatori numerici sintetici
- Metadato: è un dato che descrive e definisce dati statistici, con la funzione di:
- Fornire la definizione delle unità di analisi e dei caratteri osservati, nonché la loro significatività
- Specificare la classificazione adottata e la qualità dei dati ottenuti
- Descrivere la metodologia impiegata per giungere alla produzione di statistiche (trasparenza)
Dati sperimentali
I dati sperimentali sono generati da uno studio sperimentale (esperimento). Un esperimento è tale quando le unità sperimentali sono sottoposte ad un trattamento allo scopo di misurarne l'effetto su di esse tramite la cosiddetta variabile risposta (variabile risultato). I dati sperimentali sono i dati ideali per la ricerca esplicativa (causale).
Gli studi sperimentali hanno una propria nomenclatura:
- Unità sperimentale: svolge lo stesso ruolo dell'unità statistica nelle indagini statistiche
- Variabile risposta: la variabile che misura l'influenza del trattamento sulle unità sperimentali (es. sintomi)
- Variabile esplicativa: la variabile della quale si vogliono misurare gli effetti sulla variabile risposta (es. farmaco A)
- Trattamento: la condizione sperimentale applicata alle unità sperimentali (es. farmaco A o placebo)
La più importante differenza fra dati sperimentali e dati osservazionali è proprio quella che nei secondi la rilevazione vuole misurare i fenomeni senza intervenire a modificare lo stato delle variabili.
Qualità della statistica e statistica ufficiale
L'informazione statistica è caratterizzata da una buona o da una cattiva qualità. I sei criteri guida per una statistica di elevata qualità, detti dimensioni della qualità, sono:
- Rilevanza: capacità di rispondere alle esigenze
- Accuratezza: vicinanza tra stima e valore vero del carattere misurato
- Puntualità e tempestività: corrispondenza fra la data di diffusione e quella prefissata (puntualità) e differenza fra momento di pubblicazione e momento a cui la statistica fa riferimento (tempestività)
- Accessibilità e chiarezza: facilità di ottenimento delle informazioni (accessibilità) e capacità di rendere comprensibili e interpretabili le statistiche (chiarezza)
- Comparabilità: la possibilità di confrontare due statistiche dello stesso fenomeno in momenti differenti, effettuate con lo stesso metodo di rilevazione
- Coerenza: l'informazione desumibile dà una visione univoca del fenomeno
C'è chiaramente un trade-off fra alcune dimensioni della qualità, ad esempio rilevanza-coerenza, rilevanza-comparabilità e comparabilità temporale-comparabilità spaziale.
La produzione di dati ad hoc: le indagini campionarie
Se l'impresa ha esigenze conoscitive non soddisfatte dalla statistica ufficiale o da altre indagini statistiche, è necessario condurre un'indagine ad hoc. Essa può essere:
- Completa: effettuata su tutta la popolazione obiettivo (censimento)
- Campionaria: effettuata su un sottoinsieme rappresentativo della popolazione obiettivo detto campione
Lo strumento con il quale sono raccolte le informazioni è il questionario, somministrato per via orale, cartacea, informatica. Punto di partenza per effettuare il campionamento è avere a disposizione un disegno di campionamento (linea metodologica) che individui una lista di campionamento, al cui interno siano ordinate tutte le unità che fanno parte della popolazione obiettivo. Riuscire a stilare una lista di campionamento è nella pratica un'operazione molto difficoltosa, soggetta spesso ad un'approssimazione che fa sì che si parli di popolazione di selezione come una approssimazione della popolazione obiettivo.
Tuttavia la popolazione di selezione non rappresenta ancora la popolazione alla quale si può univocamente riferire la formazione del campione, perché alcune unità potrebbero essere irreperibili o rifiutarsi di rispondere (mancata risposta o mancata risposta totale). Così da una parte al campione teorico si affianca il suo sottoinsieme detto campione effettivo, e la popolazione si dice popolazione di indagine.
Obiettivo della indagine campionaria è quella di stimare alcuni parametri della popolazione. La differenza fra il valore ottenuto dello stimatore del parametro e il valore effettivo nella popolazione è detta errore statistico. Nell'indagine campionaria l'errore statistico, insito nella scelta di rilevare il carattere in un sottoinsieme della popolazione, è detto errore campionario, ed è stimabile se il campione è selezionato con metodi probabilistici. La numerosità campionaria n è legata alla varianza campionaria da una relazione di proporzionalità inversa (compare infatti al suo denominatore). Se l'obiettivo per una statistica qualitativamente affidabile è ottenere una bassa varianza, è naturale che la scelta della numerosità campionaria debba orientarsi sulla massimizzazione del trade-off fra numerosità campionaria e costi connessi alla produzione dell'indagine.
Tipologie di indagini
Le indagini si distinguono in:
- Indagini cross-section o trasversali: le unità statistiche sono osservate allo stesso tempo t, metodologia utile per una comparazione fra gruppi
- Indagini panel o longitudinali: le unità statistiche sono osservate in più momenti, metodologia utile per un'analisi dei cambiamenti nel tempo delle singole unità
Un aggregato di rilevazioni ordinate rispetto al tempo è detto serie storica. Si tratta generalmente di macrodati.
Tipologie di campionamento
A seconda del metodo di campionamento scelto si distingue in:
- Campioni probabilistici: ogni unità della popolazione ha una probabilità nota di essere estratta:
- Campionamento casuale semplice
- Campionamento sistematico
- Campionamento stratificato
- Campionamento a grappolo
- Campioni non probabilisti: non è possibile calcolare la probabilità di un'unità della popolazione di essere estratta, perché differente fra le unità secondo ragioni di comodità, praticità, costo:
- Campionamento di comodo: il campione è scelto senza alcuna pretesa di rappresentatività della popolazione
- Campionamento a scelta ragionata: il campione è scelto selezionando “manualmente” le unità che si ritengono rappresentative (anche detto dei “testimoni privilegiati”)
- Campionamento per quota: il campione è scelto in modo tale da mantenere una proporzione fissa di questo rispetto all'universo, l'intervistatore ha piena discrezione su chi scegliere
- Campionamento a valanga: ogni individuo fornisce informazioni sui caratteri suoi e di altre unità statistiche, il numero di unità del campione cresce esponenzialmente
Nel campionamento casuale semplice il campione viene estratto dalla lista di campionamento mediante estrazione con ripetizione o senza ripetizione. Si definisce frazione di campionamento ƒ il rapporto fra la numerosità del campione n e la numerosità della popolazione N, che nel ccs è anche la probabilità associata ad ogni unità statistica di far parte del campione.
La stima puntuale della media della popolazione si effettua con il corrispondente stimatore corretto ovvero la media campionaria. La stima puntuale dell'errore standard (deviazione standard), se è ignota la varianza della popolazione, si effettua con lo stimatore corretto dell'errore standard della popolazione, ovvero l'errore standard campionario utilizzando lo stimatore varianza campionaria.
Si definisce fattore di correzione per popolazioni finite, utilizzato per correggere il ccs senza reimmissione (senza ripetizione). In caso di ccs con ripetizione o senza ripetizione ma da popolazioni sufficientemente grandi, esso è pari a 1.
In pratica il ccs è poco utilizzato, perché richiede una lista di campionamento completa, alti costi (dispersione territoriale) e trascura informazioni a priori che caratterizzano la popolazione. I suoi vantaggi rimangono la facilità teorica di applicazione a qualsiasi oggetto di indagine.
Nel campionamento sistematico si introduce appunto un “sistema” per effettuare il campionamento e non ci si affida ad un'estrazione. Esso avviene mediante l'ordinamento delle unità all'interno della lista di campionamento secondo un determinato carattere. Si procede poi ad un'unica estrazione casuale di un'unità, dalla quale, secondo un predefinito passo di campionamento, si selezionano le successive. Le stime dei parametri della popolazione si effettuano come esposto in precedenza.
Nel campionamento stratificato si utilizzano le informazioni a priori sulle caratteristiche interne della popolazione per suddividerla in classi (strati) da cui estrarre con ccs, con l'obiettivo di ridurre la variabilità entro gli strati ed ottenere così stime più precise dei parametri, aiutati in ciò dalle correlazioni fra il carattere osservato e il carattere su cui si basa la stratificazione. È necessario operare una scelta riguardante il numero di strati e la frazione di campionamento in ognuno.
In base alla frazione di campionamento all'interno degli strati si distingue in:
- Campionamento stratificato proporzionale: stessa frazione di campionamento per ogni strato
- Campionamento stratificato non proporzionale: frazioni diverse, usato per strati non omogenei fra loro in termini di numerosità di unità e o di variabilità interna del carattere
Lo stimatore per la media della popolazione in caso di campionamento stratificato di H strati è la media ponderata delle medie campionarie ottenute per ciascuno strato:
\[ \bar{X} = \sum \left( W_h \cdot \bar{X}_h \right) \]
Dove \( W_h \) è la proporzione della popolazione nello strato \( h \).
Nel campionamento a grappoli la popolazione viene divisa in grappoli (cluster) in base a esigenze organizzative e/o strutturali. I singoli cluster sono, fra loro, molto simili, e in un certo senso potrebbero già essere un sottoinsieme rappresentativo della popolazione: all'interno del cluster le unità statistiche sono molto differenti fra loro in base al carattere oggetto dell'indagine. Tuttavia vengono estratti in maniera casuale più cluster, e faranno parte del campione tutte le unità statistiche appartenenti ai cluster estratti.
Si può anche effettuare un campionamento a grappoli a due stadi: dai cluster estratti si estraggono casualmente dei campioni le cui unità statistiche faranno parte del campione finale utilizzato per l'indagine.
Strati e cluster si possono pensare come raggruppamenti antitetici:
- A livello interno lo strato è omogeneo mentre il cluster no
- A livello esterno gli strati sono diversi fra loro mentre i cluster sono omogenei
- Lo strato presuppone la conoscenza a priori della caratteristica di stratificazione (che altrimenti va indagata preliminarmente) mentre i cluster sono spesso unità organizzative preesistenti che semplificano la raccolta delle liste di campionamento
In conclusione i campionamenti di tipo probabilistico consentono una valutazione oggettiva degli stimatori in termini di precisione e quindi di qualità dei risultati (e dunque estenderne i risultati alla popolazione), mentre i campionamenti di tipo non probabilistico sono valutabili solo in base a considerazioni soggettive.
Valutazione dei risultati di un'indagine campionaria
Si era già definito l'errore statistico, o errore totale, la distanza del vero valore del parametro dal valore assunto dal suo stimatore, distanza che fornisce un'indicazione sulla accuratezza della rilevazione. Tale errore si divide in due fattispecie di errore distinte:
- Errore campionario: l'errore non eliminabile derivato dall'estrazione di un campione
- Errore non campionario: dovuto agli aspetti organizzativi della rilevazione e legato alle dimensioni del campione, può derivare da:
- Errori di copertura: la lista di campionamento non individua efficacemente la popolazione obiettivo
- Errori da mancate risposte: generano non corrispondenza fra tra popolazione obiettivo e popolazione effettiva
- Errori di misurazione: errori più “tecnici” (quesiti formulati male, errori dell'intervistatore, ecc.)
Capitolo 3 – Interpretazione e comparazione dei dati riferiti a fenomeni aziendali
Rapporti statistici
Il modo più intuitivo per confrontare come si distribuisce un fenomeno rispetto a determinati caratteri è quello del rapporto. Si distingue fra:
- Rapporto di composizione: il rapporto fra un'intensità (frequenza) parziale e l'intensità (frequenza) totale
- Rapporto di coesistenza: il rapporto che misura lo “squilibrio” fra due intensità coesistenti o in corrispondenza della stessa modalità (rapporto esportazioni/importazioni)
- Rapporto di densità: il rapporto fra l'intensità di un fenomeno e un'aggregazione statistica dimensionalmente differente (ricchezza pro-capite, spesa per famiglie)
- Rapporto di derivazione: il rapporto fra un'intensità di un fenomeno e l'intensità di un fenomeno generante o presupposto logico (quozienti demografici: rapporto nati/popolazione, ecc.)
I numeri indici semplici: definizioni
I numeri indici sono un tipo particolare di rapporto statistico che misurano le variazioni di un fenomeno quantitativo nel tempo (numeri indici temporali) e nello spazio (numeri indici spaziali). Si tratteranno quelli del primo tipo.
Si distingue fra:
- Numeri indici semplici (elementari): misurano le variazioni relative a grandezze elementari o globali
- Numeri indici sintetici: misurano le variazioni di fenomeni complessi
Dato un fenomeno quantitativo X distribuito in una serie temporale con intensità un generico numero indice semplice che misura la variazione da t=0 a t=1 è definito dal rapporto:
\[ I = \frac{x_1}{x_0} \]
Il pedice a sinistra indica la base temporale rispetto alla quale è valutata la variazione del fenomeno, mentre il pedice a destra specifica il momento temporale nel quale stiamo effettuando la valutazione detto situazione corrente. Il numero indice semplice è legato alla variazione relativa dalla formula:
\[ I = \frac{x_1 - x_0}{x_0} \]
Preso sempre il fenomeno X, può essere significativo confrontare l'intensità del fenomeno anno dopo anno sia con l'intensità riferita ad un anno base, sia all'intensità riferita all'anno precedente. Si parla in questi casi di:
- Serie storica a base fissa: \( I_{0,1}, I_{0,2}, ..., I_{0,n} \)
- Serie storica a base mobile: \( I_{0,1}, I_{1,2}, ..., I_{n-1,n} \)
I numeri indici semplici: proprietà
Si possono enunciare le seguenti proprietà dei numeri indici elementari:
- Identità: il numero indice calcolato per il periodo base è uguale a 1
- Reversibilità delle basi: \( I_s = I_{t,s} \times I_{s,t} \)
- Transitività delle basi: \( I_{t,r} = I_{t,q} \times I_{q,r} \)
- Commensurabilità: l'indice semplice non varia se muta l'unità di misura del fenomeno
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Riassunto esame Statistica aziendale, Prof. Grassini Laura, libro consigliato Statistica per le decisioni aziendali…
-
Riassunto esame Statistica economica, Prof. Maltagliati Mauro, libro consigliato Statistica per le decisioni aziend…
-
Riassunto esame Statistica economica, Prof. Grassini Laura, libro consigliato Biggeri L., Bini M., Coli A., Grassin…
-
Riassunto esame Statistica aziendale, prof. Gonano, libro consigliato Statistica per le decisioni aziendali, Bigger…