Introduzione statistica descrittiva
Introduzione
Se la matematica applicata è lo strumento per l’applicazione delle conoscenze e tecniche matematiche a campi di pubblico interesse, la statistica è quel ramo della matematica applicata che studia in modo quantitativo e qualitativo determinati fenomeni collettivi in condizioni di incertezza e in senso stretto, i dati ottenuti sia tramite osservazione di certi fenomeni sia sperimentazione:
La osservazione è limitata ad una data evenienza e il suo fenomeno oggetto di studio è precostituito e i dati, già esistenti, sono semplicemente rilevati o studiati (si pensi al censimento);
La sperimentazione può essere invece replicata a piacere a seguito di una chiara definizione di operazioni e circostanze (c.d. protocollo dell’esperimento); i dati sono qui creati in circostanze controllate e in modo potenzialmente infinito.
Per statistica si intendeva un tempo la raccolta di dati demografici ed economici di vitale importanza per lo stato (deriva infatti da “status”).
Popolazione
In statistica per popolazione (o collettivo o universo) si intende l'insieme degli elementi/unità di riferimento che sono oggetto di studio, sulle quali viene effettuata una data rilevazione di dati. Da qui la definizione di unità statistiche: oggetto dell’osservazione di ogni fenomeno che costituisce il fenomeno collettivo e che presentano tutte almeno una caratteristica comune, che viene accuratamente definita al fine di delimitare il loro insieme.
Estremamente importante è distinguere tra:
- Popolazione reale (o empirica): insieme di unità statistiche che hanno esistenza fisica simultanea nel momento della progettazione della rilevazione dei dati e un numero finito di elementi. Si possono osservare sia completamente tramite un censimento sia sottoporre a indagine tramite esperimento di campionamento; talvolta però una rilevazione completa può non essere accettabile, in quanto troppo onerosa (tempo e denaro) e/o improponibile.
- Popolazione virtuale: caratterizzata dall’esistenza concettuale data dall’insieme di esiti di sperimentazioni e dal numero infinito di elementi. In tal caso una rilevazione completa (censimento) è impossibile e sarà attuata solo una indagine campionaria.
Obiettivo
La statistica ha come obiettivo la descrizione della variabilità nelle popolazioni, cioè definire la attitudine di un certo carattere esaminato a manifestarsi con modalità differenti nelle diverse unità statistiche di una popolazione (o campione).
Variabili e modalità
È necessario introdurre allora due importanti nozioni:
- Variabile o Carattere o Fenomeno: è una caratteristica d’interesse di ciascuna unità statistica oggetto di studio e assume differenti valori a seconda della unità su cui è rilevata. La variabile è indicata generalmente con lettere maiuscole (Y, X, Z) e distinguibili tra di loro con “deponenti” (X1, X2), può essere a sua volta:
- Qualitativa: le modalità “xi” della variabile “X” sono espresse in forma verbale (es. livello di istruzione, colore degli occhi, ecc.). Si distinguono inoltre in variabili qualitative: nominali/sconnesse (l’ordinamento delle modalità manifestatesi è arbitrario) e ordinali (l’ordinamento delle modalità è naturale/logico).
- Quantitativa: le modalità “xi” della variabile “X” sono espresse in forma numerica (es. età, distanza, reddito, ecc.). Si distinguono inoltre in variabili quantitative: discrete (l’insieme delle sue modalità detto “X” è finito oppure numerabile; es. l’età o il reddito) e continue (l’insieme delle modalità “X” è un intervallo, limitato o illimitato; es. la distanza, il peso, l’altezza, ecc.).
- Requisiti di un carattere:
- Il carattere deve poter assumere modalità differenti (almeno due);
- Più elementi della popolazione possono avere la stessa modalità del carattere;
- Devono esistere almeno due elementi della popolazione per cui il carattere si presenta con modalità differenti.
Modalità: sono i valori (almeno due come detto) assumibili (cioè con cui si manifesta) da una variabile/carattere; le modalità della variabile si presumono note preliminarmente all’indagine (se il carattere è la cittadinanza, ancor prima di avviare l’indagine so che il valore sarà o “italiana” o “altra”).
- Requisiti delle modalità sono:
- Esaustività, cioè in grado di interpretare qualunque manifestazione del carattere (importanza della modalità "altro").
- Incompatibilità, ogni elemento della popolazione deve possedere una sola modalità del carattere.
Quale statistica?
Prima di approfondire il concetto di metodo statistico è opportuno fare una distinzione:
- Popolazione: complesso delle unità statistiche omogenee rispetto ad una o più variabili di riferimento e oggetto di indagine.
- Campione: aggregato/sottoinsieme di unità statistiche appartenenti ad una popolazione/universo e selezionate tramite un esperimento di campionamento.
A seconda che i dati descrivano interamente la popolazione o siano campionari, si parla didatticamente di:
- Statistica descrittiva: insieme di metodi statistici che sintetizzano e descrivono i dati di natura censuaria che si sono osservati a fini interpolatori (costruzione di tabelle e grafici su piani cartesiani e non solo).
- Statistica inferenziale: insieme di metodi statistici, basati sul calcolo delle probabilità, che consentono di:
- Costruire campioni rappresentativi;
- Effettuare induzioni dal campione alla popolazione e valutare l’affidabilità dei risultanti campionari. Le caratteristiche della popolazione saranno indotte da quelle osservate da un campione estratto dalla prima.
Fasi dell’analisi statistica
Posto che la qualità dei dati influenzerà tutte le analisi successive, la indagine statistica ha inizio con imprescindibili fasi, volte alla definizione, rilevazione e organizzazione di dati:
- Definizione degli obiettivi da raggiungere con l’analisi:
- Periodo di riferimento;
- Variabili di interesse;
- Popolazione ed unità statistiche.
- Rilevazione dei dati:
- Piano o programma di rilevazione;
- Rilevazione materiale o concreta.
- Spoglio: conteggio del numero di unità statistiche che presentano gli stessi valori.
- Creazione della matrice dei dati: risultato di una rilevazione statistica su “n” unità in riferimento alle “K” modalità osservate, in cui ogni riga corrisponde ad una unità di riferimento e ogni colonna ad una variabile.
A seguito di rilevazione, i dati che non sono organizzati, sintetizzati o elaborati in qualche modo si dicono “dati grezzi” e, a meno che il numero delle osservazioni sia piccolo, tali dati difficilmente saranno utili alla lettura e interpretazione dei dati ottenuti. Sorge allora la necessità di sintetizzare e organizzare ulteriormente i dati tramite opportuni modelli o metodi statistici al fine di convertire i dati in forma più utile.
Variabili statistiche univariate
Analisi statistica
Si possono distinguere 3 principali tipi di analisi statistiche:
- Analisi statistica uni variata: considero una variabile statistica alla volta;
- Analisi statistica bi variata: considero l’andamento congiunto di due variabili;
- Analisi statistica multi variata: considero l’andamento di più di due variabili.
Analisi statistica univariata
È opportuno iniziare apportando la distinzione che ricorre tra variabile e la variabile statistica, quale questo ultimo il risultato della rilevazione della variabile su di una data popolazione o campione.
- A seconda che la variabile sia quantitativa o qualitativa, si parla in particolare di:
- Variabile statistica quantitativa uni variata: si definisce tale la funzione/applicazione da U su X' (è la relazione U ∈ X che associa ogni u ad una sola modalità x X'). X' è l’insieme delle modalità potenzialmente assumibili dalla variabile X quando è rilevata sulla popolazione, il quale è anche sottoinsieme dei numeri reali R. X : U → X' X' ⊆ R.
- Variabile statistica qualitativa uni variata: è una applicazione da U ad un codominio non numerico rappresentato dalla lista delle modalità. X : U → X' ∣∣ U { } = N. Essendo la cardinalità di U uguale a N (∣∣ U { } = N), la applicazione potrà rilevare solo una successione finita di modalità.
È allora opportuno parlare di supporto Sx, quale immagine di U o “insieme delle modalità di X’ effettivamente osservate sulla popolazione (o campione). { ' } S : x X : x=x u per qualche valore di u( ) ∈ : si legge Sx è l’insieme delle modalità appartenenti all’insieme X’, tali che risultano osservate le modalità X(u) sulle unità statistiche della popolazione U. ∣ ∣ S = K. Per indicare il numero dei valori effettivamente realizzati, si parla di cardinalità del supporto: ∣ ∣ Sx = 1,2, 3, 4,5, allora S { } = K = 5. Es.: x.
Distribuzioni di frequenza e rappresentazioni grafiche
I principali strumenti che l’analisi statistica mette a disposizione dopo la matrice dati, per una migliore visione del fenomeno di indagine sono:
Distribuzione di frequenza
E’ la lista delle modalità della variabile effettivamente osservate all’interno della popolazione o campione considerato accompagnate da lista di una determinata frequenza, la quale può essere assoluta, relativa, percentuale o cumulata (es. se ho una lista delle modalità accompagnata dalla lista delle relative frequenze assolute, avrò una distribuzione di frequenza assoluta). La rappresentazione in forma tabellare dà luogo alla tabella di frequenza:
| Sesso | Frequenza |
|---|---|
| M | 5 |
| F | 3 |
| Totale | 8 |
Una distribuzione di frequenza inerente ad una variabile:
- Qualitativa: è detta serie statistica: la serie potrà essere poi nominale o ordinale;
- Quantitativa: è detta seriazione.
Per essere più esaustivi, si contano 3 tipi di distribuzioni di frequenza formali:
- Distribuzione grezza: S = {x1, x2, … , xk}
- Distribuzione di frequenza: S = {xi, pxi; i=1,2.. , k}
- Distribuzione divisa in classi: S = {xi, pxi; i=1,2.., k}
Frequenza assoluta
Se X è una variabile e una modalità osservata di X, si dice frequenza assoluta il numero di volte che la modalità risulta osservata nella popolazione; si indica con la notazione nxi. Concettualmente si tratta di andare a “contare” tutte le unità statistiche di U che presentano una certa definita, cioè u∈U (X(u)=xi), dunque la somma delle frequenze di tutte le modalità deve dare luogo all’ampiezza della popolazione analizzata.
Funzione di frequenza assoluta: si definisce tale l'applicazione da un dominio espresso come Sx ad un codominio espresso come insieme dei numeri naturali N nel caso di variabile discreta: nx(x): Sx → N.
La funzione indica la frequenza assoluta della modalità x di X, al variare di x nel supporto, come espresso con i seguenti simboli: |{nx | u ∈ U : X(u) = x}|.
- Proprietà della funzione di frequenza assoluta:
- nx(x) > 0 ∀ x ∈ Sx (perché x appartiene al supporto, e dunque le modalità sono effettivamente realizzate almeno una volta. Se la modalità non appartiene a Sx ma anche a X’, la frequenza deve comunque valere 0);
- ∑ nx(x) = N (essendo ogni frequenza assoluta determinata una partizione di U, la sommatoria deve per certo dare l’insieme delle unità statistiche su cui l’analisi poggia).
Es.:
- Se X (variabile) = NUMERO SPORTELLI.
- Sportelli (unità statistiche) = A, B, C, D, E, F.
- Sia X(A)=1; X(B)=1; X(C)=1; X(D)=2; X(E)=2; X(F)=5.
- Il supporto di X è uguale dunque a {1, 2, 5}.
- La funzione di frequenza di X è dunque nx(1)=3, nx(2)=2, nx(5)=1.
| xi | ni |
| Totale | K=∑i=1K ni = N |
Frequenza relativa
Se X è una variabile e una modalità osservata di X, si dice frequenza relativa la frazione o proporzione di unità statistiche rilevate portatrici di una certa modalità (o classi di modalità). pi = ni/N con i=1,2,…, k. ∑ pi = 1.
Segue la definizione che 0 ≤ pi ≤ 1 e che ∑ pi = 1. Quest’ultima è la condizione di normalizzazione, che possiamo così dimostrare:
∑i=1K (ni/N) = 1.
Es.: se ni = 30 e N = 100, allora 30 persone su 100 (0.30: proporzione) sono portatrici della modalità che possiede quella determinata frequenza (30).
Funzione di frequenza relativa: si dice funzione di frequenza relativa della variabile X, e si indica con px(x), l’applicazione tra supporto Sx e l’intervallo aperto a destra e chiuso a sinistra compreso tra 0 e 1: px(x): Sx → (0, 1].
Esprime la frequenza relativa della modalità x di X al variare di x nel supporto. |{u ∈ U : X(u) = x}| = n(u): px(x) = nx(x)/N.
- Proprietà della funzione di frequenza relativa:
- px(x) > 0 ∀ x ∈ Sx;
- ∑ px(x) = 1.
Frequenza percentuale: si ottiene moltiplicando la frequenza relativa per 100.
Frequenza cumulata: è il numero delle unità di popolazione che presenta un valore del carattere minore o uguale ad una data modalità. Si parla sia di frequenza cumulata assoluta (detta funzione di distribuzione empirica; vedi dopo) e di frequenza cumulata relativa (detta funzione di ripartizione empirica).
Caso della variabile quantitativa raggruppata in classi
Davanti a variabili discrete di particolare portata o variabili continue, per la rappresentazione e organizzazione dei dati è opportuno determinare delle classi, quali sottoinsiemi disgiunti di valori assumibili dalla variabile quantitativa; tale operazione pur comportando una perdita di informazioni è l’unico mezzo talvolta per una lettura dei dati.
Data una variabile statistica quantitativa X e un intervallo [a, b), si dice frequenza assoluta di X in [a, b) il numero di unità statistiche u i cui valori x(u) cadono nell’intervallo [a, b).
nx([a, b)) = |{x(u) ∈ [a, b)}|.
Data una variabile statistica quantitativa X e un intervallo [a, b), si dice frequenza relativa di X in [a, b) il numero di unità statistiche u i cui valori x(u) cadono nell’intervallo diviso N.
px([a, b)) = |{x(u) ∈ [a, b)}|/N.
Rappresentazioni grafiche
L'osservazione del grafico può far notare delle irregolarità o anomalie non direttamente osservabili sui dati. Le rappresentazioni possono variare a seconda della:
- Natura del fenomeno indagato;
- Tipologia del carattere;
- Numero dei caratteri coinvolti nel fenomeno.
Variabile qualitativa: a sua volta possiamo distinguere se il carattere sia (la distinzione non è tassativa ma consigliabile):
- Nominale o sconnessa: diagramma circolare o a torta: cerchi diviso in tante aree quante sono le modalità del carattere la cui somma deve dare N. Per la determinazione dell’area si deve calcolare l’angolo al centro del settore corrispondente ad ogni modalità.
- Ordinale: diagramma a barre o a rettangoli separati): distribuzione rappresentata da serie di rettangoli, verticali o orizzontali, corrispondenti alle modalità.
Variabile quantitativa: occorre a sua volta distinguere tra:
- Variabile discreta: si va dai più semplici, quale il grafico a punti (metto sulle ascisse le modalità e sulle ordinate le frequenze), al grafico ad aste e a rettangoli separati. Si noti che l’impiego delle frequenze relative o assolute non cambia la rappresentazione.
- Variabile discreta con tante osservazioni o continua: la rappresentazione più adeguata è quella data dall’istogramma. L’istogramma è un insieme di rettangoli adiacenti rappresentanti ognuno una classe di modalità: hanno come base l’ampiezza (ai) dell’intervallo della classe e come altezza la densità di frequenza relativa (fi) Hi = pi/ai; l’area corrisponde alla frequenza relativa (pi).
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.