Luca Biglieri Statistica
Corso AK – Prof. Tarantola – A.A. 2014/15 0
Luca Biglieri
1. Introduzione
1.1 Statistica e Indagini Campionarie
La Statistica, dal latino status, è la scienza che si occupa della conoscenza quantitativa dei fenomeni collettivi. Si tratta di
una scienza non esatta, che prevede sempre un determinato margine di errore riguardo ai risultati che riesce a ricavare.
Per la raccolta dei dati necessari ad un’analisi statistica, è necessario un processo di Indagine; si possono individuare
indagini totali, svolte sulla totalità della popolazione, e indagini campionarie, che prevedono la selezione di un campione
che rappresenta un sottoinsieme della popolazione. Nonostante le indagini totali offrano risultati più precisi, spesso
vengono privilegiate le indagini di tipo campionario: pur fornendo informazioni soltanto parziali sulla popolazione, esse
sono infatti più pratiche, veloci ed economiche. Inoltre, va ricordato che in alcuni casi potrebbe non essere nemmeno
possibile svolgere un’indagine totale, a causa di caratteristiche di indeterminatezza della popolazione di riferimento.
La selezione del campione va svolta in modo casuale a partire da una popolazione che può essere tanto determinata e con
un numero finito di elementi quanto indeterminata e infinita.
Volendo realizzare uno schema dei passaggi necessari per mettere in atto un’indagine campionaria, si ricorderanno:
- Definizione degli obiettivi;
- Pianificazione della Raccolta Dati;
- Raccolta Dati;
- Elaborazione ed Analisi dei Dati;
- Presentazione dei risultati;
- Utilizzo dei risultati.
1.2 Popolazione e Campione
Si definisce Popolazione un insieme completo di tutte le unità oggetto di studio.
.
La dimensione di una popolazione si indica con
Si definisce Campione il sottoinsieme delle unità osservate all’interno di una popolazione.
.
La dimensione di un campione si indica con
Un Parametro sintetizza una caratteristica specifica della popolazione (ad esempio, il 40% di possiede un’automobile).
Una Statistica sintetizza una caratteristica specifica del campione (ad esempio, il 50% di ha i capelli scuri).
Si ha un Campione Casuale quando ogni unità della popolazione è scelta a caso e ha la stessa probabilità di essere scelta, e
quando ogni campione di dimensione ha la stessa probabilità di essere scelto. In questo caso, si parlerà di procedimento
di Campionamento Casuale Semplice.
1.3 Statistica Descrittiva e Inferenziale
La Statistica Descrittiva ha il compito di collezionare, descrivere e sintetizzare i risultati delle osservazioni, utilizzando
strumenti quali tabelle e grafici.
La Statistica Inferenziale ha l’obiettivo di analizzare i risultati ottenuti da un’indagine campionaria, ricavandone
informazioni riguardo all’intera popolazione, considerando ovviamente un determinato margine d’errore (ad esempio, 1
Luca Biglieri
tramite stime e verifiche di ipotesi).
Il processo tramite il quale si ricavano informazioni e si prendono decisioni riguardanti un’intera popolazione partendo
dall’analisi di un campione si chiama, infatti, inferenza. 2
Luca Biglieri
2. Variabili e Descrizione Grafica dei Dati
2.1 Classificazione delle Variabili
A seconda delle loro caratteristiche, le variabili si possono classificare in vari modi: riferendosi al livello di misurazione,
infatti, si distingueranno variabili qualitative e quantitative, mentre, per il tipo e la quantità di informazioni contenuti nel
dato, si riconosceranno variabili categoriche e numeriche.
A loro volta, le variabili numeriche si divideranno tra discrete, ovvero un numero finito o un’infinità numerabile di
modalità, e continue, che teoricamente possono assumere ogni valore in un intervallo di numeri reali (ad esempio le
misure di altezza, peso, tempo o moneta).
Riguardo alle variabili qualitative, non sarà possibile dare un significato misurabile per la differenza tra due variabili; tale
significato sarà invece rintracciabile per la differenza tra due variabili quantitative.
La scala del livelli di misurazione delle variabili prevede, partendo dai livelli più basilari:
1. Dati Nominali: i dati qualitativi vengono divisi in categorie distinte, senza un ordine implicito e senza una direzione.
2. Dati Ordinali: i dati qualitativi vengono divisi in categorie tra le quali sussiste un ordine implicito. Tuttavia, non si
può dire quale sia, quantitativamente, la differenza tra due categorie.
3. Scala ad Intervallo: i dati sono quantitativi, quindi è possibile effettuare misurazioni, ma non esiste uno zero
assoluto nella scala dei valori (ad esempio, misurazioni di temperature in °C o °F).
4. Scala di Rapporti: i dati sono quantitativi, si possono effettuare misurazioni ed esiste uno zero assoluto (ad
esempio, misurazioni di peso o altezza).
N.B.: le variabili numeriche possono essere ordinate anche in modo nominale o ordinale. Tuttavia, non sarà possibile
misurare una variabile qualitativa con scale a intervallo o a rapporti.
2.2 Rappresentazione di Dati Qualitativi
2.2.1 Distribuzione di Frequenza
Si definisce Distribuzione di Frequenza l’insieme di modalità e frequenze; in questo tipo di rappresentazione, viene
associato ad ogni categoria il numero di volte in cui compare dei dati, ovvero la sua Frequenza Assoluta o Numerosità.
Modalità Frequenza Assoluta
1
1
2
2
⋯ ⋯
=
∑ = .
La somma delle frequenza assolute equivale al totale degli individui osservati:
Dalla Frequenza Assoluta si può ricavare la Frequenza Relativa, ovvero la percentuale sul totale della popolazione degli
=
individui che appartengono a una determinata modalità: .
1
= =1 =1 =1
∑ ∑ ∑ ∑
= : = = = = 1.
Inoltre, infatti,
3
Luca Biglieri Modalità Frequenza Relativa
1 1
2 2
⋯ ⋯
2.2.2 Diagramma a Barre e a Torta
Si può fornire una rappresentazione grafica delle frequenze assolute e relative delle modalità osservate tramite i
diagrammi a barre e i diagrammi a torta.
Si noti che l’ordine delle categorie non ha alcuna importanza, a meno che non si tratti di variabili ordinali.
Inoltre, soltanto uno degli assi ha un valore numerico: l’asse orizzontale serve solamente per stabilire un eventuale ordine
delle variabili.
In un diagramma a torta, invece, la frequenza delle singole variabili è rappresentata dall’ampiezza dell’angolo al centro di
= × 360 = × 360.
ciascuno dei settori. In particolare, vale la formula
Anche in questo diagramma, è ininfluente l’ordine delle variabili.
2.2.3 Diagramma di Pareto
Il diagramma di Pareto è un particolare tipo di diagramma a barre, utilizzato per rappresentare dati categorici. In questo
diagramma, le categorie vengono disposte in ordine decrescente di frequenza e le barre sono sormontate da un poligono
della frequenza cumulata, ovvero una linea spezzata che rappresenta la somma cumulativa delle frequenze.
Lo scopo di questo diagramma è separare le poche cause rilevanti dalle molte cause insignificanti. 4
Luca Biglieri
Il diagramma di Pareto può essere utilizzato anche per esaminare i costi relativi alle varie cause: in questo caso, invece
della frequenza delle cause, si calcolerà la percentuale del costo di ogni singola causa rispetto al totale dei costi.
2.3 Rappresentazione di Dati Quantitativi
2.3.1 Grafico per Serie Storiche
Un Grafico per Serie Storiche fornisce una rappresentazione della variazione di valore che una variabile ha subito nel corso
di un determinato periodo di tempo. Si tratta quindi di una rappresentazione unidimensionale: non c’è una relazione tra
due diverse variabili, ma l’analisi di una sola.
In questo tipo di grafico, entrambi gli assi hanno un significato numerico: l’asse orizzontale indica l’avanzare del tempo,
mentre l’asse verticale mostra i valori assunti dalla variabile.
La scala dell’asse temporale dovrà inoltre essere coerente all’unità di misura per ottenere un’analisi efficace; occorre
anche che le osservazioni abbiamo una cadenza regolare.
2.3.2 Distribuzione, Diagramma di Frequenza e Istogramma
Così come avveniva per dati di tipo qualitativo, anche per le variabili quantitative sarà possibile svolgere uno studio relativo
alla loro frequenza. Tale studio sarà svolto secondo modalità diverse, a seconda del tipo di dato quantitativo che ci si trova
ad esaminare.
Lo studio della frequenza di variabili quantitative discrete si svolge in modo analogo a quello delle variabili qualitative: sarà
possibile trovare i valori della frequenza assoluta e di quella relativa, per poi rappresentarli tramite un Diagramma di 5
Luca Biglieri
Frequenza.
Questo particolare grafico avrà la forma di un diagramma a barre, ma si differenzierà da esso per il significato dato ai suoi
assi: entrambi gli assi di un diagramma di frequenza, infatti, hanno valore numerico, mentre, nel diagramma a barre,
soltanto l’asse orizzontale aveva tale valore.
La rappresentazione della frequenza di variabili continue e di variabili discrete con molte modalità seguirà invece una
[ ),
,
procedura diversa: è fondamentale, in questo caso, riclassificare i dati in classi di intervalli del tipo per evitare di
+1
considerare singoli valori con frequenza nulla o molto ridotta.
Utilizzando i consueti calcoli, sarà poi possibile associare a ciascuna classe la corrispondente frequenza assoluta o relativa.
Nello studio di questa tipologia di dati, sarà possibile considerare intervalli con ampiezza costante oppure intervalli con
diverse ampiezze. ,
Nel primo caso, si sceglierà arbitrariamente un valore che corrisponderà alla ampiezza di ogni intervallo considerato;
l’ampiezza andrà scelta in modo tale da ricavare intervalli che abbiano approssimativamente la medesima frequenza.
−
=
L’ampiezza, arrotondata a un numero intero, corrisponderà quindi a ; va ricordato che,
solitamente, si utilizzano dalle 5 alle 15-20 classi di intervalli. Inoltre, è fondamentale tenere a mente che due classi di
intervalli non devono mai sovrapporsi, per evitare imprecisioni e sovrabbondanze di dati.
In generale, l’ampiezza e il numero di classi da utilizzare non seguono regole fisse, ma esigenze soggettive; vanno
comunque evitate classi che creano una rappresentazione troppo frastagliata (ovvero, evitare classi poco ampie, con
frequenza troppo bassa o anche nulla) oppure “a blocchi” (ovvero, evitare classi troppo ampie, che oscurano gli andamenti
della variazione).
Il grafico utilizzato per la rappresentazione della frequenza delle classi intervallari è l’Istogramma. In tale grafico, sull’asse
orizzontale saranno rappresentati gli estremi degli intervalli, mentre l’asse verticale andrà a rappresentare la frequenza.
L’area di ciascuna barra risulterà proporzionale alla frequenza della variabile in ciascuna classe intervallare.
,
Nel caso di classi di ampiezza diversa, le altezze delle barre saranno equivalenti alla Densità di Frequenza dove
1
= = ∙ ; l’area di ciascun rettangolo, in questo caso, sarà pari alla frequenza relativa della classe intervallare.
6
Luca Biglieri
N.B.: La rappresentazione grafica con la densità sull’asse delle ordinate è valida anche per classi intervallari di uguale
ampiezza, ed è, in generale, da preferirsi proprio perché compatibile con qualsiasi tipo di intervallo.
Riguardo alla forma della distribuzione ottenuta tramite istogramma, questa potrà essere simmetrica, se le osservazioni
risultano bilanciate e regolari al centro del grafico, oppure asimmetrica positiva (obliqua verso destra) o asimmetrica
negativa (obliqua verso sinistra).
2.3.3 Funzione di Ripartizione
La Funzione di Ripartizione o Funzione Cumulativa delle Frequenza è un particolare tipo di funzione, utilizzabile sia per
variabili quantitative che per variabili qualitative ordinali. ()) ∈ ()
(,
Essa si definisce come l’insieme di tutte le coppie ordinate in cui e esprime la frequenza relativa con
; () = { ≤ },
cui si osservano valori minori o uguali di ovvero, dove è la frequenza relativa. Tale funzione avrà
[0,1],
(−∞, +∞)
dominio pari a e codominio in quanto rappresenta frequenze relative.
()
In sostanza, data una ordinabile, si avrà che indica quante volte la variabile assume un valore minore o uguale
rispetto a un livello fissato.
Nel caso delle variabili quantitative discrete e delle variabili qualitative ordinali, il valore della funzione in corrispondenza di
=1
) ∑
( = = + + ⋯ +
una generica modalità sarà .
1 2
Considerando tutte le possibili modalità, si può esprimere la funzione in questo modo:
0 <
1
≤ <
1 1 2
() = + ≤ <
1 2 2 3
…
1 ≥
{
Il risultato sarà quindi una funzione discontinua, in cui ogni “salto” corrisponde a una frequenza relativa.
, , … ,
Inoltre, generalizzando e indicando con il numero di modalità distinte ( ) si potrà esprimere la funzione
1 2
0 <
1
≤ <
1 1 2
+ ≤ <
() =
come: .
1 2 2 3
…
1 ≥
{ 7
Luca Biglieri
Questa funzione cambia valore soltanto in corrispondenza di una modalità osservata: nell’intervallo tra due modalità,
infatti, resta costante, per poi compiere il “salto” in corrispondenza della modalità successiva. Generalizzando, quindi, si
può dire che resta costante negli intervalli compresi tra i valori di con positiva.
} } } ) ).
{ < ≤ = { ≤ − { ≤ = ( − (
Inoltre, si nota che 1 3 3 1 3 1 } } }
{ ≤ ≤ = { ≤ − { ≤ +
Nel caso in cui si ha, invece, con gli stessi dati, una disuguaglianza debole, 1 3 3 1
} ) ) ).
{ = = ( − ( + (
1 3 1 1 } }
{ ≤ ≠ { < ≠ 0,
Generalizzando questi ragionamenti, si può dire che se ovvero se è una modalità
osservata. { < ≤ } = () − ().
Sempre in generale,
Se ci si trova ad esaminare variabili quantitative continue oppure discrete in classi di intervalli, si dovrà utilizzare un diverso
grafico, ovvero l’ogiva o curva delle frequenze cumulate.
In questo caso, si dovrà considerare l’area delle barre dell’istogramma come somma delle frequenze relative. Pertanto, si
} }
{ ≤ = { <
avrà che e i calcoli relativi alle frequenze cumulate potranno essere svolti direttamente
sull’istogramma: per calcolare la di un elemento interno a un intervallo, si potrà calcolare l’area sull’istogramma, in
alternativa al calcolo dell’altezza dell’ogiva.
[ ), ) ( ).
; () = ( + −
Quindi, dato si ha
+1 0 ≤ () ≤ 1 { < < } = { ≤ <
Volendo individuare altre proprietà di questa funzione, si può dire che e che
} = { < ≤ } = { ≤ ≤ } = () − (): l’ogiva è uguale sia in caso di disuguaglianza forte che di
disuguaglianza debole.
{ = } = 0, ∀:
Inoltre, l’area di una barra la cui base è un punto sarà sempre nulla.
L’ogiva è continua e ha diverse inclinazioni; è sempre derivabile, tranne che nei punti in cui cambia l’inclinazione.
Inoltre, anche nei diagrammi di Pareto si trova una curva a ogiva, il cui significato è valido soltanto nei punti delle
osservazioni e non nei segmenti intermedi.
2.4 Rappresentazione delle Relazioni tra Variabili
2.4.1 Diagramma di Dispersione e Tabella a Doppia Entrata
Utilizzando gli strumenti della statistica descrittiva è anche possibile rappresentare ed analizzare le relazioni tra due o più
variabili. Per semplicità, in questi casi si esamineranno solamente due caratteri per volta, utilizzando strumenti come il
Diagramma di Dispersione e la Tabella a Doppia Entrata.
Il Diagramma di Dispersione è un particolare tipo di diagramma cartesiano in cui gli assi rappresentano le due variabili e ad
ogni coppia di valori delle variabili viene assegnato un punto; le coordinate di ciascun punto rappresentano i valori delle
due variabili in corrispondenza di quella particolare osservazione. 8
Luca Biglieri
Il diagramma di dispersione rende possibile l’osservazione dei possibili valori delle variabili, della distribuzione dei dati
all’interno del range di valori osservati, della relazione tra le variabili e della presenza di eventuali valori anomali; tuttavia,
ha il difetto di non riuscire a rappresentare la frequenza con la quale si presenta una determinata
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.