STATISTICA
LA è una disciplina che fornisce gli strumenti concettuali e i metodi per la raccolta, la
fenomeni collettivi.
descrizione, l’analisi e la rappresentazione sintetica dei dati per lo studio dei
Col termina “statistica” si indicano i risultati numerici che derivano da un processo di sintesi dei
dati osservati.
Un fenomeno collettivo (o di massa) è un qualunque fatto o aspetto osservabile il cui studio
riguarda una pluralità di individui, de niti unità statistiche.
Le unità statistiche (us) sono i singoli elementi omogenei tra di loro che compongono il collettivo
oggetto di studio e costituiscono la base per la successiva osservazione, rilevazione e analisi.
- Unità semplici: formate da un unico elemento non scomponibile ulteriormente;
- Unità composte: costituite da più unità semplici.
La popolazione (collettivo statistico o universo) è l’insieme di tutte le unità statistiche che
riguardano il fenomeno collettivo oggetto di studio. La numerosità totale delle unità di una
popolazione si indica con N.
- Popolazione reale: quando è e ettivamente già esistente e visibile;
- Popolazione potenziale: quando non è osservabile, perché astratta o connessa al futuro.
La statistica descrittiva fornisce i metodi per la raccolta (o rilevazione), la classi cazione, la sintesi
e la rappresentazione gra ca dei dati allo scopo di far emergere e descrivere le caratteristiche
principali di un fenomeno collettivo osservato su tutte le N unità che compongono una
popolazione.
I caratteri statistici (o variabili) rappresentano le caratteristiche che vengono rilevate per descrivere
le unità statistiche (di 1 popolazione o di 1 campione). È tipico dei fenomeni reali di interesse
statistico che i caratteri assumano valori di erenti nelle varie unità statistiche.
Le modalità sono i possibili modi o valori (numerici o non) che può assumere un carattere (o 1
variabile) nelle unità statistiche del collettivo. Le modalità di ciascun carattere devono essere
esaustive e non sovrapposte. X, Y, . . . , Z
- Un carattere si indica generalmente con una lettera maiuscola:
- Le modalità distinte che un carattere può assumere si indicano con la corrispondente lettera
X → x , x , . . . , x , . . . , x
minuscola (per j=1,2,..,K):
Classificazione dei caratteri statistici 1 2 j K
- Le modalità di un carattere osservate sulle singole unità statistiche di una popolazione di
Lo schema X → x , x , . . . , x , . . . , x
numerosità N (per i=1,2,…,N) si indicano: .
1 2 i N
I caratteri statistici (o variabili) si distinguono in base al modo in cui sono espresse le modalità:
► I caratteri statistici si distinguono in base al modo in cui sono espresse le modalità:
Caratteri o variabili Trasferibili o
Quantitativi
Qualitativi non trasferibili
Sconnessi Ordinati Discreti Continui
Rettilinei
o ciclici
- Qualitativi: le modalità sono attributi o qualità non numeriche;
- Quantitativi: le modalità sono quantità numeriche:
- Trasferibili: quando ha senso immaginare che un’unità statistica possa cedere tutto o parte
del carattere posseduto ad un’altra unità statistica;
- Non trasferibili: in tutti gli altri casi.
I caratteri qualitativi si dicono anche “variabili qualitative” o “mutabili statistiche”, i caratteri
quantitativi si dicono “variabili quantitative”.
I caratteri qualitativi sconnessi presentano modalità non ordinabili.
- Le modalità sono nomi o attributi
- A volte si assegnano numeri alle modalità che servono solo ad identi carle (codi ca) ma la
natura del carattere rimane immutata.
I caratteri qualitativi ordinati presentano modalità ordinabili.
- Rettilinei: possiedono una modalità iniziale ed una nale.
- Ciclici: le modalità estreme sono molto prossime tra loro.
I caratteri quantitativi discreti presentano modalità espresse da numeri interi (in numero nito o
in nità numeriche), i valori assunti dalle modalità sono ottenuti di solito da un conteggio.
fi fi ff fi ff fi fi fi fi fi
I dati
La matrice dei dati
La matrice dei dati è una tabella rettangolare in cui sono riportati i dati raccolti su ciascuna unità
► statistica rispetto ad una molteplicità di caratteri (o variabili):
•
I caratteri quantitativi continui possono assumere qualsiasi valore contenuto in un intervallo reale:
ogni riga corrisponde ad una unità statistica
• ogni colonna corrisponde ad un carattere (o variabile)
sottoinsieme di R. I valori assunti dalle modalità sono ottenuti da una misurazione.
La matrice dei dati è una tabella rettangolare in cui Unità Età Genere Metodo di Spesa Numero Titolo di studio
sono riportati i dati raccolti su ciascuna unità statistica statistica pagamento di acquisti
Maschio Carta di credito Diploma
27 522,50 3
rispetto ad una molteplicità di + caratteri: 1 Femmina Carta prepagata Licenza media
22 687,00 4
- 2
Ogni riga corrisponde ad un’unità statistica; Femmina Paypol Elementare
76 187,25 1
3
- Ogni colonna corrisponde ad un carattere … … …
… … … …
Femmina Contrassegno Diploma
21 25,50 1
… … …
… … … …
Maschio Carta di credito Laurea
37 387,00 2
Dato statistico
I dati statistici rappresentano la materia prima su cui si basa l’analisi statistica. Non sono
immediatamente fruibili e necessitano di essere elaborati per diventare informazioni, in modo da
aiutare a compresente il fenomeno considerato.
2.
La distribuzione unitaria di 1 o + caratteri è l’elenco delle modalità osservate, unità x unità, nel
collettivo.
- Distribuzione unitaria semplice: 1 solo carattere;
- Distribuzione unitaria doppia: 2 caratteri
In un collettivo formato da N individui, la distribuzione unitaria semplice di un carattere X si indica:
x , x , x , . . . , x , . . . , x
1 2 3 i N
L’informazione contenuta in una distribuzione unitaria non consente di cogliere in maniera
sintetica le caratteristiche del fenomeno oggetto di studio. Per ottenere una sintesi delle
distribuzioni unitarie è possibile considerare per ogni carattere la frequenza con cui le diverse
modalità sono state osservate. La frequenza assoluta è il numero di volte in cui una generica
n
modalità j di un carattere viene osservata nel collettivo: .
j x , x , . . . , x , . . . , x
Lo spoglio dei dati è il conteggio quante volte si presenta ciascuna delle 1 2 j K
modalità del carattere nel collettivo.
Una distribuzione di frequenze assolute è una tabella in cui alle modalità di un carattere
(quantitativo o qualitativo) sono associate le corrispondenti frequenze assolute: numero di volte in
cui ciascuna modalità è stata osservata.
Dato un carattere X con K modalità distinte, osservato in un collettivo di N unità, la distribuzione
di frequenza semplice si rappresenta nel seguente modo:
n
X Frequenza assoluta j
n
x 1
1 n
x 2
2 n
x j
j n
x K
K
Totale N= n +n +…+n +…+n
1 2 j K
Le frequenze assolute non sono di facile interpretazione. La frequenza relativa f , si ottiene
j
dividendo la frequenza assoluta di una modalità per il tot delle unità del collettivo (N) e
n
j
f =
corrisponde alla frazione di unità tali che: j N K
∑
0 ≤ f ≤ 1 f + f + . . . + f + . . . + f = f = 1
Valgono le proprietà: ; e
j 1 2 j K j
j=1
Le frequenze percentuali forniscono un’informazione + intuitiva e di + semplice lettura rispetto alle
frequenza percentuale
frequenze relative. La (p ) si ottiene moltiplicando la frequenza relativa per
j
100 e indica quante unità ogni cento del collettivo presentano una certa modalità (j).
p = f x100 . in questo caso;
j j K
∑
p + p + . . . + p + . . . + p = p = 100
0 ≤ p ≤ 100
proprietà:
Valgono le e
j 1 2 j K j
j=1
Distribuzione di frequenze assolute, relative e percentuali del carattere X:
X Frequenze assolute (n ) Frequenza relativa (f ) Frequenza percentuale (p )
j j j
x n f p
1 1 1 1
x n f p
2 2 2 2
x n f p
j j j j
x n f p
K K K K
Tot N 1 100
qualitativi ordinati o
Quando le modalità di un carattere sono ordinate, quindi per i caratteri
quantitativi, si possono calcolare anche le frequenze cumulate, che ci indicano quante unità di un
collettivo presentano una certa modalità o una modalità precedente.
La frequenza cumulata (ass, rel o %) associata a 1 modalità è data dalla somma della frequenza
(ass, rel o %) riferita a quella stessa modalità con le frequenze delle modalità precedenti indica
→
le unità del collettivo che presentano una modalità inferiore o uguale a .
N = n + n + . . . + n
assoluta
Frequenza cumulata: ;
• j 1 2 j
F = f + f + . . . + f
relativa
Frequenza cumulata: ;
• j 1 2 j
P = p + p + . . . + p
percentuale
• Frequenza cumulata: j 1 2 j
X Frequenze assolute (n ) Frequenza relativa (f ) Frequenza percentuale (p )
j j j
x N = n F P
1 1 1 1 1
x N =n +n F P
2 2 1 2 2 2
x N =n +n +…+n F P
j j 1 2 j j j
x N =n +n +…+n +…+n = N F = 1 P = 1
K K 1 2 j K K K
Tot N 1 100
numero molto elevato di modalità,
Quando il carattere che si vuole analizzare presenta un la
→
distribuzione di frequenze può risultare incomprensibile o inutile modalità con frequenza nulla,
tabella troppo estesa.
Se il carattere è qualitativo (es., province, imprese x settore di attività, ... )
• si ricorre ad un accorpamento delle modalità
carattere è quantitativo
Se il (età, spesa, peso, altezza, etc. )
• suddivisione in classi.
si ricorre alla
Nel caso di caratteri quantitativi, la costruzione della distribuzione di frequenze si può fare
raggruppando le modalità contigue in classi intervalli numerici,
→ tra loro disgiunti,
comprendenti più modalità.
Ad ogni classe si fa corrispondere una frequenza assoluta, relativa o percentuale.
In generale, non esiste una regola per determinare numero e ampiezza delle classi. Ma può essere
opportuno de nire le classi in modo tale che:
• il loro numero sia abbastanza piccolo da fornire una sintesi adeguata ma su cientemente
grande da mantenere un livello di dettaglio accettabile
• siano disgiunte;
• siano esaustive, cioè devono comprendere tutte le possibili modalità del carattere
• stessa ampiezza;
abbiano, se possibile, la in tal caso, una volta stabilito il numero di classi, la
dimensione della classe si ottiene nel modo seguente:
Valore − Valore
ma x min
=
Dimensione classe Le classi sono caratterizzate da:
Num ero
classi
• estremo inferiore: →
il più piccolo valore della classe x j-1
• estremo superiore: →
il valore più grande della classe x j
• ampiezza: →
di erenza tra i due estremi della classe a = x − x
j j j-1
ff fi . ffi
• valore centrale: valore rappresentativo della classe, si ottiene come semi-somma degli estremi
x + x
j−1 j
c =
della classe: j 2
Le classi si possono rappresentare in modo diverso in base all’estremo incluso (a |- b —> [a,b)).
caratteri continui estremo superiore = all’estremo
Nel caso di le classi contigue devono avere
inferiore della classe successiva (altrimenti si perdono le modalità intermedie a queste); inoltre,
è necessario includere uno dei due estremi della classe sennò si perdono i valori corrispondenti.
non è necessario includere uno dei due estremi della classe,
Nei caratteri discreti in quanto
tra le 2 modalità che de niscono gli estremi di 2 classi contigue non esistono modalità intermedie.
In questo caso gli estremi delle due classi contigue non devono essere uguali altrimenti le classi
non sarebbero disgiunte, a meno che non venga speci cato l’estremo da includere.
La distribuzione di quantità è una tabella in cui ad ogni modalità di un carattere si fa corrispondere
quantità,
una dello stesso o di un altro carattere. Tale distribuzione consente di esplicitare come
l’ammontare complessivo di un carattere si distribuisce tra le varie modalità.
Una distribuzione di quantità è il risultato di due operazioni:
• →
classi cazione suddivisione di un collettivo in base
alle modalità di un carattere
• misurazione→quanti cazione, per ogni modalità, dell’ammontare
di un carattere, idealmente trasferibile tra le unità della popolazione
(N.B.: il totale che viene ripartito non riguarda il numero delle unità
statistiche in ciascun settore, bensì la somma dei redditi)
Le serie storiche (o temporali) sono successioni di valori di una grandezza (Y) ordinati rispetto ad
un indice temporale, Y , Y ,… , Y , osservati in T istanti o intervalli temporali generalmente
1 2 T
→
equidistanti tra loro consentono di esprimere la dinamica di un fenomeno nel periodo di tempo
considerato. L’indice temporale de nisce la periodicità di osservazione dei valori della serie e può
riferirsi ad ore, giorni, settimane, mesi, trimestri, quadrimestri, anni, etc.
Le serie territoriali (o spaziali) sono costituite da una successione di valori assunti da una
→
grandezza (Y) in uno stesso momento in unità territoriali di erenti esprimono la distribuzione
geogra ca (o territoriale) di un fenomeno.
Le unità territoriali possono essere nazioni, regioni, province, città, o altre località ancora.
illustrare le distribuzioni di frequenze
Le rappresentazioni gra che hanno lo scopo di o di
quantità con linee o segmenti, aree, volumi, gure o simboli convenzionali. Non forniscono
e cacia
informazioni aggiuntive rispetto a quelle tabulari ma possono essere di grande
comunicativa, se realizzate correttamente.
vantaggi
I gra ci presentano diversi rispetto alle tabelle, poiché consentono di:
• →
Visualizzare immediatamente le caratteristiche principali della distribuzione forma;
• confronto
Favorire il fra + distribuzioni;
• l’analisi andamenti, dati anomali
Agevolare dei fenomeni, evidenziando relazioni e (picchi
gra ci) dovuti a errori nei dati o alla presenza di valori diversi da quelli delle altre osservazioni;
• Divulgare i risultati in maniera e cace.
A nché un gra co sia utile ed e cace dovrebbe contenere tutte le informazioni necessarie alla
comprensione dei dati rappresentati.
Titolo:
• descrive il carattere di riferimento, la distribuzione, il collettivo e quando è stata fatta la
rilevazione.
Etichette:
• descrive le modalità del carattere sull’asse.
Legenda:
• quando sono rappresentate + distribuzioni occorre riportare una legenda che faccia
corrispondere ad ogni colore o simbolo una particolare distribuzione.
Note:
• per citare la fonte dei dati, da riportare alla base del gra co
Le rappresentazioni gra che più utilizzate sono:
torta→
• Gra co caratteri qualitativi sconnessi
a nastri→caratteri
• Gra co qualitativi sconnessi
a barre →
• Gra co caratteri qualitativi sconnessi, ordinati e quantitativi discreti
Istogramma →
• caratteri quantitativi continui
→
• Diagramma cartesiano a linee serie temporali
→
• Cartogramma serie territoriali
• Gra co radar→caratteri ciclici
ffi fi fi
fi
fi
fi fi fi fi fi fi fi
fi
fi ffi
ffi fi fi fi ff fi ffi
Il grafico a torta (diagramma a torta o diagramma circolare) mostra le frequenze di una distribuzione
► sotto forma di settori circolari (o spicchi di un cerchio) caratteri qualitativi sconnessi.
→
E’ particolarmente utile:
► • per rappresentare la composizione di un aggregato
• quando il numero di modalità non è troppo elevato, altrimenti si riduce la dimensione dei settori
circolari rendendo più difficile il confronto
Il gra co a torta (diagramma a torta o diagr. circolare) mostra le frequenze di una distribuzione
L’ampiezza dei settori circolari (angoli al centro) è proporzionale
►
settori circolari →
sotto forma di (spicchi di un cerchio) caratteri qualitativi sconnessi.
alla frequenza relativa:
E’ particolarmente utile:
-
X rappresentare la composizione di un aggregato; Le rappresentazioni grafiche
Le rappresentazioni grafiche
°
= 360 ∙
-
Quando il numero di modalità non è troppo elevato, sennò si riduce la Il grafico a barre o a nastri
Il grafico a barre o a nastri
dimensione dei settori circolari rendendo + di cile il confronto Nei grafici a barre o a nastri le modalità del carattere sono rappresentate da rettangoli
► la cui altezza è proporzionale alla frequenza (assoluta, relativa o percentuale) mentr
Nei grafici a barre o a nastri le modalità del carattere sono rappresentate da re
► uguali.
proporzionale alla
L’ampiezza dei settori circolari (angoli al centro) è la cui altezza è proporzionale alla frequenza (assoluta, relativa o percentual
n uguali.
j
α j = 360
frequenza relativa: .
N
Nei gra ci a barre o a nastri le modalità del carattere sono rappresentate
Le
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Formulario di R completo per esame di Statistica
-
Paniere esame Matematica e statistica completo
-
Formulario completo esame Statistica - 2° parziale
-
Esame statistica riassunto