STATISTICA
- Statistica: disciplina che ha come scopo lo studio quantitativo e
qualitativo di un fenomeno particolare in condizioni di non
determinismo. Si avvale della matematica, è strumento del metodo
scientifico
- Metodo statistico: serie di metodologie per ricavare dati e
successivamente organizzare, analizzare, sintetizzare, interpretare,
rappresentare le conclusioni ricavate dai dati
POPOLAZIONE STATISTICA: insieme completo degli elementi oggetto di studio
(a chi è rivolto lo studio)
CAMPIONE STATISTICO: sottocollezione della popolazione su cui viene
effettivamente svolto lo studio. sottoinsieme di numerosità limitata
rappresentativo della popolazione scelta con particolari accorgimenti
UNITA’ STATISTICA: singola persona oggetto di studio
PARAMETRO: misura di una caratteristica di un’intera popolazione
STATISTICA: misura di una caratteristica di un campione
- DATI: osservazioni raccolte (materia prima)
1) QUALITATIVI: presentano caratteristiche non numeriche (espressi in
forma verbale)
1.1) NOMINALI: non sono rapportabili tra loro (genere, paese) (2 =
dicotomiche)
1.2) ORDINALI: es. misurano gravità di un sintomo
2) QUANTITATIVI: espressi da
numeri relativamente a
rilevazioni quantitative
2.1) DISCRETI: valori
stabiliti in un intervallo (es.
numeri interi 1,2,3,4, …)
2.2) CONTINUI: valori
possibili sono infiniti senza
salti (es 0,3443 o 1,4939)
GERARCHIA DELLE SCALE DI
RAPPRESENTAZIONE:
- NOMINALE (qn)
- ORDINALE (qn)
- AD INTERVALLI (qt)
- A RAPPORTI (qt)
N = campione statistico
1
n = iesima unità statistica
i
X = fenomeno in studio
k = numero delle modalità di X (modo di presentarsi di un carattere o
fenomeno)
x = generica (iesima) modalità di x, manifestazione della variabile nell’unità
i
f = frequenza della generica modalità x
i i
DISTRIBUZIONE: - DISAGGREGATA (per unità) (dati grezzi)
- AGGREGATA (per frequenze)
FREQUENZE: il numero delle unità che presentano la stessa modalità. k
∑
- ASSOLUTE f : numero delle n presentano stessa modalità x fi=N
i i i i=1
k
∑
- RELATIVE p : proporzione tra f ed N (totale casi osservati) pi=1
i i i=1
- PERCENTUALI p : (p 100)%
i(%) i *
k
∑ pi(%)=100
i=1
- CUMULATE (A, R, P) c : si ottiene sommando alla frequenza associata ad
i
un valore tutte le frequenze dei valori che lo precedono. (rivedere)
CLASSE: Quando le modalità della variabile sono molte è preferibile
raggrupparle in classi (INTERVALLI). Una tabella di dati grezzi è poco
informativa, molto spesso è più vantaggioso utilizzare una distribuzione per
classi. Con variabili quantitative a rapporti si raggruppano più modalità e si
creano classi con diversa ampiezza (es. età, da singole età a classi di ampiezza
10 – 20/30 31/40 41/50, …). Una volta aggregati i dati grezzi, non è più
possibile tornare indietro.
TABELLE DI FREQUENZA: consentono di raccogliere dati derivanti dal calcolo
della distribuzione di frequenza
- TABELLE SEMPICI: dati classificati secondo una variabile, accostamento
modalità e frequenze
- TABELLE A DOPPIA ENTRATA (distribuzione statistica doppia):
classificazione delle unità secondo modalità di due caratteri, le frequenze
sono calcolate tenendo conto delle combinazioni delle modalità delle due
variabili
K1 K2 K3
X X X
2 K1
Y
K2
Y K1 K2
X X
N K1
Y tabella 2x3
K K K K K K2
1 2 3 4 5 Y tabella 3x2
K tabella 4x5
K3
1 Y
K N
2 In ciascuna cella è riportata la
frequenza di cella (CONGIUNTA) anche in forma
K percentuale.
3 RIGA: forma distribuzione marginale di riga /
COLONNA: distribuzione marginale di colonna
K
4 PERCENTUALE CONDIZIONATA: di riga o di
colonna (in base alla distribuzione marginale di
riga o colonna)
N
INDICATORI DI TENDENZA
1) INDICATORI DI TENDENZA CENTRALE: valori che si trovano al centro di un
insieme di dati e consentono di sintetizzarli
Mo:
1.1) MODA scelta fatta dalla maggioranza della popolazione, valore
con la frequenza più elevata. Se una distribuzione presenta una
sola moda è detta UNIMODALE, altrimenti può essere BIMODALE o
PLURIMODALE. Va bene per tutte le scale di misura.
Me, Mdn:
1.2) MEDIANA valore che occupa una posizione centrale in una
distribuzione ordinata. n = (n+1)/2 (se n dispari ok, se pari è
me
la media tra i due valori centrali). Va bene per scale di misura
ordinale, a intervalli, a rapporti. (No ordinale)
3 1.3) MEDIA: misura di centralità data dalla somma delle misure
osservate diviso il numero delle osservazioni fatte.
in popolazione, M o per i campioni
X .
n n
∑ ∑
xi x f Se la distribuzione è di frequenza (diventa
i i
i=1 i=1
= =
X X
N N
una media pesata)
1.3.1) PROPRIETA’ DELLA MEDIA
I = la somma degli scarti dei singoli valori dalla media è sempre
uguale a 0
n
∑ ( ) =0
Xi−M
i=1
II= la somma del quadrato degli scarti di ciascun valore di X da una
c
costante è minima per c = M a
n
∑ 2
( ) =M
xi−c minima per c a
i=1
Mo=Mdn=M
se allora la curva è una CURVA NORMALE (di Gauss), e si dice che
si distribuisce normalmente
2) INDICATORI DI
DISPERSIONE: necessari per studiare la variabilità di un carattere, ovvero
la sua attitudine ad assumere diverse modalità.
n
∑ | |
xi−M
2.1) SCOSTAMENTO SEMPLICE MEDIO: i=1 N
n
∑ 2
2.2) DEVIANZA: ( )
xi−M
i=1 n
∑ 2
(xi−M )
2.3) VARIANZA: devianza su osservazioni totali 2 i=1
=
σ N
2.3) DEVIAZIONE STANDARD: radice quadrata della varianza, misura
della media della variazione dei valori rispetto alla media. È sempre
√ n
∑ 2
( )
xi−M
positiva, al massimo 0 quando tutti i valori sono uguali. i=1
=
σ N
POPOLAZIONE CAMPIONE
parametro Indicatore/ statistica
4 = media della popolazione M o = media campionaria
X
μ = varianza s = varianza
2
2
σ
= scarto quadratico medio s = deviazione standard
σ
= stime frequenze popolazione p = proporzioni
π (lettere greche) (lettere latine)
LA DISTRIBUZIONE NORMALE
Se la variabile quantitativa continua presenta un grafico simmetrico a forma di
Mo=Mdn=M
campana e allora si dice che si distribuisce normalmente. È quindi
unimodale, asintotica a x, e presenta
due punti di flesso a m-s e a m+s.
−1 x−μ
( )
2
2 σ
e
y= √
s 2 π
Essendo la somma delle p pari ad 1,
i
l’area sottesa alla curva è pari
esattamente ad 1. Essendo
simmetrica, si può dedurre che quindi
la parte di curva a sinistra dell’asse y,
come quella a destra, avrà area pari a 0,5.
Per usi pratici della distribuzione normale si
ricorre alla
CURVA NORMALE STANDARDIZZATA (che si
ottiene sottraendo al valore della x il valore
della media, dividendo poi il tutto per la
deviazione standard).
FORMULA DI STANDARDIZZAZIONE
x−m
z= s
in questo modo avremo una curva simmetrica rispetto all’asse y con
x = 0
media
s = 1
var = 1
z descrive quanto il punteggio x sia sotto o sopra la media in termini di
i i
deviazioni standard. In questo modo possiamo confrontare la distribuzione con
altre distribuzioni standardizzate e calcolare le aree delimitate da specifici punti
(da 0 a quel punto) tramite delle tavole.
5 LA CORRELAZIONE LINEARE SEMPLICE
Molto spesso l’obiettivo nella statistica non è solamente studiare un fenomeno,
ma anche studiare come due o più fenomeni interagiscono tra loro, in che
modo e in che misura. Due variabili, infatti, possono anche variare insieme,
quindi co-variare, e da questo si può
comprendere quale sia la relazione che
lega le due variabili x e y.
- RAPPRESENTARE LE DUE
VARIABILI IN UN GRAFICO E
OSSERVARNE L’ANDAMENTO
1) Mettere in evidenza la relazione
esistente tra le due variabili
2) STABILIRE IL TIPO DI RELAZIONE