vuoi
o PayPal
tutte le volte che vuoi
Per statistica monovariata si intende l’insieme degli strumenti statistici che
permettono di rispondere a domande relative a una singola variabile.
La distribuzione semplice di frequenze è un modo di organizzare i dati che
affianca a ogni modalità della variabile in esame la frequenza con cui essa si è
manifestata nel collettivo. A seconda del tipo di variabile la distribuzione di
frequenza assume nomi diversi: serie sconnessa di frequenze, se la variabile è
categoriale; serie ordinata di frequenza, se la variabile è ordinale e seriazione di
frequenze se la variabile è cardinale.
Per sintetizzare e meglio cogliere l’informazione contenuta in una distribuzione
di frequenze, si possono utilizzare anche delle rappresentazioni grafiche. Per
ogni tipo di variabile esistono diversi formati grafici. Per le serie sconnesse di
frequenze i grafici più utilizzati sono il diagramma a barre e il diagramma a
torta. Nel diagramma a barre le modalità della variabile sono rappresentate da
rettangoli aventi tutti la stessa base e una altezza proporzionale alla frequenza
con cui la modalità si è manifestata nel collettivo. Nel grafico possono essere
riportate le frequenze assolute, quelle relative o quelle percentuali. Al grafico a
barre è preferibile il diagramma a torta. Quest’ultimo ha il vantaggio di non
indurre il lettore ad intravedere tra le modalità un ordine da sinistra verso
destra. Nel diagramma a torta sono riportati tanti settori quante sono le modalità
e l’area di ciascun settore è proporzionale alla frequenza della modalità
corrispondente. La rappresentazione grafica di una serie ordinata di frequenze
avviene solitamente attraverso un istogramma. Un istogramma differisce da un
diagramma a barre per il fatto che in esso i rettangoli sono accostati uno all’altro,
senza spazi intermedi, per sottolineare la contiguità fra le categorie, cosa che ha
senso solo quando queste presentano un ordine. Attraverso l’istogramma si
possono rappresentare frequenze assolute, relative o percentuali. Anche delle
frequenze cumulate è possibile dare una rappresentazione grafica, attraverso
quella che viene chiamata spezzata a gradini. La rappresentazione grafica di una
seriazione di frequenze avviene anch’essa attraverso un istogramma, in questo
caso però, la base dei rettangoli è proporzionale all’ampiezza di classe e l’altezza
non rappresenta le frequenze, bensì le densità di frequenza. Talvolta
all’istogramma si preferisce la poligonale di frequenze. La poligonale di
frequenze può essere ottenuta a partire dall’istogramma, congiungendo con una
spezzata i valori centrali delle basi superiori di ciascuna classe. Il ricorso alla
poligonale, in alternativa all’istogramma, è utile quando si debbano confrontare
le distribuzioni di due o più collettivi riferite alla medesima variabile, nel qual
caso la sovrapposizione di rettangoli potrebbe rendere di non facile lettura il
grafico, oppure nel caso in cui le classi siano molto numerose. Quando il
collettivo è molto ampio e le classi hanno un’ampiezza molto piccola la
poligonale tende ad assumere l’aspetto di una curva continua. Le curve continue
spesso vengono utilizzate come modelli teorici per descrivere distribuzioni
empiriche. Una curva molto utilizzata a questi fini è la curva normale detta
anche di Gauss, un particolare tipo di curva a campana. Anche nel caso di
variabili cardinali è possibile dare una rappresentazione delle frequenze
cumulate mediante una poligonale, che in questo caso prende il nome di ogiva.
L’ogiva costruita a partire dai dati effettivamente rilevati è una linea spezzata;
anche in questo caso, quando il collettivo è molto ampio e le classi hanno una
ampiezza molto piccola la poligonale tende ad assumere l’aspetto di una curva
continua. Le distribuzioni di frequenze costituiscono solo uno dei modi possibili
per sintetizzare le informazioni relative a un collettivo. Spesso le informazioni
relative a una distribuzione (vettori) vengono riassunte in un singolo scalare
(numero). La perdita di informazioni che questa operazione necessariamente
comporta è compensata dalla maggior facilità con cui è possibile valutare come
un determinato fenomeno cambi nel tempo o nello spazio. Gli operatori
statistici monovariati sono quei dispositivi che sintetizzano la distribuzione di
una variabile in uno scalare. Si distinguono solitamente tre classi principali di
operatori monovariati:
Operatori che servono a valutare la tendenza centrale;
• Operatori che servono a valutare la dispersione;
• Operatori che servono a valutare la forma.
•
Gli operatori di tendenza centrale restituiscono uno scalare che ha il compito di
esprimere sinteticamente come si è manifestata la proprietà in esame nel
collettivo considerato. Una misura di tendenza centrale è un valore che
rappresenta al meglio la distribuzione intera; esso può essere rappresentativo
(centrale) in quanto è il più frequente oppure perché occupa una posizione
intermedia nella distribuzione o ancora perché costituisce un vero e proprio
centro geometrico della distribuzione in esame. Una proprietà che accomuna
tutti gli operatori di tendenza centrale è il fatto di produrre un valore che è
compreso tra quelli che la variabile può assumere. Una misura di tendenza
centrale, in altre parole, deve rispettare il criterio di internalità.
Gli operatori di dispersione hanno il compito di restituire uno scalare che
informi circa la diversità esistente tra le osservazioni. Quando le variabili sono
cardinali, gli indici di forma valutano la simmetria o asimmetria della
distribuzione.
Quando una variabile è categoriale l’operatore di tendenza centrale adeguato a
rappresentare la distribuzione è la moda (o norma), ovvero la modalità più
ricorrente della variabile. La moda può essere calcolata anche per variabili
ordinali e cardinali. In questo caso, parliamo di distribuzioni unimodali se esse
hanno un solo punto di massimo; parliamo di distribuzioni bi-modali (o k-
modali) se esse hanno due (o k) massimi relativi.
Per le variabili ordinali si dispone di una ulteriore misura di tendenza centrale: la
mediana. Quando l’ampiezza del collettivo (N) è un numero dispari, la mediana
è la modalità a cui appartiene quel caso che chiameremo caso mediano, che
divide esattamente a metà la distribuzione.
Con un procedimento analogo al calcolo della mediana è possibile suddividere
una distribuzione in più parti uguali, originando quelli che vengono definiti
quantili o operatori di posizione. Gli operatori di posizione, tra i quali rientra
anche la mediana, possono essere applicati quando le variabili sono almeno
ordinali. I quantili sono una famiglia di misure e si distinguono a seconda del
numero di parti uguali in cui suddividono una distribuzione. I quantili vengono
detti quartili se suddividono la distribuzione in quattro parti uguali. I quartili
sono tre: il 1° quartile, che corrisponde alla modalità contenente il caso al di
sotto e al di sopra del quale cadono rispettivamente il 25% e il 75% dei casi; il 2°
quartile, che origina due distribuzioni parziali contenenti ognuna il 50% delle
osservazioni, e coincide quindi con la mediana; infine il 3° quartile, che è il valore
al di sotto del quale ricade il 75% dei casi e al di sopra il 25%.
Un operatore di dispersione produce uno scalare con cui si valuta
sinteticamente la diversità esistente tra le osservazioni. La dispersione assume
nomi differenti a seconda del livello di scala della variabile. Per le variabili
categoriali si parla di eterogeneità di una distribuzione o, adottando un punto di
vista speculare, di omogeneità. Per i livelli di scala superiori si parla di
variabilità, distinguendola a sua volta in variabilità non metrica, se le variabili
sono ordinali, e in variabilità metrica, se le variabili sono cardinali. Per ciascun
tipo di variabile è possibile distinguere tra operatori che restituiscono valori
assoluti (ossia valori dipendenti dall’unità di misura o, nel caso di variabili
categoriali, dal numero delle modalità) e operatori che restituiscono valori
relativi (valori che variano all’interno di un medesimo intervallo, a prescindere
dall’unità di misura o dal numero di modalità delle variabili).
Si definisce distribuzione simmetrica una distribuzione nella quale le modalità
che sono equidistanti dalla mediana hanno la stessa frequenza. In una
distribuzione simmetrica media e mediana coincidono; se la distribuzione è
unimodale anche la moda coincide con la media e la mediana. La curva normale è
il più importante esempio di curva simmetrica. La distribuzione di molti
fenomeni appare simile a quella della normale, ma risulta più appuntita o più
piatta. La curtosi è una misura di quanto la distribuzione è più appuntita di
quella normale – in questo caso la distribuzione viene detta leptocurtica – o più
piatta -, in quest’ultimo caso la distribuzione viene detta platicurtica.
Spesso è utile trasformare una variabile cardinale con una determinata media e
varianza in un’altra con media e varianza specificate dal ricercatore.
L’operazione che consente questa trasformazione viene detta
standardizzazione. Generalmente le distribuzioni standardizzate si
caratterizzano per il fatto di avere media pari a zero e varianza pari a uno.
Statistica descrittiva multivariata
Lo stereogramma è un esempio di grafico utilizzato per le distribuzioni doppie
di frequenza. La rappresentazione avviene in uno spazio a tre dimensioni (x, y e
z) nel quale sono riportate sui primi due assi le modalità delle due variabili e sul
terzo le frequenze con cui ciascuna coppia di modalità si è presentata nel
collettivo.
Il diagramma di dispersione è un diagramma cartesiano nel quale i punti
rappresentano i casi e le variabili costituiscono gli assi; in esso è del tutto assente
l’informazione sulla distribuzione di frequenza congiunta.
Un operatore statistico bivariato è un procedimento di calcolo che considera
due variabili e sintetizza l’informazione sulla loro distribuzione congiunta in uno
scalare. Gli operatori bivariati principali possono essere distinti in tre classi:
Operatori che servono a valutare la connessione;
• Operatori che servono a valutare la concordanza;
• Operatori che servono a valutare la determinazione.
•
Gli operatori di concordanza, nel caso di variabili sia categoriali, sia ordinali o
cardinali, si caratterizzano per la presenza di