vuoi
o PayPal
tutte le volte che vuoi
Anche quando i dati sono raggruppati in classi, la somma delle frequenze è pari al numero di
soggetti
Variabile discreta – Variabile continua (con decimali)
Per definire una regola univoca di attribuzione dei casi alle classi, si definiscono i cosiddetti “limiti
veri (o reali) degli intervalli. Gli intervalli indicati in tabella vengono definiti limiti tabulati
I limiti veri si ottengono aggiungendo .50 al limite tabulato superiore e sottraendo .50 al limite
tabulato inferiore
Limiti tabulati Limiti veri
72-73 71.5 +- 73.5
74-75 73.5 +- 75.5
76-77 75.5 +- 77.5
78-79 77.5 +- 79.5
Il simbolo +- indica che in ogni intervallo vengono inclusi i valori > al limite inferiore e ≤ al limite
superiore. I valori che coincidono con il limite vero di due classi si collocano nella classe con i
valori più piccoli
Il punto medio di ciascuna classe (o X centrale, Xc) è pari alla media dei limiti inferiore e
superiore. Indifferente usare limiti reali o tabulati. I punti medi servono per rappresentare i dati in
un poligono di frequenza o per eseguire ulteriori calcoli sulle frequenze delle classi
Criteri da seguire nella definizione delle classi:
Il numero di classi non deve essere né troppo esiguo, né troppo elevato (un numero
• ragionevole è in genere compreso tra 5 e 20)
È preferibile che le classi siano di uguale ampiezza (non sempre è possibile!)
• Le classi devono coprire l’intera gamma di punteggi
• Gli intervalli devono essere mutualmente esclusivi
•
A volte è utile trasformare la distribuzione delle frequenze in distribuzioni di frequenze percentuali:
f% = f*100/n
n = numero totale dei casi
f = frequenza dei casi che assumono un certo valore
f% = frequenza percentuale dei casi che assumono un certo valore
La somma di tutte le f % è pari a 100
f/n proporzione
Le rappresentazioni grafiche per variabili quantitative
Le distribuzioni di frequenza possono essere rappresentate graficamente in vari modi
I grafici hanno la funzione di riassumere i dati, in modo che siano facilmente leggibili
I due grafici più utilizzati per le variabili quantitative sono:
Istogramma
• Poligono di frequenza
•
L’istogramma
L’istogramma è una rappresentazione grafica su due assi cartesiani
Sull’asse delle ascisse viene riportata l’intera gamma di valori della variabile
Sull’asse delle ordinate vengono riportate le frequenze di ciascun valore
Nell’istogramma le colonne sono giustapposte (variabile metrica, quantitativa)
Quando i dati sono raggruppati (in classi di uguale ampiezza):
Sull’asse delle ascisse vengono riportati i limiti veri delle classi
Sull’asse delle ordinate vengono riportate le frequenze delle classi (nei casi in cui le classi non siano
di uguale ampiezza, il valore da riportare sulle ordinate è pari a frequenza/ampiezza)
Il poligono di frequenza
Consente di rappresentare graficamente una o più distribuzioni di frequenza
Si rappresenta in un sistema di assi cartesiani:
In ascissa si riportano i valori della variabile (o i punti medi delle classi, quando i dati raggruppati)
In ordinata si riportano le frequenze
Il poligono di frequenza è la linea che si ottiene congiungendo con segmenti di retta i punti
all’incrocio tra i valori (dati non raggruppati) o i punti medi (dati raggruppati) e le relative
frequenze
Le tabelle di frequenza per variabili qualitative
Nel caso di mutabili, le tabelle di frequenza includono tutte le possibili modalità di una variabile
(es. Stato civile) e le frequenze con cui si presentano le varie modalità
Stato civile Frequenza (f)
Celibe 3
Coniugato 4
Divorziato 1
Vedovo 2
I grafici più utilizzati per le variabili qualitative sono il grafico a barre (colonne separate) e il
grafico a torta
Tabelle e rappresentazioni grafiche in SPSS
Sono disponibili nella finestra di dialogo «Frequenze» (selezionabile dal menu «Analizza»,
procedura «Statistiche Descrittive»)
Per ottenere le tabelle di frequenza
1)Selezionare la variabile di interesse e spostarla nel menu delle variabili attive (es «esito_psi»)
2)Cliccare su «OK»
Le percentuali cumulate sono le percentuali di un punteggio, più quelle di tutti i punteggi di ordine
inferiore
Per ottenere le rappresentazioni grafiche
1) Cliccare sull’opzione «Grafici»
2) Selezionare un tipo di grafico (es. «Istogramma»)
3) Cliccare su «Continua»
4) Cliccare su «OK»
Tendenza centrale e dispersione
Indici di tendenza centrale
Gli indici di tendenza centrale individuano gli aspetti “tipici”, ovvero i valori più rappresentativi
della distribuzione. Questi indici consentono di riassumere un’intera distribuzione di frequenza in
un unico numero
Gli indici di tendenza centrale più utilizzati sono:
Moda → calcolabile con scale nominali, ordinali, a intervalli e a rapporti
• Mediana → calcolabile con scale ordinali, a intervalli e a rapporti
• Media → calcolabile solo con scale a intervalli e a rapporti
•
La moda
- La moda è l’osservazione che si presenta con maggiore frequenza nella distribuzione dei dati
- Può essere calcolata con qualunque tipo di scala di misura (nominale, ordinale, a intervalli o a
rapporti)
- È l’unica misura di tendenza centrale per dati su scala nominale, poiché dipende esclusivamente
dal calcolo delle frequenze
Voti f
2 1
3 2
4 5
5 8
6 => MODA 10 => NON moda
7 5
8 3
9 1
Tot 35
Alcune distribuzioni sono bimodali, ovvero hanno due mode
- In senso stretto, una distribuzione è bimodale se vi sono due valori con la stessa frequenza più
elevata
- In senso lato, è sufficiente che vi siano due valori con frequenze decisamente più elevate
rispetto alle altre (anche se diverse tra loro)
La mediana
- La mediana è il valore che divide la distribuzione in due parti uguali
- È il valore della distribuzione al di sopra o al di sotto del quale cade un ugual numero di
osservazioni
- Può essere calcolata su scale ordinali, a intervalli e a rapporti ma non su scale nominali
- È il valore che occupa la posizione centrale in una serie ordinata di dati: metà osservazioni
ottengono punteggi inferiori alla mediana, l’altra metà ottiene punteggi superiori
Per calcolare la mediana:
1. Si dispongono le n osservazioni in ordine crescente (oppure decrescente). Ripetere ciascun
valore quante sono le sue frequenze
2. Se il numero (n) di osservazioni è dispari, la mediana corrisponde al valore che occupa la
posizione (n + 1)/2
3. Se il numero (n) di osservazioni è pari, ci sono due mediane (coppia mediana), che
occupano le posizioni n/2 e (n/2+1). Se si vuole esprimere la tendenza centrale con un solo
valore (anche quando n è pari), si può utilizzare la media delle due mediane
Esempio
Supponiamo di misurare il numero di comportamenti aggressivi messi in atto da 11 bambini nel
corso di un esperimento (n = 11): 7 5 1 3 4 10 8 4 0 8 9
1) Per calcolare la mediana, dobbiamo innanzitutto disporre i valori in ordine crescente:
0 1 3 4 4 5 7 8 8 9 10
2) Con 11 osservazioni (n=11) la mediana è rappresentata dal valore occupa la seguente posizione:
(n 1) / 2 (11 1) / 2 12 / 2 6
3) Se la posizione mediana è 6, la mediana è pari a 5, nella sequenza ordinata dei valori, infatti …
1a 2a 3a 4a 5a 6a 7a 8a 9a 10a 11a
0 1 3 4 4 5 7 8 8 9 10
«5» è il valore che occupa la posizione centrale
Quando i dati sono disposti in una tabella di frequenze, un modo più semplice per calcolare la
mediana si basa sull’utilizzo delle frequenze cumulate.
Le frequenze cumulate sono le frequenze di un punteggio, più le frequenze di tutti i punteggi di
ordine inferiore.
Per calcolare la mediana:
1. Si calcolano le frequenze cumulate
2. Si identifica la posizione in cui si colloca la mediana (POS Me), tramite le solite formule:
POS Me = (n+1)/2 → se n è dispari
POS Me = n/2 e (n/2+1) → se n è pari
3. Si individua la mediana: la mediana è il valore che si trova in corrispondenza della
frequenza cumulata uguale a POS Me, se POS Me non corrisponde a nessuna frequenza
cumulata, la mediana si trova nella prima frequenza cumulata superiore a POS Me
Esempio
Torniamo all’esempio precedente. Poiché il numero delle osservazioni è 35 (n = 35), la posizione in
cui si trova la mediana è: POS Me (n 1) / 2 36 / 2 18
2 1 1
3 2 3
4 5 8
5 8 16
6 mediana 10 26 è la prima frequenza cumulata maggiore a POS Me
7 5 31
8 3 34
9 1 35
35
Infatti, se disponiamo le osservazioni in una sequenza ordinata:
2 3 3 4 4 4 4 4 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 8 8 8 9
6 è il valore che si trova nella 18° posizione
Circa metà soggetti ha ottenuto un voto inferiore a 6
L’altra metà ha ottenuto un voto superiore a 6
In altri termini, 6 è il valore che divide la distribuzione in due parti uguali
Oltre alla mediana, che rappresenta un indicatore di tendenza centrale della distribuzione, vi sono
altri indici di posizione, che vengono calcolati in maniera del tutto analoga alla mediana:
Altri indici di posizione
Quartili → dividono la distribuzione in quattro parti uguali
• Decili → dividono la distribuzione in dieci parti uguali
• Percentili → dividono la distribuzione in cento parti uguali
•
Quartili: sono quei tre valori che dividono la distribuzione in quattro parti uguali:
- Il primo quartile (Q1) è il valore al di sotto del quale cade il 25% dei casi
- Il secondo quartile (Q2) è il valore al di sotto del quale cade il 50% dei casi (corrisp a mediana)
- Il terzo quartile (Q3) è il valore al di sotto del quale cade il 75% casi
Analogamente al calcolo della mediana, per calcolare un quartile:
1) Si calcolano le frequenze cumulate
2) Si identifica la posizione occupata dal quartile con le seguenti formule:
POS Q1 = n+1/4 * 1
POS Q2 = n+1/4 * 2
POS Q3 = n+1/4 * 3
3) Si trova, nella distribuzione delle frequenze cumulate, la posizione (POS) del quartile che si
intende calcolare e si legge il valore corrispondente
Decili: sono nove valori che dividono la distribuzione in dieci parti uguali:
- Il primo decile (D1) è il valore al di sotto del quale cade il 10% dei casi
- Il secondo decile (D2) è il valore al di sotto del quale cade il 20% dei casi
- [...]
- Il quinto decile (D5), è il valore al di sotto del quale cade il 50% casi (corrisponde alla mediana)
- [...]