Analisi dei dati
Dispense a cura di R. Baragona e L. Bocci
Integrazione al capitolo 4: medie e variabilità
4.1. Indici medi, di posizione e di dimensione
La distribuzione di frequenze di un carattere contiene tutte le informazioni sul fenomeno che si intende studiare relativamente al collettivo osservato. Tuttavia, benché tale distribuzione rappresenti già una sintesi delle informazioni raccolte, generalmente essa contiene ancora troppe informazioni affinché la nostra mente riesca ad acquisirle tutte per poterle confrontare, ad esempio, con quelle che si hanno per altri collettivi.
Si rende, dunque, necessario operare una maggiore sintesi attraverso delle elaborazioni sulle distribuzioni che ci portano a definire gli indici medi. In tale operazione di sintesi gli indici medi, anche se da una parte permettono alla nostra mente di acquisire meglio alcune caratteristiche del collettivo, dall'altra però fanno perdere informazioni.
Quindi, per confrontare rapidamente situazioni e tempi differenti si procede alla sintesi della distribuzione di ciascun carattere attraverso cui si manifesta il fenomeno collettivo in esame con un solo valore costituito dall'indice sintetico di dimensione o di posizione, ovvero la media. Ne consegue che la media fornisce un'idea sintetica della distribuzione del carattere sul collettivo in esame.
Una prima definizione di media che ci consente di capire il suo ruolo è quella fornita da Cauchy secondo il quale la media per caratteri quantitativi deve essere un valore compreso tra le modalità minima e massima della distribuzione del carattere. In generale possiamo estendere tale definizione a tutti i tipi di caratteri, siano essi qualitativi o quantitativi, affermando che la media deve essere un valore omogeneo con i dati e perciò deve essere compreso tra le modalità della distribuzione.
Esistono diversi tipi di indici medi a seconda dell'informazione che si vuole fornire e del tipo di medie di posizione o medie situazionali che si sta analizzando. In particolare si distinguono: medie di posizione e analitiche.
4.1.1. Le medie di posizione
Le medie di posizione sono indici sintetici che possono essere calcolati sia per caratteri qualitativi che quantitativi. In generale si tratta di modalità che occupano una posizione particolare nella distribuzione del carattere. Poiché il calcolo di questi indici è basato sulla posizione delle modalità all'interno della distribuzione del carattere, non dipendono direttamente da ogni singolo dato.
Sulla base di questa caratteristica, si può notare che le medie di posizione:
- Non necessariamente si modificano se si cambia anche un solo dato nella distribuzione del carattere;
- Sfruttano solo parzialmente l'informazione statistica disponibile.
Tra le medie di posizione troviamo la moda e la mediana.
Moda
La moda può essere calcolata sia per caratteri qualitativi che quantitativi. Questo valore medio è, inoltre, l'unico che può essere calcolato nel caso di caratteri qualitativi sconnessi e quindi misurabili solo su scala nominale. La moda è la modalità a cui corrisponde la massima frequenza nella distribuzione di frequenze del carattere osservato.
Esempio 1
La seguente tabella 1 rappresenta la distribuzione semplice di frequenze del carattere qualitativo sconnesso "tipo di corso di laurea" osservato sulla popolazione degli studenti italiani in corso nell'a.a. 1992-1993.
| Tipo di corso di laurea | Frequenze assolute | Frequenze relative |
|---|---|---|
| Scientifico | 118.225 | 0,116 |
| Medico | 45.919 | 0,045 |
| Ingegneristico | 189.358 | 0,186 |
| Economico | 183.490 | 0,180 |
| Politico-sociale | 94.916 | 0,093 |
| Giuridico | 176.155 | 0,173 |
| Letterario | 211.388 | 0,207 |
| Totale | 1.019.451 | 1,000 |
Fonte: MURST, 1993
La moda del carattere "tipo di corso di laurea" è la modalità Letterario in quanto è la modalità più frequente (frequenza assoluta 211.388 e frequenza relativa 0,207 più grandi di quelle di tutte le altre modalità).
Esempio 2
In alcune situazioni osservazionali la moda non è unica: nel caso in cui nella distribuzione di frequenze del carattere osservato vi fossero due modalità a cui è associata la medesima frequenza più elevata di tutte le altre ci troveremo in presenza di due mode e la distribuzione del carattere sarà, così, bimodale.
La medesima situazione osservata nell'esempio 1 si ritrova nella seguente tabella 2 in cui viene rappresentata la distribuzione semplice di frequenze del carattere qualitativo sconnesso "tipo di corso di laurea" osservato, questa volta, sulla popolazione degli studenti italiani fuori corso nell'a.a. 1992-1993. In questo caso non si individua solo una moda ma si possono identificare due mode.
| Tipo di corso di laurea | Frequenze assolute | Frequenze relative |
|---|---|---|
| Scientifico | 56.477 | 0,121 |
| Medico | 44.788 | 0,096 |
| Ingegneristico | 84.356 | 0,180 |
| Economico | 84.356 | 0,180 |
| Politico-sociale | 44.272 | 0,095 |
| Giuridico | 75.987 | 0,162 |
| Letterario | 77.600 | 0,166 |
| Totale | 467.835 | 1,000 |
Fonte: MURST, 1993
Il carattere "tipo di corso di laurea" è bimodale in quanto presenta due mode che sono le modalità Ingegneristico e Economico. In effetti, come si nota dalla tabella 2, queste due modalità, con una frequenza assoluta pari a 84.356 e una frequenza relativa pari a 0,180, sono le più frequenti.
Esempio 3
Nel caso in cui si dovesse calcolare la moda per la distribuzione di un carattere quantitativo suddiviso in classi, si dovrebbe calcolare la classe modale: si tratta della classe di modalità numeriche a cui è associata la massima densità media di frequenza calcolata, quest'ultima, come rapporto tra la frequenza della classe e l'ampiezza della medesima.
Si supponga di avere osservato il carattere quantitativo "età" su un collettivo di 4123 lettori di quotidiani. La distribuzione di frequenze del carattere "età" raggruppato in classi è la seguente.
| Classi di età | Frequenze assolute | Ampiezza classi | Densità media di frequenza |
|---|---|---|---|
| 6 |- 11 | 31 | 5 | 31/5=8,8 |
| 11 |- 14 | 83 | 3 | 83/3=27,7 |
| 14 |- 20 | 419 | 6 | 419/6=69,8 |
| 20 |- 25 | 416 | 5 | 416/5=83,2 |
| 25 |- 35 | 792 | 10 | 792/10=79,2 |
| 35 |- 45 | 783 | 10 | 783/10=78,3 |
| 45 |- 55 | 670 | 10 | 670/10=67,0 |
| 55 |- 65 | 537 | 10 | 537/10=53,7 |
| 65 |- 80 | 392 | 15 | 392/15=26,1 |
| Totale | 4123 |
L'analisi delle frequenze assolute ci condurrebbe ad affermare che la classe modale è [25, 35) avendo essa associata una frequenza assoluta pari a 792 che è la più grande tra tutte le frequenze osservate. Tuttavia, questa analisi è fuorviata dalla presenza di classi di modalità di differente ampiezza all'interno delle quali troviamo frequenze differenti tra loro. Per pervenire, dunque, ad una analisi corretta si deve prendere in considerazione la densità media di frequenza. Dall'analisi della densità media di frequenza risulta che la moda del carattere "età" nella popolazione dei lettori di quotidiani in esame è la classe di modalità [20, 25). Infatti, a questa classe corrisponde la più alta densità media di frequenza (83,2), anche se la frequenza assoluta (416) ad essa corrispondente non è la più elevata.
Mediana
La mediana (Me) può essere calcolata per caratteri qualitativi ordinati (mutabili ordinali) e caratteri quantitativi. La mediana è la modalità che bipartisce la graduatoria (crescente o decrescente) delle osservazioni. Quindi la mediana è quella modalità rispetto alla quale si trovano uno stesso numero di modalità (e quindi di unità statistiche che presentano quelle modalità) più piccole o più grandi: in pratica il 50% delle unità statistiche presenta un modalità più piccola o al più uguale alla mediana e l'altro 50% delle unità statistiche presenta un modalità più grande o al più uguale alla mediana.
Fasi per il calcolo della mediana
- Ordinare in senso crescente (o decrescente) le unità statistiche rispetto alle modalità su di esse osservate del carattere in esame.
- Individuare l'unità che occupa il posto centrale nel seguente modo:
- Se il numero N di unità osservate è dispari, allora l'unità che occupa il posto centrale è quella che si trova nella posizione \(\frac{N+1}{2}\).
- Se il numero N di unità osservate è pari, allora si individuano due unità che occupano i due posti centrali e cioè:
- L'unità che occupa il posto \(\frac{N}{2}\);
- L'unità che occupa il posto \(\frac{N}{2}+1\).
- La mediana è la modalità presentata dall'unità statistica individuata al punto 2. Quindi:
- Se il numero N di unità osservate è dispari, allora la mediana è la modalità presentata dall'unità statistica che occupa il posto \(\frac{N+1}{2}\), per cui Me = \((x_{\frac{N+1}{2}})\).
- Se il numero N di unità osservate è pari, allora la mediana è costituita dalla coppia di modalità presentate dalle due unità statistiche che, rispettivamente, occupano i posti \(\frac{N}{2}\) e \(\frac{N}{2}+1\), per cui Me = \(\frac{x_{\frac{N}{2}} + x_{\frac{N}{2}+1}}{2}\).
Proprietà della mediana
- La mediana è sempre una modalità "effettivamente assunta" dal carattere nel collettivo in esame. L'unica eccezione si ha nel caso di un carattere quantitativo con N pari.
- La mediana è compresa tra la modalità minima \(x_1\) e la modalità massima \(x_K\) (modalità qualitative ordinate o numeriche) del carattere.
-
Appunti di Analisi dati
-
Analisi dei dati - nozioni generali
-
Analisi dei dati
-
Esercizi di "Analisi dei dati"