Estratto del documento

Analisi dei dati

Dispense a cura di R. Baragona e L. Bocci

Integrazione al capitolo 4: medie e variabilità

4.1. Indici medi, di posizione e di dimensione

La distribuzione di frequenze di un carattere contiene tutte le informazioni sul fenomeno che si intende studiare relativamente al collettivo osservato. Tuttavia, benché tale distribuzione rappresenti già una sintesi delle informazioni raccolte, generalmente essa contiene ancora troppe informazioni affinché la nostra mente riesca ad acquisirle tutte per poterle confrontare, ad esempio, con quelle che si hanno per altri collettivi.

Si rende, dunque, necessario operare una maggiore sintesi attraverso delle elaborazioni sulle distribuzioni che ci portano a definire gli indici medi. In tale operazione di sintesi gli indici medi, anche se da una parte permettono alla nostra mente di acquisire meglio alcune caratteristiche del collettivo, dall'altra però fanno perdere informazioni.

Quindi, per confrontare rapidamente situazioni e tempi differenti si procede alla sintesi della distribuzione di ciascun carattere attraverso cui si manifesta il fenomeno collettivo in esame con un solo valore costituito dall'indice sintetico di dimensione o di posizione, ovvero la media. Ne consegue che la media fornisce un'idea sintetica della distribuzione del carattere sul collettivo in esame.

Una prima definizione di media che ci consente di capire il suo ruolo è quella fornita da Cauchy secondo il quale la media per caratteri quantitativi deve essere un valore compreso tra le modalità minima e massima della distribuzione del carattere. In generale possiamo estendere tale definizione a tutti i tipi di caratteri, siano essi qualitativi o quantitativi, affermando che la media deve essere un valore omogeneo con i dati e perciò deve essere compreso tra le modalità della distribuzione.

Esistono diversi tipi di indici medi a seconda dell'informazione che si vuole fornire e del tipo di medie di posizione o medie situazionali che si sta analizzando. In particolare si distinguono: medie di posizione e analitiche.

4.1.1. Le medie di posizione

Le medie di posizione sono indici sintetici che possono essere calcolati sia per caratteri qualitativi che quantitativi. In generale si tratta di modalità che occupano una posizione particolare nella distribuzione del carattere. Poiché il calcolo di questi indici è basato sulla posizione delle modalità all'interno della distribuzione del carattere, non dipendono direttamente da ogni singolo dato.

Sulla base di questa caratteristica, si può notare che le medie di posizione:

  • Non necessariamente si modificano se si cambia anche un solo dato nella distribuzione del carattere;
  • Sfruttano solo parzialmente l'informazione statistica disponibile.

Tra le medie di posizione troviamo la moda e la mediana.

Moda

La moda può essere calcolata sia per caratteri qualitativi che quantitativi. Questo valore medio è, inoltre, l'unico che può essere calcolato nel caso di caratteri qualitativi sconnessi e quindi misurabili solo su scala nominale. La moda è la modalità a cui corrisponde la massima frequenza nella distribuzione di frequenze del carattere osservato.

Esempio 1

La seguente tabella 1 rappresenta la distribuzione semplice di frequenze del carattere qualitativo sconnesso "tipo di corso di laurea" osservato sulla popolazione degli studenti italiani in corso nell'a.a. 1992-1993.

Tabella 1. Tipo di corso di laurea scelto dagli studenti italiani in corso nell'a.a. 1992-1993
Tipo di corso di laurea Frequenze assolute Frequenze relative
Scientifico 118.225 0,116
Medico 45.919 0,045
Ingegneristico 189.358 0,186
Economico 183.490 0,180
Politico-sociale 94.916 0,093
Giuridico 176.155 0,173
Letterario 211.388 0,207
Totale 1.019.451 1,000

Fonte: MURST, 1993

La moda del carattere "tipo di corso di laurea" è la modalità Letterario in quanto è la modalità più frequente (frequenza assoluta 211.388 e frequenza relativa 0,207 più grandi di quelle di tutte le altre modalità).

Esempio 2

In alcune situazioni osservazionali la moda non è unica: nel caso in cui nella distribuzione di frequenze del carattere osservato vi fossero due modalità a cui è associata la medesima frequenza più elevata di tutte le altre ci troveremo in presenza di due mode e la distribuzione del carattere sarà, così, bimodale.

La medesima situazione osservata nell'esempio 1 si ritrova nella seguente tabella 2 in cui viene rappresentata la distribuzione semplice di frequenze del carattere qualitativo sconnesso "tipo di corso di laurea" osservato, questa volta, sulla popolazione degli studenti italiani fuori corso nell'a.a. 1992-1993. In questo caso non si individua solo una moda ma si possono identificare due mode.

Tabella 2. Tipo di corso di laurea scelto dagli studenti italiani fuori corso nell'a.a. 1992-1993
Tipo di corso di laurea Frequenze assolute Frequenze relative
Scientifico 56.477 0,121
Medico 44.788 0,096
Ingegneristico 84.356 0,180
Economico 84.356 0,180
Politico-sociale 44.272 0,095
Giuridico 75.987 0,162
Letterario 77.600 0,166
Totale 467.835 1,000

Fonte: MURST, 1993

Il carattere "tipo di corso di laurea" è bimodale in quanto presenta due mode che sono le modalità Ingegneristico e Economico. In effetti, come si nota dalla tabella 2, queste due modalità, con una frequenza assoluta pari a 84.356 e una frequenza relativa pari a 0,180, sono le più frequenti.

Esempio 3

Nel caso in cui si dovesse calcolare la moda per la distribuzione di un carattere quantitativo suddiviso in classi, si dovrebbe calcolare la classe modale: si tratta della classe di modalità numeriche a cui è associata la massima densità media di frequenza calcolata, quest'ultima, come rapporto tra la frequenza della classe e l'ampiezza della medesima.

Si supponga di avere osservato il carattere quantitativo "età" su un collettivo di 4123 lettori di quotidiani. La distribuzione di frequenze del carattere "età" raggruppato in classi è la seguente.

Tabella 3. Lettori di quotidiani per classi di età
Classi di età Frequenze assolute Ampiezza classi Densità media di frequenza
6 |- 11 31 5 31/5=8,8
11 |- 14 83 3 83/3=27,7
14 |- 20 419 6 419/6=69,8
20 |- 25 416 5 416/5=83,2
25 |- 35 792 10 792/10=79,2
35 |- 45 783 10 783/10=78,3
45 |- 55 670 10 670/10=67,0
55 |- 65 537 10 537/10=53,7
65 |- 80 392 15 392/15=26,1
Totale 4123

L'analisi delle frequenze assolute ci condurrebbe ad affermare che la classe modale è [25, 35) avendo essa associata una frequenza assoluta pari a 792 che è la più grande tra tutte le frequenze osservate. Tuttavia, questa analisi è fuorviata dalla presenza di classi di modalità di differente ampiezza all'interno delle quali troviamo frequenze differenti tra loro. Per pervenire, dunque, ad una analisi corretta si deve prendere in considerazione la densità media di frequenza. Dall'analisi della densità media di frequenza risulta che la moda del carattere "età" nella popolazione dei lettori di quotidiani in esame è la classe di modalità [20, 25). Infatti, a questa classe corrisponde la più alta densità media di frequenza (83,2), anche se la frequenza assoluta (416) ad essa corrispondente non è la più elevata.

Mediana

La mediana (Me) può essere calcolata per caratteri qualitativi ordinati (mutabili ordinali) e caratteri quantitativi. La mediana è la modalità che bipartisce la graduatoria (crescente o decrescente) delle osservazioni. Quindi la mediana è quella modalità rispetto alla quale si trovano uno stesso numero di modalità (e quindi di unità statistiche che presentano quelle modalità) più piccole o più grandi: in pratica il 50% delle unità statistiche presenta un modalità più piccola o al più uguale alla mediana e l'altro 50% delle unità statistiche presenta un modalità più grande o al più uguale alla mediana.

Fasi per il calcolo della mediana

  • Ordinare in senso crescente (o decrescente) le unità statistiche rispetto alle modalità su di esse osservate del carattere in esame.
  • Individuare l'unità che occupa il posto centrale nel seguente modo:
    • Se il numero N di unità osservate è dispari, allora l'unità che occupa il posto centrale è quella che si trova nella posizione \(\frac{N+1}{2}\).
    • Se il numero N di unità osservate è pari, allora si individuano due unità che occupano i due posti centrali e cioè:
      • L'unità che occupa il posto \(\frac{N}{2}\);
      • L'unità che occupa il posto \(\frac{N}{2}+1\).
  • La mediana è la modalità presentata dall'unità statistica individuata al punto 2. Quindi:
    • Se il numero N di unità osservate è dispari, allora la mediana è la modalità presentata dall'unità statistica che occupa il posto \(\frac{N+1}{2}\), per cui Me = \((x_{\frac{N+1}{2}})\).
    • Se il numero N di unità osservate è pari, allora la mediana è costituita dalla coppia di modalità presentate dalle due unità statistiche che, rispettivamente, occupano i posti \(\frac{N}{2}\) e \(\frac{N}{2}+1\), per cui Me = \(\frac{x_{\frac{N}{2}} + x_{\frac{N}{2}+1}}{2}\).

Proprietà della mediana

  • La mediana è sempre una modalità "effettivamente assunta" dal carattere nel collettivo in esame. L'unica eccezione si ha nel caso di un carattere quantitativo con N pari.
  • La mediana è compresa tra la modalità minima \(x_1\) e la modalità massima \(x_K\) (modalità qualitative ordinate o numeriche) del carattere.
Anteprima
Vedrai una selezione di 4 pagine su 15
Analisi dei dati  - le medie e le variabilità Pag. 1 Analisi dei dati  - le medie e le variabilità Pag. 2
Anteprima di 4 pagg. su 15.
Scarica il documento per vederlo tutto.
Analisi dei dati  - le medie e le variabilità Pag. 6
Anteprima di 4 pagg. su 15.
Scarica il documento per vederlo tutto.
Analisi dei dati  - le medie e le variabilità Pag. 11
1 su 15
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/05 Statistica sociale

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher flaviael di informazioni apprese con la frequenza delle lezioni di Analisi dei dati e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Roma La Sapienza o del prof Baragona Roberto.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community