E STANDARDIZZAZIONE DEI DATI
Gli scostamenti semplici medi si ottengono come media aritmetica delle differenze tra i valori osservati e
una media. A seconda del valore medio scelto si può ottenere uno specifico scostamento semplice medio.
Ad esempio:
• se come valore medio scegliamo la media aritmetica, si ha lo scostamento semplice medio dalla
media aritmetica;
• se come valore medio scegliamo la mediana, si ha lo scostamento semplice medio dalla mediana.
PAGINA 30
Nel caso di una distribuzione di frequenze, si ottiene:
Dove: sono le modalità; sono le frequenze assolute; sono le frequenze relative.
Si definisce scostamento semplice medio dalla mediana la quantità:
Nel caso di una distribuzione di frequenze, si ottiene:
Dove: sono le modalità; sono le frequenze assolute; sono le frequenze relative.
PAGINA 31
ESEMPIO
Nella terza e quarta colonna della tabella sono riportati gli scarti in valore assoluto della media e della
mediana. Calcolando la media aritmetica di questi scarti si ottiene:
• Lo scostamento semplice medio della media Sx= 1,47 (Terza colonna per seconda colonna diviso
127) PAGINA 32
• Lo scostamento semplice medio della mediana Sme= 1,43 (quarta colonna per seconda colonna
diviso 127).
Possiamo notare che si ha SEMPRE la relazione Sx>Sme e l’uguaglianza si ha solo se la media aritmetica è
uguale alla mediana.
Per confrontare gli scostamenti semplici medi di diverse distribuzioni di frequenza, possiamo costruire degli
indici percentuali di variabilità. In particolare vengono utilizzati i seguenti due indici percentuali:
IL TEOREMA DI CHEBYSHEV
Ci chiediamo quali informazioni una media e un indice di variabilità forniscano congiuntamente su una
distribuzione in incognita. Se come medie e indici di variabilità consideriamo la media aritmetica X e la
deviazione standard, possiamo utilizzare il teorema di chebyshev.
Il teorema di Chebyshev afferma che, dato un carattere di cui si conoscono solamente la media aritmetica
e la deviazione standard, la frequenza relativa delle unità che presentano valori esterni a un intervallo
simmetrico rispetto alla media non può essere superiore a una certa quantità.
possiamo esprimere il seguente enunciato: PAGINA 33
L’importanza di tale teorema viene a cessare se si è a conoscenza della distribuzione del carattere.
IL TEOREMA DI MARKOV
Il teorema di Markov permette di definire dei limiti per le frequenze relative senza peraltro richiedere la
conoscenza della variabilità della distribuzione del carattere.
ESEMPIO:
Ci sono 200 persone in un supermercato. Se la media del denaro contante posseduto da queste persone è
€ 40, quante di loro potrebbero avere almeno € 150?
Poiché la variabile Denaro contante posseduto assume solo valori non negativi, possiamo applicare il
teorema di Markov e ottenere: PAGINA 34
Quindi le persone che posseggono almeno € 150 sono al massimo: 200 0,2667 =
∗ ne
A volte si applica una trasformazione dati originari, detta standardizzazione:
ESEMPIO: PAGINA 35
13 - GLI INTERVALLI DI VARIABILITÀ E IL BOX PLOT
Gli intervalli di variabilità sono indici che si basano sul confronto di due valori caratteristici della
distribuzione. Il più semplice da calcolare è il campo di variazione: Dato un insieme di n valori osservati
x1, x2, ..., xn, ordinati in senso crescente, definiamo campo di variazione la differenza tra il più grande e il
più piccolo di tali valori:
Il minimo del campo di variazione è 0 solo se tutte le unità presentano lo stesso valore. Tale indice si basa
solo su due valori, quindi molto approssimativo, e potrebbe verificarsi che tali valori estremi siano dei
valori anomali. L’unico pregio risiede nella semplicità del calcolo.
Quando il carattere è suddiviso in classi, il campo di variazione viene calcolato come differenza tra
l’estremo superiore dell’ultima classe e l’estremo inferiore della prima classe. PAGINA 36
Un intervallo di variazione alternativo a R è la differenza interquartile (w): PAGINA 37
Dato un insieme di n valori osservati x1, x2, ..., xn, definiamo differenza interquartile, la differenza tra il
terzo e il primo quartile della distribuzione: =
3 − 1
Essendo che il primo quartile rappresenta il 25% della distribuzione e il terzo quartile il 75% della
distribuzione, possiamo dire che la differenza interquartile rappresenta il campo di variazione per il 50%
delle unità centrali, ovvero per il 50% delle unità più vicine alla mediana. In questa maniera le osservazioni
estreme vengono escluse evitando così di considerare eventuali dati anomali. Questo indice, analogamente
a R, soffre dell’inconveniente di basarsi unicamente su due valori, ma in compenso non è influenzato dalla
presenza di valori anomali. PAGINA 38
• Dai risultati ottenuti possiamo affermare che nella seconda distribuzione i valori delle unità che si
trovano tra il primo e terzo quartile sono più variabili di quelli corrispondenti alla prima
distribuzione.
• Possiamo notare che, invece, il campo di variazione è lo stesso in entrambe le distribuzioni (R = 7 -
1 = 6), cosicché utilizzando tale indice non si sarebbe potuta constatare la diversa variabilità del
carattere nelle due distribuzioni.
IL BOX PLOT
Il box plot è un metodo di rappresentazione grafica, caratterizzato da tre elementi:
• una linea o un punto, che indicano la posizione del valore medio della distribuzione;
• un rettangolo (box) la cui altezza indica la variabilità dei valori “prossimi” al valore medio;
• due segmenti che partono dal rettangolo e i cui estremi sono determinati in base ai valori estremi
della distribuzione. PAGINA 39
Nella rappresentazione dei dati mediante il box plot si può tenere conto anche dei valori anomali e dei
valori eccedenti. Sono considerati anomali quei valori X per i quali si verifica una delle due seguenti
condizioni:
dove LSR è il limite superiore del rettangolo (per esempio, Q3), LIR è il limite inferiore del rettangolo (per
esempio, Q1); è una costante positiva (per esempio, 1,5)
Riprendendo l’esempio dei bambini e il numero di atti aggressivi PAGINA 40
14 - EQUIDISTRIBUZIONE E CONCENTRAZIONE
Osservando un carattere quantitativo distribuibile su un collettivo statistico, si può essere interessati a
sapere come questo ammontare sia ripartito. Ad esempio riguardo l’ammontare dei redditi da lavoro
dipendete italiano era di 654836milioni:
• se la maggior parte del reddito era ripartito tra poche famiglie si chiama reddito concentrato
• se ogni famiglia detiene la stessa quantità di reddito si chiama equidistribuito.
EQUIDISTRIBUZIONE
Un carattere quantitativo trasferibile con n valori osservati … , si dice equidistribuito se
, 1, 2, ,
ognuna delle unità possiede 1/ dell’ammontare complessivo del carattere:
Allora si avrà equidistribuzione se:
CONCENTRAZIONE
La concentrazione è un indice che evidenzia in modo più efficace e più interpretabile la variabilità nei
caratteri trasferibili. Tanto più un carattere è concentrato, tanto più è elevata la variabilità del carattere;
La situazione di massima concentrazione si ha quando l’intero ammontare del carattere, A, è
posseduto da una sola unità del collettivo e cioè:
= = = = 0
1 2 ⋯ −1
E
= A
Consideriamo un carattere quantitativo trasferibile osservato su un collettivo di n unità ordinate in
,
senso crescente secondo l’ammontare di carattere posseduto, ossia:
≤ ≤ ≤
1 2 ⋯ n
Indichiamo: PAGINA 41
e hanno una stretta relazione evidenziata da due proprietà:
• = Se l’ammontare del carattere X è equidistribuito fra le unità del collettivo. Poiché come
Q
ogni unità è un n-esimo dell’intero collettivo, anche il suo ammontare è un n-esimo del totale;
• < Se esiste un qualunque tipo di concentrazione. La concentrazione massima si ha quando una
modalità possiede l’intero ammontare.
Considerando le differenze tra avremo:
• = nel caso di equidistribuzione,
−
• = nel caso di massima concentrazione
−
• > nei casi intermedi di concentrazione
−
Possiamo sintetizzare tali differenze attraverso il seguente indice:
ESEMPIO PAGINA 42
RAPPORTO DI CONCENTRAZIONE DI GINI
Per trasformare l’indice C in un indice di concentrazione relativo, variabile tra 0 e 1, basterà dividerlo per il
suo valore massimo. Con tale operazione si ottiene l’indice di concentrazione chiamato rapporto di
concentrazione di Gini.
Date le distribuzioni delle e delle relative alla distribuzione di un carattere quantitativo trasferibile
osservato su unità, con valori ordinati …, ( ≤ si definisce rapporto di
1, 2, +1).
concentrazione di Gini (o Indice di Gini) l’indice: PAGINA 43
Fi è la quota cumulata di emittenti.
Dato che le emittenti sono 9 e “pesano tutte uguale”, ogni emittente vale 1/9 ≈ 0,11 (cioè 11%).
Quindi: PAGINA 44
dopo la 1ª emittente:
• = 1/9 ≈ 0,11
1
dopo la 2ª:
• = 2/9 ≈ 0,22
2
Qi è la quota cumulata di introiti.
Si calcola così: sommi gli introiti fino a quella riga e dividi per il totale 11.879.
Esempi: la prima emittente fa circa 3% del totale
• = 339/11879 ≈ 0,03→
1
• = (339 + 461)/11879 = 800/11879 ≈ 0,07
2
Passo A: somma dei primi 8
0,11 + 0,22 + 0,33 + 0,44 + 0,56 + 0,67 + 0,78 + 0,89 ≈ 4
(il libro dice direttamente “pari a 4”)
Passo B: somma dei primi 8
0,03 + 0,07 + 0,13 + 0,24 + 0,37 + 0,52 + 0,67 + 0,83 = 2,86
Passo C ∑ 2,86
=1− = 1− = 1 − 0,715 = 0,285
∑ 4
Qui 0,285 significa: concentrazione bassa/moderata. PAGINA 45
PAGINA 46
LA CURVA DI LORENZ
Mediante le coppie di valori e è possibile realizzare un interessante grafico riguardo la
concentrazione di una distribuzione:
• Consideriamo un piano cartesiano in cui l’asse delle ascisse rappresenti i valori e l’asse delle
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Riassunto esame Elementi di statistica, Prof. Mignani Stefania, libro consigliato Statistica – metodologie per le s…
-
Riassunto esame Statistica, docente Oropallo, libro consigliato Statistica metodologie per le scienze economiche e …
-
Riassunto Esame Statistica con Formulario, Prof. Scrucca, libro consigliato Metodologie per le scienze economiche e…
-
Riassunto esame statistica, docente Oropallo, libro consigliato Statistica e metodologia per le scienze economiche …