Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
CONCENTRAZIONE
Ha lo scopo di misurare come un carattere si distribuisce su una serie di unità statistiche
Come primo step si calcola l’intensità del carattere (T), data dalla somma delle intensità di
ciascuna unità statistica: 1,6 2,5 1,8 2,2 3 3,8
T = 1,6 + 2,5 + 1,8 + 2,2 + 3 + 3,8 = 14,09
n = 6 (numero unità statistiche)
si considera il caso di distribuzioni per unità
occorre ordinare i dati dal più piccolo al più grande, raggruppandoli in una tabella
−
i
= =
(intensità (situazione di
(porzione (situazione reale)
cumulate) equidistribuzione)
intensità)
1 1,6 1,6 1/6 = 0,167 1,6/14,9 = 0,107 0,06
2 1,8 3,4 2/6 = 0,33 3,4/14,9 = 0,228 0,105
3 2,2 5,6 3/6 = 0,5 5,6/14,9 = 0,376 0,124
4 2,5 8,1 4/6 = 0,67 8,1/14,9 = 0,544 0,123
5 3 11,1 5/6 = 0,88 11,1/14,9 = 0,745 0,088
6 3,8 14,9 6/6 = 1 14,9/14,9 = 1 0
14,9 9
{
∑ s
+
R = ≤ ≤
1) RAPPORTO (O INDICE) DI CONCENTRAZIONE: => 0
{
∑
+
Si tratta di un metodo numerico.
La concentrazione varia da 0 a 1 (0 indica una perfetta equidistribuzione, 1 indica la massima
concentrazione). Sulla base di questa affermazione si può commentare il risultato asserendo che si può
essere in presenza di una debole concentrazione per valori vicini allo 0 o una certa tendenza
all’equidistribuzione, o viceversa.
2) MEDOTO DELLE AREE (O CURVA DI LORENZ):
@
[∑ )
− ( + ∗ ( − )]
R = ≤ ≤
=> 0
a s s
a) Si tratta di un metodo grafico basato sul rapporto tra aree.
b) Anzitutto realizzo un diagramma cartesiano orientato con le sull’asse delle x e sull’asse
J J
delle y.
c) Riporto tutti i punti e precedentemente calcolati
J J
d) Unisco i punti di cui sopra e realizzo la “spezzata” o “curva” di Lorenz, che rappresenta la realtà
ossia come il carattere è distribuito sulle nostre unità statistiche.
e) Nel grafico traccio anche la curva di equidistribuzione unendo la bisettrice del quadrato
disegnato sull’asse cartesiano. Rappresenta la situazione ideale di equidistribuzione.
f) La distanza tra la curva di Lorenz e la retta di equi-distribuzione rappresenta lo scostamento tra la
situazione ideale e quella effettiva. Tale area è definita area di concentrazione.
( )
− − + +
i
=
=
s s s
∗
(porzione (intensità ( − )
s
(situazione di (situazione reale)
intensità) cumulate) equidistribuzione)
1 1,6 1,6 1/6 = 0,167 1,6/14,9 = 0,107 0,06 0,167-0= 0,167 0,107+0=0,107 0,0179
2 1,8 3,4 2/6 = 0,33 3,4/14,9 = 0,228 0,105 0,33-0,167= 0,163 0,228+0,107=0,335 0,0546
3 2,2 5,6 3/6 = 0,5 5,6/14,9 = 0,376 0,124 0,50-0,33= 0,17 0,376+0,228=0,604 0,1027
4 2,5 8,1 4/6 = 0,67 8,1/14,9 = 0,544 0,123 0,67-0,50= 0,17 0,544+0,376=0,92 0,1564
5 3 11,1 5/6 = 0,83 11,1/14,9 = 0,745 0,088 0,83-0,67 = 0,16 0,745+0,544=1,289 0,2062
6 3,8 14,9 6/6 = 1 14,9/14,9 = 1 0 1-0,83= 0,17 1+0,745=1,745 0,2967
3) MEDOTO DELLE AREE, VARIANTE NEL CASO DI DISTRIBUZIONI DI FREQUENZA:
+ −
classi *
= =
s s
0 - 200 56 100 5600 56 0,13 5600 0.05 0,05 0,13
200 - 250 98 225 22050 154 0,36 27650 0,24 0,29 0,23
250-300 144 275 39600 298 0,69 67250 0,59 0,83 0,33
300-350 85 325 27625 383 0,89 94875 0,84 1,43 0,20
350-400 48 375 18000 431 1 112875 1 1,84 0,11
n=431 cumulate frazioni di C cumulate VC * n frazioni S
i i i i
n i
( + −
)
s
*
( − )
s
0,18 0,08
0,52 0,12
1,16 0,10
1,63 0,05
1,95 0
totale sempre tra 0 e 1 10
4) INDICE DI ETEROGENEITA’ DI GINI:
( )
å ( )
4a) IE = 1-
1,6 1,6/14,9= 0,11 0,01
1,8 1,8/14,9=0,12 0,01
2,2 2,2/14,9=0,14 0,02
4b) IE = (normalizzato)
2,5 2,5/14,9=0,17 0,03 k {
3 3/14,9=0,20 0,04
3,8 3,8/14,9=0,26 0,07
TOT = 14,9 TOT = 1 TOT. 0,18 11
STATISTICA BIVARIATA
CORRELAZIONE
∑ ") ")
( − ∗ ( −
1) CODEVIANZA: Cod =
xy ∑ ")∗( ")
( s s
2) COVARIANZA (CODEVIANZA MEDIA): Cov = =
xy
Note
a) Questa misura può assumere valore positivi e negativi
b) Quando il valore è 0, x e y sono indipendenti; ovviamente più il valore aumenta più cresce
l’interdipendenza reciproca di x e y.
c) Somma le unità di misura delle due variabili (es. cm + cm)
3) COEFFICIENTE (O INDICE) DI CORRELAZIONE:
∑ ")∗( ")
( { {
=
r = =
∗ >()∗() >()∗()
oppure (∗)s
∗ ∗
r =
>[ ∗ s() ]∗[ ∗ s() ]
Note ≤ ≤ )
d) Il coefficiente di correlazione può assumere valore compresi tra -1 e 1 (− in cui
il valore della formula rappresenta la forza della relazione (debole o forte) e il segno
rappresenta la direzione (positiva o negativa). La linearità rappresenta la forma.
Precisamente se
r=1esiste una relazione lineare perfetta diretta
o r=-1 avremo una relazione lineare perfetta indiretta
o r=0 assenza di relazione lineare (variabili indipendenti)
o − ≤ ≤ − , = relazione negativa da forte (-1) a debole (-0,50)
o , ≤ ≤ = relazione positiva da debole (0,50) a forte (1)
o var dip.
SCATTER PLOT
O
DIAGRAMMA
A DISPERSIONE var indip. 12
REGRESSIONE
(una variabile influenza l’altra variabile)
1) RETTA DEI MINIMI QUADRATI o METODO DEI MINIMI QUADRATI
a) In una prima fase andiamo a realizzare una rappresentazione grafica su un asse
cartesiano (x,y) in cui andiamo a rappresentare i punti x e y dati. Otterremo quindi una
i i
nube dei punti che, se ben rappresentata, ci da già l’idea sul tipo di relazione esistente
(diretta, indiretta, assenza di relazione). Un buon grafico quindi ci dice già graficamente
qual è la relazione tra le variabili x e y.
b) Dopodiché andiamo a determinare la retta (dei minimi quadrati) che meglio rappresenta
il nostro insieme di dati:
y = a + b*x
∑ " ")
(,) ( s )∗( s
+
b = =
∑ ")
() ( s
+
" "
a = – b*
∑
"
+
=
∑
"
+
=
A tale scopo realizziamo per semplicità una tabella: E
y-‘ (x − x‘) ∗ (y − y‘) (x − x‘)
y x x-̅ « « «
n n totale codevianza totale devianza
y x
Tale tabella ci consente di calcolare con semplicità il valore di b e poi, per sostituzione delle
‘
medie nella formula a = – b*̅ , anche il valore di a. Avendo trovato il valore di b e di a,
possiamo andare a calcolare la nostra retta di regressione y = a + b*x che si otterrà
sostituendo nella formula tutti i valori dati della x assegnati, oppure individuando
semplicemente due di tutti i punti attraverso la formula di cui a c).
Rappresentare la retta calcolando due punti:
c) x y
0 a
− 0
Attenzione: ricordarsi di cambiare il segno del secondo punto (se viene positivo, considero
negativo; se viene negativo lo considero positivo! 13
2) BONTA’ DELL’ADATTAMENTO E
La bontà dell’adattamento determinata attraverso il coefficiente di determinazione introduce
anche il valore della media di y.
a) A questo punto si può calcolare la devianza, ossia la distanza di tutti i valori di y, dalla
media aritmetica di y: @
∑ ")
( −
Dev(y) = Dev(tot) = @ @
∑ ∑ ")
(
° − ) (
° −
Dev(tot) = Dev(err ) + Dev(reg ) = +
ore ressione
∑ ( ")
°
() s
≤ ≤
+
= =
∑ ( ")
() s
+
oppure
∑ °
() ( s )
] ≤ ≤
+
= [1- = [ 1 - ] 0
∑ "
() ( s )
+
E E E
= 0 = 1
Precisamente quando Dev(reg)=0; quando Dev(err)=0. Per cui se ha
un valore vicino a 1 (0,6; 0,7; …) diremo che l’adattamento al modello lineare dei dati è
E
elevato, poiché appunto si minimizza l’errore. Viceversa, per valori bassi di , si dirà
che la bontà dell’adattamento al modello lineare dei dati è scarsa. I casi di 0 e 1 sono
E
ovviamente casi che nella realtà non si verificano. si può esprimere anche in termini
percentuali. E
°
b) Per calcolare occorre calcolare i valori delle e lo facciamo modificando
°
opportunamente la formula della retta y = a + b*x in = a + b*x e andando a sostituire
i y¶
per ogni x i corrispondenti valori dati e determinando di conseguenza la cercata.
«
i
°
° − ")
° − )
( - (
¸ ¸