Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
LA MODA
La moda dei dati è la modalità cui corrisponde la massima frequenza assoluta.
N.B. la moda è la qualità non la frequenza assoluta es. Giuseppe Sala non 224213.
- In caso di variabili numeriche discrete, la moda si calcola come nel caso di variabili qualitative, ovvero
considerando la modalità associata alla frequenza alta.
- in caso di variabili numeriche continue, la moda non esiste; infatti, se i dati sono tutti diversi tra loro
allora le modalità hanno frequenza assoluta pari a 1.
- in caso di variabili numeriche discrete e continue raggruppate in classi, allora si parla di classe modale.
Esempio:
classi (0, 1] (1, 2] (2, 5] (5, 7] (7, 10]
Ampiezza intervallo
densità 1/1 4/1 5/3 2/2 1/3
La classe modale è quella con la densità più alta ovvero (1, 2]
- In caso di dati qualitativi ordinali è possibile utilizzare la mediana
Esempio: n=26 persone
modalità sufficiente buono distinto Ottimo
Frequenze assolute 3 5 10 8
Si ha sufficiente < buono < distinto < ottimo
Poiché n=26 è pari la mediana coinciderà col valore centrale x(13) oppure x(14)
In questo caso si ha che x(13) = x(14) = distinto
Perciò, Me = Mo = distinto (qualità associata alla frequenza 10) STATISTICA I
La mutabilità, eterogeneità, diversità della variabilità per dati qualitativi.
Minima mutabilità. Si osserva se tutte le unità statistiche sono uguali, sono perfettamente omogenee
rispetto al fenomeno considerato. Le frequenze relative sono tutte pari a 0 tranne una che è pari a 1.
Modalità C … C … C
1 j k
Frequenze relative 0 … 1 … 0
Massima mutabilità. Si osserva se le unità statistiche si ripartiscono egualmente tra le varie modalità.
Modalità C … C … C
1 j k
Frequenze relative 1/k … 1/k … 1/k
INDICE DI MUTABILITA’ DI GINI ≥ 0
Modalità C … C … C
1 j k
Frequenze relative F … f … f
1 j k
2 2 2
= 1 − ∑ (1 − = ∑( − ) = ∑ − ∑ = 1 − ∑
)
=1 =1 =1 =1 =1
In condizioni di minima mutabilità è pari a zero.
2 2 2 2
∑ (0 )
− = 1 − + ⋯ + 1 + ⋯ + 0 = 1 − 1 = 0
G=1 =1
In condizioni di massima mutabilità è pari a:
1 −1
2
∑
= 1 − = 1 − =1− =
=1 2
L’indice di Gini si può derivare come la media delle distanze fra tutte le osservazioni
0
≠ ) = {
Usando la distanza di Hamming = 1(
1
Teorema.
Utilizzando l’indice di mutabilità di Gini G dei dati x aventi modalità c , …, c e frequenze assolute n , …, n è
i 1 k 1 k
pari a:
1 1
= ∑ ∑ 1 ≠ = ∑ ∑ 1 ≠
( ) ( )
2 2
=1 =1
=1 =1
Dimostrazione. STATISTICA I
Proprietà.
1 2
= 1 − ∑
L’indice di Gini si può scrivere anche 2
=1
Teorema. 1
≤ (1 − )
L’indice di Gini con dati x e modalità k è tale che ed è pari al valore massimo G = 1-1/k se e
i
solo se l e frequenze relative assumo valore f = 1/k (massima mutabilità)
j
Dimostrazione.
1 1
̅
= ∑ =
=1
La funzione g(x) = x(1-x) è concava
1 1 1 1
̅(1 ̅)
= ∑ − ≤ − = (1 − )
(1 )
Grazie alla disuguaglianza di Jensen otteniamo che
=1
Viene spesso utilizzato l’indice di Gini normalizzato (massimo valore che può assumere l’indice)
= = varia tra 0 e 1
( ) −1
ENTROPIA DI SHANNON. Dei dati aventi frequenza relativa f , …, f è
1 k
= − ∑ log
=1
log = 0
per convenzione
In condizioni di minima mutabilità l’entropia di Shannon è pari a zero
In condizioni di massima mutabilità è pari a
1 1 1
= − log( ) = − log ( ) = log
∑
=1
Proprietà
H ≤ log k si ottiene H = log k solo se la frequenza è pari a 1/k
= = / log
Entropia di Shannon normalizzata ( )
Unità J: COVARIANZA E CORRELAZIONE
Covarianza tra coppie di dati (x1, y1), …, (xn, yn) è STATISTICA I
1 )(
∑( − ̅ − ̅)
=1
La covarianza assume:
• Valori positivi se la maggior parte dei termini sono concordi ovvero hanno lo stesso segno
• Valori negativi se la maggior parte dei termini sono discordi ovvero hanno segni diversi
• Valori prossimi a zero se i termini sono in ugual misura concordi e discordi
Proprietà
La covarianza tra la variabile x e x stessa è pari alla varianza di x
1 1 2
( )( ) ( )
∑ − ̅ − ̅ = ∑ − ̅ = var() ≥ 0
Cov (x, x) =
=1
=1
La covarianza tra la variabile x e -x stessa è pari alla varianza di x cambiata di segno
1 1 2
( )(− ) ( )
∑ − ̅ − ̅ = − ∑ − ̅ = − var() ≤ 0
Cov (x, -x) =
=1
=1
Momento misto
1
(, ) = ( ∑ ) − ̅ ̅
=1
Dimostrazione
1 1 1 1
)( ( ( ( (
∑( − ̅ − ̅) = ∑ −
̅̅̅̅) − ̅ − ̅) = ∑ − ̅) − ∑ ̅ − ̅)
=1 =1 =1 =1
1 ̅ 1 1 1
( (
= ∑ − ̅) − ∑( − ̅) = ∑ − ̅) − 0 = ∑ − ∑ ̅
=1 =1 =1 =1 =1
1
= ∑ − ̅ ̅
=1
Trasformazione dei dati lineari
Vi= ax+ b xi wi = ay+ b yi allora cov (v, w)= bxby cov(x, y)
x y
Dimostrazione
1 1
)(,
∑( − ̅ −
̅) = ∑( + − − ̅ )( + − − ̅)
=1 =1
1 1
)( )(
= ∑ ( − ̅ − ̅) = ∑( − ̅ − ̅)
=1 =1
Proprietà
Siano xi e yi due insieme di dati e wi i dati trasformati tali che
Wi= xi + yi
Allora vale che var (w) = var(x) + var(y) + 2cov(x,y)
Dimostrazione STATISTICA I
1 2
var() = ∑( −
̅)
=1
1
= ∑( +
=1
1 )2
− ∑
=1
2
2
1 1 1 1 1
)
= ∑ ( + − ∑( + ) = ∑ ( + − ( ∑ + ∑ ))
=1 =1 =1
=1 =1
1 1
2 2
(̅ ) (
= ∑( + − + ̅)) = ∑(( − ̅ + − ̅))
=1 =1
1 1 2
2 2
) )(
= ∑( − ̅ + ∑( − ̅) + ∑( − ̅ − ̅)
=1 =1 =1
Matrice delle varianze e covarianze
Varaibili fertilità Agricoltura istruzione
Fertilità Var Cov Cov
Agricoltura Cov Var Cov
istruzione Cov cov Var
Nella diagonale ci sono le varianze poiché cov (x, x) = var (x). Inoltre, poiché cov (x, y) = cov (y, x), la matrice
è simmetrica.
Minimo e massimo della covarianza
Il valore assoluto della covarianza non è mai superiore al prodotto degli scarti quadratici medi.
Proprietà
Siano xi e yi due insiemi di dati allora.
−()() ≤ (, ) ≤ ()()
Di conseguenza si ottiene
|cov(, )| ≤ ()()
Dimostrazione STATISTICA I
• La covarianza è massima, ovvero cov (x, y) =sqm(x)sqm(y), quando i punti sono allineati lungo una
retta crescente
• La covarianza è minima, ovvero cov (x, y) =-sqm(x)sqm(y), quando i punti sono allineati lungo una retta
decrescente
• La covarianza è nulla, ovvero cov (x, y) = 0, quando i punti sono dispersi
Per affermare se la covarianza è piccola o grande dobbiamo confrontarla con il prodotto degli scarti
quadratici medi. Di conseguenza la covarianza viene presentata come la sua forma normalizzata (dati
standardizzati) ovvero la correlazione.
Coefficiente di correlazione (lineare) delle coppie di dati (x1, y1), …, (xn, yn)
(, ) 1 − ̅ − ̅
= (, ) = = ∑( )( )
()()
=1
Proprietà -1 ≤ cor (x, y) ≤ 1
- Se cor (x, y) < 0 allora i dati indicano una associazione negativa tra le due variabili (al crescere di una l’altra
decresce). Se cor (x, y) = -1 allora i dati sono perfettamente allineati lungo una retta decrescente (valore
minimo che può raggiungere)
- se cor (x, y) = 0 allora non esiste una relazione lineare tra le due variabili
- se cor (x, y) > 0 i dati indicano una associazione positiva tra le due variabili (al crescere di una cresce anche
l’altr