Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
DISTANZA EUCLIDEA DAL BARICENTRO
′ ′ :
ra l’i-sima unità statistica e il baricentro
T ′ ′
L’insieme di punti p-dimensionali con distanza Euclidea costante c > 0 dal baricentro soddisfano :
che definisce una ipersfera di raggio c dal baricentro
DISTANZA DI MAHALANOBIS
′
′ :
Tra due unità statistiche e
′ ′
Tra l’i-sima unità statistica e il baricentro :
′ ′
L’insieme dei punti p-dimensionali con distanza di Mahalanobis costante c > 0 dal baricentro
soddisfano l’equazione: che definisce un iperellissoide
Distanza di Mahalanobis e OUTLIERS
Se si può assumere che le righe della matrice X sono realizzazioni indipendenti generate dalla medesima
′
distribuzione Normale p-variata, possiamo definire l’i-sima unità statistica un outlier se
dove è il 0.95 quantile di una distribuzione con gradi di libertà
.
Valore atteso di outliers
Se le n unità statistiche sono realizzazioni indipendenti generate dalla stessa distribuzione Normale p-variata
= × 0.05
Qualora osserviamo un numero sostanzialmente più elevato di quello atteso, abbiamo un eccesso di outliers
DATI ANIMALS
Outliers multivariati DISTANZE E TRASFORMAZIONI LINEARI
TRASFORMAZIONI LINEARI ′ ′
La trasformazione lineare dell’ i-sima unità statistica
=
è definita da
la matrice
●
il vettore
●
La matrice dei dati linearmente trasformati risulta
Invarianza di rispetto alle trasformazioni lineari
′ ′ ′
′ ′ ′ ′ ′
Siano e con non singolare.
= + = +
La distanza di Mahalanobis è invariate rispetto alle trasformazioni lineari (non singolari):
ricordando che () =
TRASLAZIONI
=
● ′ arbitraria
●
Traslazione della matrice dei dati X :
con vettore delle medie e matrice di varianze/covarianze :
Invarianza di rispetto alle traslazioni
′ ′ ′
′ ′ ′
Siano e
= + = +
La distanza di Mahalanobis è invariate rispetto alle traslazioni:
TRASFORMAZIONI ORTOGONALI −1
′ ′ ′
matrice ortogonale : e
= = =
● ′ 0
=
● ′
Trasformazione ortogonale della matrice dei dati X : =
con vettore delle medie e matrice di varianze/covarianze
Invarianza di rispetto alle trasformazioni ortogonali
′ ′ ′
′ ′ ′
Siano e con matrice ortogonale.
= =
La distanza Euclidea è invariate rispetto alle trasformazioni ortogonali :
Esempi di trasformazioni ortogonali
Trasformazione identità: =
●
Permutazione: è una matrice di permutazione che si ottiene permutando le righe (o colonne) di
●
Rotazione: è una matrice di rotazione, ovvero ortogonale con () = 1 − 1
●
Permutazione in due dimensioni Rotazione in due dimensioni
In due dimensioni, la seguente matrice di permutazione In 2 dimensioni, la seguente matrice di rotazione
comporta scambiare l’ordine due delle colonne di X: comporta una rotazione antioraria di angolo θ
radianti intorno all’origine:
DISTANZA EUCLIDEA CALCOLATA SU , ,
INDICI DI SIMILARITÀ
INDICE DI SIMILARITA’
Consideriamo misurazioni su p variabili, qualitative e/o quantitative
● Ciascuna unità statistica presenta misurazioni appartenenti allo spazio campionario = ×…×
● Ad esempio, se abbiamo p = 2 variabili, Sesso e Posizione geografica, lo spazio campionario è:
● = {M, F} × {Nord, Centro, Sud} = {(M, Nord), (F, Nord), (M, Centro), (F, Centro), (M, Sud), (F, Sud)}
= × .
In generale, un indice di similarità è una funzione che associa ad una coppia di unità
∶ × → ℝ
● statistiche e un numero reale
′ ′
Proprietà di un indice di similarità
Un indice di similarità soddisfa:
(S1) Non negatività ( , ) ≥ 0
(S2) Normalizzazione )
= → ( , = 1
(S3) Simmetria )
( , = ( , )
dove 1 è il massimo valore assumibile dall’indice di similarità
INDICE DI DISSIMILARITÀ
Un indice di dissimilarità è definito come e soddisfa (D1) e (D3)
)
( , = 1 − ( , )
VARIABILI BINARIE
Supponiamo che il profilo dell’i-esima unità statistica sia composto di sole variabili binarie (o dicotomiche),
′
codificate per comodità come 0 e 1
Possiamo costruire, per ciascuna coppia e , la seguente tabella di contingenza
′ ′
dove
è la frequenza di variabili binarie con valore 1 per l’unità e valore 1 per l’unità
● è la frequenza di variabili binarie con valore 1 per l’unità e valore 0 per l’unità
● etc.
●
Esempio
VARIABILI BINARIE SIMMETRICHE E ASIMMETRICHE
Consideriamo 1 come ‘presenza’ e 0 come ‘assenza’
Non è ovvio se la contemporanea presenza 1-1 o contempor assenza 0-0 siano egualm indicativi di somiglianza
Ad es, se le unità sono individui e la variabile binaria è “capelli castani (1)/capelli non castani (0)” la
● contemporanea presenza 1-1 è indubbiam indicativa di somiglianza, non così la contemporanea assenza 0-0
Si parla in questo caso di variabile binaria asimmetrica
Per contro se la variabile binaria è “maschio (1)/femmina (0)” la contemporanea assenza 0-0 ha lo stesso
● valore della contemporanea presenza 1-1.
Si parla in questo caso di variabile binaria simmetrica
INDICE DI CORRISPONDENZA E DI JACCARD
Indice di corrispondenza semplice considera allo stesso modo co-presenze 1-1 e
● co-assenze 0-0, quindi è opportuno per variabili binarie simmetriche.
Indice di Jaccard ignora le coassenze 0-0 (ed è indeterminato se d = p), quindi è
● opportuno per variabili binarie asimmetriche.
Per l’esempio precedente abbiamo
●
Esempio
Per ciascuna coppia di osservazioni calcoliamo la tabella di contingenza, ottenendo le tre tabelle
● ( , ) = 2/5, ( , ) = 2/5, ( , ) = 3/5
● ( , ) = 2/5, ( , ) = 1/4, ( , ) = 1/3
● Si noti che è equi-somigliante a e secondo , mentre è più somigliante a che a secondo ,
●
questo poichè la co-assenza che lo accomuna a non ha peso nell’indice di Jaccard.
VARIABILI QUALITATIVE NOMINALI
Se tutte le variabili sono qualitative nominali (factor in R), possiamo considerare come indice di
●
corrispondenza semplice la proporzione di variabili in cui le due unità e assumono la stessa modalità
′ ′
dove rappresenta la funzione indicatrice
I{·}
VARIABILI QUALITATIVE ORDINALI
Variabili qualitative ordinali (Ord.factor con modalità ordinate, ad esempio:
in R)
● ≺ ℎ ≺ ≺
Trattare queste variabili come qualitative non ordinate, sebbene possibile, fa perdere l’informazione relativa
● all’ordinamento delle modalità (mai e qualche volta sono misurate egualmente ‘distanti’ di mai e sempre).
Se la j-sima variabile è qualitativa ordinale, una soluzione alternativa consiste nel trasformare le mj modalità
● ordinate nei corrispondenti numeri interi da 1 a m normalizzando il risultato:
j
e trattare la j-sima variabile come quantitativa
In questo caso si assume che le ‘distanze’ tra le categorie ordinate sono le stesse
● Ad esempio
●
VARIABILI MISTE: INDICE DI GOWER
dove
dove due unità sono non confrontabili rispetto alla j-sima variabile se c’è un valore mancante in almeno una
delle due o se la j-sima variabile è binaria asimmetrica e si ha co-assenza 0-0.
MATRICE DELLE DISTANZE/DISSIMILARITÀ
A si associa una matrice delle distanze/dissimilarità tra le n unità statistiche
dove )
= ( ,
● (la matrice è simmetrica)
=
● =0
● METODI GERARCHICI
Metodi (algoritmi) gerarchici
Nei metodi gerarchici si individua una sequenza di partizioni nidificate:
la partizione in K + 1 gruppi si ottiene dalla partizione in K gruppi facendo di due degli elementi di questa un
elemento di quella (AGNES), o viceversa (DIANA)
Algoritmo Agglomerativo (AGNES, AGGlomerative NESting)
● Algoritmo Scissorio (DIANA, DIvisive ANAlysis)
●
ALGORITMO AGGLOMERATIVO
Si parte dalla partizione in n gruppi, ciascuno singoletto;
❶ Inizializzare k = n
Determinare quale coppia di gruppi sia ‘migliore’ da unire, tra le coppie di gruppi possibili;
❷ Fondere la ‘migliore’ coppia di gruppi in un unico gruppo; impostare k = k − 1 e andare al passo se k > 1,
❸ ②
altrimenti STOP
Per questo algoritmo sono previste n − 1 iterazioni di e prima dell’arresto
② ③
Esempio
DISTANZA/DISSIMILARITÀ TRA GRUPPI
Dobbiamo precisare come si determina al passo la ‘migliore’ coppia di gruppi da fondere in un unico gruppo
● ②
Se abbiamo k gruppi con matrice delle distanze/dissimilarità , basta determinare quale sia la coppia di
●
gruppi con minore distanza/dissimilarità (se più di una coppia, si sceglie una)
Inizializzare e =
=
❶
Determinare in quale coppia di gruppi ha distanza minima
❷ Fondere la coppia di gruppi con distanza minima in un unico gruppo; impostare e aggiornare
= − 1
❸ calcolando la distanza del nuovo gruppo con i rimanenti; andare al passo se altrimenti STOP
> 1,
②
DISTANZA TRA DUE GRUPPI E
L