Anteprima
Vedrai una selezione di 10 pagine su 138
Appunti ed esercitazioni di Analisi Esplorativa - Analisi Statistica Multivariata Pag. 1 Appunti ed esercitazioni di Analisi Esplorativa - Analisi Statistica Multivariata Pag. 2
Anteprima di 10 pagg. su 138.
Scarica il documento per vederlo tutto.
Appunti ed esercitazioni di Analisi Esplorativa - Analisi Statistica Multivariata Pag. 6
Anteprima di 10 pagg. su 138.
Scarica il documento per vederlo tutto.
Appunti ed esercitazioni di Analisi Esplorativa - Analisi Statistica Multivariata Pag. 11
Anteprima di 10 pagg. su 138.
Scarica il documento per vederlo tutto.
Appunti ed esercitazioni di Analisi Esplorativa - Analisi Statistica Multivariata Pag. 16
Anteprima di 10 pagg. su 138.
Scarica il documento per vederlo tutto.
Appunti ed esercitazioni di Analisi Esplorativa - Analisi Statistica Multivariata Pag. 21
Anteprima di 10 pagg. su 138.
Scarica il documento per vederlo tutto.
Appunti ed esercitazioni di Analisi Esplorativa - Analisi Statistica Multivariata Pag. 26
Anteprima di 10 pagg. su 138.
Scarica il documento per vederlo tutto.
Appunti ed esercitazioni di Analisi Esplorativa - Analisi Statistica Multivariata Pag. 31
Anteprima di 10 pagg. su 138.
Scarica il documento per vederlo tutto.
Appunti ed esercitazioni di Analisi Esplorativa - Analisi Statistica Multivariata Pag. 36
Anteprima di 10 pagg. su 138.
Scarica il documento per vederlo tutto.
Appunti ed esercitazioni di Analisi Esplorativa - Analisi Statistica Multivariata Pag. 41
1 su 138
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

DISTANZA EUCLIDEA DAL BARICENTRO

′ ′ :

ra l’i-sima unità statistica e il baricentro

T ′ ′

L’insieme di punti p-dimensionali con distanza Euclidea costante c > 0 dal baricentro soddisfano :

che definisce una ipersfera di raggio c dal baricentro

DISTANZA DI MAHALANOBIS

′ :

Tra due unità statistiche e

′ ′

Tra l’i-sima unità statistica e il baricentro :

′ ′

L’insieme dei punti p-dimensionali con distanza di Mahalanobis costante c > 0 dal baricentro

soddisfano l’equazione: che definisce un iperellissoide

Distanza di Mahalanobis e OUTLIERS

Se si può assumere che le righe della matrice X sono realizzazioni indipendenti generate dalla medesima

distribuzione Normale p-variata, possiamo definire l’i-sima unità statistica un outlier se

dove è il 0.95 quantile di una distribuzione con gradi di libertà

.

Valore atteso di outliers

Se le n unità statistiche sono realizzazioni indipendenti generate dalla stessa distribuzione Normale p-variata

= × 0.05

Qualora osserviamo un numero sostanzialmente più elevato di quello atteso, abbiamo un eccesso di outliers

DATI ANIMALS

Outliers multivariati DISTANZE E TRASFORMAZIONI LINEARI

TRASFORMAZIONI LINEARI ′ ′

La trasformazione lineare dell’ i-sima unità statistica

=

è definita da

la matrice

il vettore

La matrice dei dati linearmente trasformati risulta

Invarianza di rispetto alle trasformazioni lineari

′ ′ ′

′ ′ ′ ′ ′

Siano e con non singolare.

= + = +

La distanza di Mahalanobis è invariate rispetto alle trasformazioni lineari (non singolari):

ricordando che () =

TRASLAZIONI

=

● ′ arbitraria

Traslazione della matrice dei dati X :

con vettore delle medie e matrice di varianze/covarianze :

Invarianza di rispetto alle traslazioni

′ ′ ′

′ ′ ′

Siano e

= + = +

La distanza di Mahalanobis è invariate rispetto alle traslazioni:

TRASFORMAZIONI ORTOGONALI −1

′ ′ ′

matrice ortogonale : e

= = =

● ′ 0

=

● ′

Trasformazione ortogonale della matrice dei dati X : =

con vettore delle medie e matrice di varianze/covarianze

Invarianza di rispetto alle trasformazioni ortogonali

′ ′ ′

′ ′ ′

Siano e con matrice ortogonale.

= =

La distanza Euclidea è invariate rispetto alle trasformazioni ortogonali :

Esempi di trasformazioni ortogonali

Trasformazione identità: =

Permutazione: è una matrice di permutazione che si ottiene permutando le righe (o colonne) di

Rotazione: è una matrice di rotazione, ovvero ortogonale con () = 1 − 1

Permutazione in due dimensioni Rotazione in due dimensioni

In due dimensioni, la seguente matrice di permutazione In 2 dimensioni, la seguente matrice di rotazione

comporta scambiare l’ordine due delle colonne di X: comporta una rotazione antioraria di angolo θ

radianti intorno all’origine:

DISTANZA EUCLIDEA CALCOLATA SU , ,

INDICI DI SIMILARITÀ

INDICE DI SIMILARITA’

Consideriamo misurazioni su p variabili, qualitative e/o quantitative

● Ciascuna unità statistica presenta misurazioni appartenenti allo spazio campionario = ×…×

● Ad esempio, se abbiamo p = 2 variabili, Sesso e Posizione geografica, lo spazio campionario è:

● = {M, F} × {Nord, Centro, Sud} = {(M, Nord), (F, Nord), (M, Centro), (F, Centro), (M, Sud), (F, Sud)}

= × .

In generale, un indice di similarità è una funzione che associa ad una coppia di unità

∶ × → ℝ

● statistiche e un numero reale

′ ′

Proprietà di un indice di similarità

Un indice di similarità soddisfa:

(S1) Non negatività ( , ) ≥ 0

(S2) Normalizzazione )

= → ( , = 1

(S3) Simmetria )

( , = ( , )

dove 1 è il massimo valore assumibile dall’indice di similarità

INDICE DI DISSIMILARITÀ

Un indice di dissimilarità è definito come e soddisfa (D1) e (D3)

)

( , = 1 − ( , )

VARIABILI BINARIE

Supponiamo che il profilo dell’i-esima unità statistica sia composto di sole variabili binarie (o dicotomiche),

codificate per comodità come 0 e 1

Possiamo costruire, per ciascuna coppia e , la seguente tabella di contingenza

′ ′

dove

è la frequenza di variabili binarie con valore 1 per l’unità e valore 1 per l’unità

● è la frequenza di variabili binarie con valore 1 per l’unità e valore 0 per l’unità

● etc.

Esempio

VARIABILI BINARIE SIMMETRICHE E ASIMMETRICHE

Consideriamo 1 come ‘presenza’ e 0 come ‘assenza’

Non è ovvio se la contemporanea presenza 1-1 o contempor assenza 0-0 siano egualm indicativi di somiglianza

Ad es, se le unità sono individui e la variabile binaria è “capelli castani (1)/capelli non castani (0)” la

● contemporanea presenza 1-1 è indubbiam indicativa di somiglianza, non così la contemporanea assenza 0-0

Si parla in questo caso di variabile binaria asimmetrica

Per contro se la variabile binaria è “maschio (1)/femmina (0)” la contemporanea assenza 0-0 ha lo stesso

● valore della contemporanea presenza 1-1.

Si parla in questo caso di variabile binaria simmetrica

INDICE DI CORRISPONDENZA E DI JACCARD

Indice di corrispondenza semplice considera allo stesso modo co-presenze 1-1 e

● co-assenze 0-0, quindi è opportuno per variabili binarie simmetriche.

Indice di Jaccard ignora le coassenze 0-0 (ed è indeterminato se d = p), quindi è

● opportuno per variabili binarie asimmetriche.

Per l’esempio precedente abbiamo

Esempio

Per ciascuna coppia di osservazioni calcoliamo la tabella di contingenza, ottenendo le tre tabelle

● ( , ) = 2/5, ( , ) = 2/5, ( , ) = 3/5

● ( , ) = 2/5, ( , ) = 1/4, ( , ) = 1/3

● Si noti che è equi-somigliante a e secondo , mentre è più somigliante a che a secondo ,

questo poichè la co-assenza che lo accomuna a non ha peso nell’indice di Jaccard.

VARIABILI QUALITATIVE NOMINALI

Se tutte le variabili sono qualitative nominali (factor in R), possiamo considerare come indice di

corrispondenza semplice la proporzione di variabili in cui le due unità e assumono la stessa modalità

′ ′

dove rappresenta la funzione indicatrice

I{·}

VARIABILI QUALITATIVE ORDINALI

Variabili qualitative ordinali (Ord.factor con modalità ordinate, ad esempio:

in R)

● ≺ ℎ ≺ ≺

Trattare queste variabili come qualitative non ordinate, sebbene possibile, fa perdere l’informazione relativa

● all’ordinamento delle modalità (mai e qualche volta sono misurate egualmente ‘distanti’ di mai e sempre).

Se la j-sima variabile è qualitativa ordinale, una soluzione alternativa consiste nel trasformare le mj modalità

● ordinate nei corrispondenti numeri interi da 1 a m normalizzando il risultato:

j

e trattare la j-sima variabile come quantitativa

In questo caso si assume che le ‘distanze’ tra le categorie ordinate sono le stesse

● Ad esempio

VARIABILI MISTE: INDICE DI GOWER

dove

dove due unità sono non confrontabili rispetto alla j-sima variabile se c’è un valore mancante in almeno una

delle due o se la j-sima variabile è binaria asimmetrica e si ha co-assenza 0-0.

MATRICE DELLE DISTANZE/DISSIMILARITÀ

A si associa una matrice delle distanze/dissimilarità tra le n unità statistiche

dove )

= ( ,

● (la matrice è simmetrica)

=

● =0

● METODI GERARCHICI

Metodi (algoritmi) gerarchici

Nei metodi gerarchici si individua una sequenza di partizioni nidificate:

la partizione in K + 1 gruppi si ottiene dalla partizione in K gruppi facendo di due degli elementi di questa un

elemento di quella (AGNES), o viceversa (DIANA)

Algoritmo Agglomerativo (AGNES, AGGlomerative NESting) 

● Algoritmo Scissorio (DIANA, DIvisive ANAlysis)

ALGORITMO AGGLOMERATIVO

Si parte dalla partizione in n gruppi, ciascuno singoletto;

❶ Inizializzare k = n

Determinare quale coppia di gruppi sia ‘migliore’ da unire, tra le coppie di gruppi possibili;

❷ Fondere la ‘migliore’ coppia di gruppi in un unico gruppo; impostare k = k − 1 e andare al passo se k > 1,

❸ ②

altrimenti STOP

Per questo algoritmo sono previste n − 1 iterazioni di e prima dell’arresto

② ③

Esempio

DISTANZA/DISSIMILARITÀ TRA GRUPPI

Dobbiamo precisare come si determina al passo la ‘migliore’ coppia di gruppi da fondere in un unico gruppo

● ②

Se abbiamo k gruppi con matrice delle distanze/dissimilarità , basta determinare quale sia la coppia di

gruppi con minore distanza/dissimilarità (se più di una coppia, si sceglie una)

Inizializzare e =

=

Determinare in quale coppia di gruppi ha distanza minima

❷ Fondere la coppia di gruppi con distanza minima in un unico gruppo; impostare e aggiornare

= − 1

❸ calcolando la distanza del nuovo gruppo con i rimanenti; andare al passo se altrimenti STOP

> 1,

DISTANZA TRA DUE GRUPPI E

L

Dettagli
Publisher
A.A. 2018-2019
138 pagine
14 download
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher aina.belloni di informazioni apprese con la frequenza delle lezioni di Analisi statistica multivariata e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Solari Aldo.