Data Mining (parte teorica)

Questi appunti contengono tutte le informazioni neccesarie per svolgere la parte teorica dell'esame di Data mining basati su appunti personali del publisher presi alle lezioni del prof. Borrotti, dell’università degli Studi di Milano Bicocca - Unimib. Scarica il file in formato PDF!

Esame data mining

Facoltà Scienze statistiche

Dal corso del Prof. Borrotti Matteo

Università Università degli Studi di Milano - Bicocca

Publisher nocco.grillo

A.A. 2021-2022

19 pagine

Appunto

Vota 3,5 / 5 (2)

Scarica

Estratto del documento

Formattazione del testo

T(x) = - + logδ x μ μ μ πk k k kk2^(x)

Dalle stime possiamo calcolare δk(x) = (x)δ δℓk 1 1−1 −1 −1 −1Σ Σ Σ ΣT T T T− = − con =x μ μ μ x μ μ μ k lk k l lk l2 2

Lda cerca di approssimare il classificatore di bayese il classificatore di bayes cerca di minimizzare il bayes rate. Il bayes rate è una misura generale di accuratezza e non mira a migliorare performance su determinate classi di un problema. LDA utilizza la stessa soglia del classificatore di bayes nel caso di k= 2 e quindi 0.5. Volendo si può ridurre la soglia se si ha a che fare con uno sbilanciamento delle numerosità per ogni classe.

QDA Σ assume che ogni classe ha la sua matrice di varianza covarianza riferita alla k-esima classe. Quindi si ha che x verrà assegnata a k per il valore più alto di:1 1−1T Σ Σ(x) = − ( − ) ( − ) −

log ∣ ∣ + logδ x μ x μ πk k k k kk2 21 1 1−1 −1 −1Σ Σ Σ ΣT T T= − + − − log ∣ ∣ + logx x x μ μ μ πk k k kkk k k2 2 2

Nel QDA è necessario calcolare una matrice di varianza-covarianza per ogni classe avendo così un numero di+ 1)/2coefficienti da calcolare pari a . In LDA la matrice di varianza covarianza è considerata inKp(pcomune tra tutti le classi K, coefficienti sono .KpLDA è meno flessibile di QDA ed ha quindi minore varianza. Ma c'è un trade-off: se l'assunto di LDA che leclassi condividano la stessa matrice di varianza-covarianza è totalmente errato, c'è un bias elevato. E'migliore lda quando ci sono poche osservazioni nel training e ridurre la variabilità è cruciale.Qda si consiglia se il training è molto grande o se l'assunzione di una matrice di covarainza comune per leclassi è

chiaramente insostenibile.

Data Mining 10

Confronto

Sia la regressione logistica che l'analisi descriminante lineare individuano linee di confine lineari. L'unica differenza è da come sono trovati i parametri di interesse nei due modelli. Nella regressione logistica i parametri beta vengono stimati con la massima verosimiglianza. Nell'LDA c0 e c1 sono calcolati usando le stime di media e varianza della distribuzione normale. LDA assume che le osservazioni provengano da una normale con una comune covf. Se tali ipotesi sono soddisfatte, LDA è più affidabile di regressione logistica, altrimenti si invertono.

KNN è un approccio non parametrico dove non vengono fatte assunzioni sulla forma della linea di decisione. È meglio degli altri due quando le linee di confine sono altamente non lineari. Non permette l'interpretazione delle variabili d'interesse più significative.

QDA è un compromesso tra KNN e LDA/reglog. Le linee di decisione sono quadratiche.

possono essere adatte ad un numero maggiore di problemi differentemente di quanto succede per la linea di decisione di bayes è linea di decisione di X1 e X2 sono generate da una lineare bayes è lineare tstudent (simile a normale ma punti più lontani dalla media) le 2 classi sono bilanciate le 2 classi sono bilanciate linea di decisione di bayes è NON le osservazioni all'interno di lineare ogni classe sono non le osservazioni correlate e distribuite all'interno di ogni le 2 classi sono bilanciate casualmente come una classe hanno Ogni classe ha propria media normale correlazione -0.5 Ogni classe ha propria media Ogni classe ha propria media

Data Mining 11 linea di decisione di bayes è linea di decisione di bayes linea di decisione di bayes è NON lineare è NON lineare NON lineare le 2 classi sono bilanciate le 2 classi sono bilanciate le 2 classi sono bilanciate Dati sono generati da una dati sono generati con dati dati sono generati con dati

nonnormale e le osservazioni non correlati. Le classi di correlati. le classi dihanno correlazione pari a 0.5 appartenenza sono state appartenenza sono statein una classe e -0.5 in un altra campionate da un modello campionate da un modellologistico con regressori non lineare complesso.Ogni classe ha propria media 12 22, , ×uguali a X X X1(interazione)X2Quindi abbiamo appuntouna linea di confinequadratica (qda meglio)ROC curveData Mining 12sensitivity: percentuali di osservazioni correttamente classificate come positivespecificity: percentuale di osservazioni correttamente classificate come negativeReceiver operating characetristic (roc) è la curva pervalutare la capacità discriminatoria di un test.Traccia la probabilità di un risultato veropositivo (sensibilità) in funzione della probabilitàdi un risultato falso positivo per una serie dipunti di cut-off.ClusteringIn che modi possiamo raggruppare le nostre osservazioni?Un modo di raggruppare

osservazioni che condividono caratteristiche simili sulla base di precisi criteri

Un metodo di unsupervised learning - non sono disponibili esempi di come i dati dovrebbero essere raggruppati

Un metodo di data exploration - uno strumento per individuare patterns di interesse

Bisogna organizzare i dati in modo tale che ci sia alta somiglianza entro in gruppi e bassa tra gruppi.

Il clustering è una divisione dei dati in gruppi di oggetti simili. Ogni gruppo ( = cluster) consiste in oggetti che sono simili tra loro e dissimili con oggetti di altri gruppi.

La distanza (similarità e dissimilarità) tra O1 e O2 è un numero reale denominato . Proprietà:

Non-negativity: D(O O1 2≥0

Reflectivity: D(x, y)= 0 if and only if x = y

Symmetry: D(x, y) = D(y, x) ≥ 0

Triangle inequality: D(x, z) ≤ D(z, y) + D(x, y)

Se la seconda proprietà di riflettività non è soddisfatta, D è chiamata pseudo-metrica.

Una misura di dissimilarità è una

funzione tale per cui se e solo se x è meno simile di y

f(x, y) = f(w, z) che w di z (misura pair-wise)

Data Mining 13

Distanza euclidea

Correlazione lineare di Pearson ha valori sempre compresi tra -1 e 1. È una misura di similarità e può essere trasformata in misura di dissimilarità nel seguente modo:

ρ(x, y) = 1 - ρ(x, y)

Σ(x - ˉx)(y - ˉy) / √(Σ(x - ˉx)^2 * Σ(y - ˉy)^2)

Hierarchical Algorithms: Crea una decomposizione gerarchica dei nostri oggetti

Partitional Algorithms: Costruisce una serie di partizioni e ne valuta la qualità

Hierarchical Algorithms

Per valutare gli approcci gerarchici viene utilizzato il dendrogramma. La similarità tra due oggetti in un dendrogramma è rappresentata dall'altezza del più basso nodo interno che condividono.

Bottom-up (agglomerativo): Ogni osservazione è considerata un cluster,

Allo step successivo la migliore coppia di osservazioni (minor distanza) finisce dentro un nuovo cluster. Ripetuto fino a che si ha un solo cluster.
Top-Down (divisivo): Tutte le osservazioni sono considerate come un unico cluster. Si individua un metodo di separazione e si va avanti fino a che non si ha n cluster di una sola osservazione l'uno.
Come definire la distanza tra due cluster? δ = × , ∈
Assumiamo essere la matrice di dissimilarità tra due oggetti due cluster con

	C	c1	c2
C	D1	2	1
c1	2	i	∈
c2	j	2	l

Data Mining 14

Complete linkage: la distanza tra clusters è determinata dalla più grande distanza tra ogni coppia nei due differenti clusters. ( , ) = max ( ( , ) ∈ )d C C d c c D1 2 1i 2j

Single linkage: la distanza tra clusters è determinata dalla più piccola distanza tra ogni coppia nei due differenti clusters ( , ) = min ( ( , ) ∈ )d C C d c c D1 2 1i 2j

Group average linkage: la distanza è determinata dalla distanza media tra

tutte le coppie nei due clusters n n1 ∑ ∑, ) = ∣ ∣ ∣ ∣ ( , ) ∈d(C C C C d c c D1 2 1 2 1i 2j∣ ∣ ∣ ∣C C1 2 i=1 j=1

Ad ogni step vengono uniti i due gruppi dalla cui fusione deriva il minimo incremento possibile della devianza

intra: p pn n∑ ∑ ∑ ∑2 2= ( − ˉ ) = ( − ˉ )DEV x x x xT is s is ss=1 i=1 i=1 s=1

è la media del gruppo. Tale devianza può essere cojmposta come segue:

xs devinanza intra-gruppo riferita alle p variabili cong p ni∑ ∑ ∑ ˉ2 riferimento al gruppo k, dove è la media dellax= ( − ˉ )DEV x x s,kIN is s,k variabile s con riferimento al gruppo k.s=1 i=1k=1 Devianza tra i gruppi.p g∑ ∑ 2= (xˉ − ˉ )DEV x nOU T s,k s ks=1 k=1= + . Nel passare da k+ 1 gruppi a k gruppi la devianza intra aumenta mentre

DEV DEV DEVT IN OU Tquella tra i gruppi diminuisce. Ad ogni passo del metodo di ward si aggregano i gruppi per cui vi è il minor incremento della devianza

intra-gruppo.

Partitional Clustering

Bisogna fissare il numero di clusters K

K può essere interpretato come il punto di taglio del dendogramma in un cluster gerarchico

Data Mining 15, … , {1, … ,Kmeans approach: Definiamo un insieme di gruppi contenenti le osservazioni .

C1, C2, … , Ck = {1, … ,n}

Questo insieme di gruppi deve soddisfare le seguenti proprietà:

C1 ∩ C2 ∩ … ∩ Ck = ∅

In Kmeans una buona suddivisione delle osservazioni è quella per cui la variazione intra cluester, è

minimize (Wk{∑Kminimize (Wk)}) minima.

Wk = ∑Ck{∑(x-x')^2}

Una delle misure più utilizzate è la distanza euclida quadratica:

minimize (∑∑∑(x-x')^2)

K1, … , K' ∈ C1, … , Ck

Kmeans, una volta definito K, si procede come segue:

1. Assegnare casualmente ad ogni osservazione un valore da 1 a K

Anteprima

Vedrai una selezione di 5 pagine su 19

Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.

Scarica

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher nocco.grillo di informazioni apprese con la frequenza delle lezioni di data mining e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Borrotti Matteo.

Appunti correlati

Invia appunti e guadagna

Recensioni

3,5/5

2 recensioni

5 stelle

4 stelle

3 stelle

2 stelle

1 stella

Ti è piaciuto questo appunto?

Mattomarinaio

15 Marzo 2024

Studente Anonimo

9 Novembre 2023

Data Mining (parte teorica)

Formattazione del testo

Recensioni

Domande e risposte

I migliori insegnanti di Informatica

Salvatore F.

Andrea D.

Pietro S.