Data Mining 1 - Appunti

Appunti di data mining 1 basati su appunti personali del publisher presi alle lezioni del prof. Nanni, dell’università degli Studi di Pisa - Unipi, della facoltà di Scienze …

Esame Data Mining 2

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Nanni Loris

Università Università degli Studi di Pisa

Publisher MeagerAxis_MB

A.A. 2020-2021

75 pagine

Appunto

Vota 4,5 / 5 (2)

Scarica

Estratto del documento

K NEAREST NEIGHBORS

I classificatori DecisionTree e Rule-based sono esempi di EAGER LEARNERS, perché sono strutturati per apprendere un modello che mappa attributi di input in un'etichetta di classe appena sono disponibili i dati di training. Una strategia opposta sarebbe ritardare il processo di modellazione dei dati di training fino a quando non sarà necessario classificare esempi di test.

Le tecniche che utilizzano questa strategia sono noti come LAZY LEARNERS. Un esempio è il classificatore Rote, che memorizza tutti i dati di training ed esegue la classificazione solo se gli attributi dell'istanza di test corrispondono esattamente con uno degli esempi di training. Chiaramente, ci saranno records di test che non saranno mai classificati per mancanza di corrispondenza.

Un modo per rendere questo approccio più flessibile è trovare tutti gli esempi di training che sono relativamente simili agli attributi dell'esempio di test. Questi esempi

Chiamati NEAREST NEIGHBORS, sono usati per determinare la classe dell'esempio di test. Un classificatore nearest-neighbor rappresenta ogni esempio come un punto in uno spazio d-dimensionale, dove d è il numero di attributo. Dato un esempio di test, si calcola la sua "prossimità" con il resto dei punti nel training set. I k-nearest neighbors di un dato esempio z si riferiscono ai k punti più "vicini" con z. In figura, possiamo vedere i vicini (1-, 2-, 3-nearest neighbors) di un punto localizzato al centro del cerchio. Il punto viene classificato sulla base dell'etichetta dei suoi vicini. Nel caso che i vicini abbiano più di un'etichetta, viene assegnata quella di maggioranza del vicinato. Nel caso in cui non abbiamo una classe di maggioranza, possiamo scegliere randomicamente (o attuare delle politiche diverse). Nel caso con k=3 e pesi uniformi, il punto viene classificato (supponendo che sia della classe negativa) come positivo, perché ha...

2 positivi nel suo vicinato, rispetto ad 1 negativo. Mentre se mettiamo dei pesi alle distanze viene classificato come negativo. Nota: nel caso di 1-nearest-neighbor possiamo rappresentare tutto come "Diagrammi di Voronoi". PROBLEMA: la scelta del k. Se k è troppo piccolo a quel punto il classificatore sarà sensibile ai punti che rappresentano rumore (e va in overfitting). Se k è troppo grande il classificatore può classificare erroneamente l'istanza di test perché nella lista dei vicini ha punti di altre classi (che in realtà sarebbero distanti dal vicinato e va in underfitting). Il caso limite è quando k = N e quindi confronto un record con tutti gli altri andando ad assegnare di default la classe di maggioranza (è un dumb model). Riassumendo: abbiamo detto che un classificatore Nearest-Neighbor richiede tre cose: 1) L'insieme di records memorizzati 2) la metrica di distanza da calcolare tra i records 3) Il valore di k, ovvero il numero di vicini da considerare per la classificazione.del k, come "numero di vicini" da osservare Per classificare un record sconosciuto si procede nel seguente modo: 1) Si calcola la distanza con gli altri records di esempio 2) Si identificano i k vicini 3) si usa l'etichetta di vicini per determinare l'etichetta del record sconosciuto. Questo può essere fatto prendendo un voto di maggioranza o dando un fattore di peso alla distanza per ridurre l'impatto del k, definito come w = 1/d . 26 Quindi esempi di training che sono localizzati distanti dal punto hanno un impatto inferiore nella classificazione rispetto a quelli localizzati vicini. Dobbiamo scalare gli attributi per prevenire che certi attributi dominino su altri nel calcolo della misura di distanza. La distanza euclidea per quanto semplice ha problemi per dati con tante dimensioni e può produrre risultati controintuitivi (ad esempio se confrontiamo sequenze di bit). La soluzione è normalizzare i vettori in base alla lunghezza.

unitaria.

CARATTERISTICHE Nearest-Neighbor

(Potremmo dire che funziona bene quando abbiamo una determinata concentrazione minima di punti nel vicinato)- Una classificazione Nearest-Neighbor fa parte di una tecnica più generale chiamata apprendimento instance-based, che usa specifiche istanze di training per fare previsioni senza mantenere un'astrazione/modello derivato dai dati.

- I lazy learners non richiedono tempo per la costruzione di un modello, però sono costosi per il calcolo delle prossimità quando bisogna etichettare un esempio di test. Gli eager learners spendono risorse computazionali per la costruzione di un modello, ma classificano velocemente nuovi records.

- I classificatori Nearest-Neighbor fanno le predizioni sulla base di informazioni locali, mentre i decision tree (e i classificatori rule-based) tentano di trovare un modello globale adatto all'intero spazio di input. Quindi, poiché le decisioni di classificazione sono fatte localmente, i

classificatori nearest-neighbor sonoabbastanza suscettibili al rumore (per piccoli valori di k)- I classificatori nearest-neighbor possono produrre decision boundaries di forma arbitraria, i qualiforniscono una rappresentazione del modello più flessibile rispetto al decision tree spesso vincolato dadecision boundaries rettilinei. Aumentare il k potrebbe ridurre la variabilità dei decision boundaries.

- I classificatori nearest-neighbor possono produrre predizioni errate a meno che non vengano definitemisure di prossimità appropriate e di preprocessare i dati. Ad esempio, se volessimo classificare ungruppo di persone sulla base dell’altezza (misurata in metri) e del peso (in libbre), vedremmo chel’attributo altezza ha una bassa variabilità nel range 1.5m, 1.85m, mentre il peso può variare da 90lb a250lb. Se non viene presa in considerazione la scala degli attributi, la misura di prossimità può esseredominata dai pesi.

PEBLS

– Parallel Examplar-Based Learning System L'algoritmo nearest-neighbor può essere esteso per gestire anche attributi nominali. La variante chiamata PEBLS misura la distanza tra due attributi nominali usando il MVDM (metrica differenza di valore modificata). È un Nearest neighbor con k = 1 dove ad ogni record è assegnato un fattore di peso. Data una coppia di valori di attributi nominali V1 e V2, la distanza tra loro è definita nel seguente modo: dove nij è il numero di esempi della classe i con valore dell'attributo Vj e nj è il numero di esempi con valore dell'attributo Vj. 27- Altri confronti tra KNN e Decision Tree: Per prima cosa il decision tree è migliore dal punto di vista visivo, mentre del knn potrei vedere solo i vicini più vicini di un punto come esempio. Se per caso tra gli attributi abbiamo che uno è completamente casuale, il KNN essendo basato su una misura di distanza fa ogni volta una valutazione.

“olistica” su tutti gli attributi, quindi anche se uno ècasuale entrerà comunque in gioco. A volte il casuale influirà poco, alle volte di più e potrebbe buttarevicino punti lontani e viceversa. Il DecisionTree invece non si fida di nessuno e va a verificare se servonoa qualcosa gli attributi prima di “usarli”. Morale: il KNN non è robusto alle variabili poco informative eridondanti, cioè a dati correlati (in questo caso l’attributo ridondante vale 2 volte); inoltre gli outlierspossono far diventare i vicini inaffidabili.Quindi, la dimensionalità del dataset è un problema solo per il knn.Il Preprocessing del KNN sarà: eliminazione features categoriche, e normalizzazione/standardizzazionedelle variabili continue. 28/****** MISURE DI SIMILARITÀ E DISSIMILARITÀ ********\Definizione – Similarity: la similarità tra due oggetti è una misura numerica del grado con

cui due oggetti sono simili. Le similarità sono solitamente non negative e spesso tra 0 (non similarità) ed 1 (completa similarità). Definizione - Dissimilarità: misura numerica che indica il grado con cui due oggetti sono differenti. - Distanza Euclidea: - Distanza di Minkowski: Se r = 1 la distanza è la City block (Cioè la manhattan). Se r = 2 è l'Euclidea. - Coefficiente di Jaccard: supponiamo che X ed Y siano due oggetti che rappresentano due righe (due transazioni) di una matrice di transazioni, dove "1" indica che quell'elemento è presente, "0" altrimenti. - Correlazione: la correlazione tra due oggetti che hanno variabili binarie o continue è una misura di una relazione lineare tra gli attributi degli oggetti. La correlazione di Pearson è ottenuta così: - Differenze tra Jaccard ed Euclidea: Dipendono dalla struttura dei dati. L'Euclidea è più appropriata su

dati con distribuzioni normali. Distanza euclidea e correlazioni utili per dati densi come le timeseries o punti a due dimensioni. Jaccard e cosine similarity utili per dati sparsi come documenti.

29DM1 – PARTE4 – ASSOCIATION ANALYSIS

L'analisi del carrello della spesa nasce quando ci si è resi conto che sarebbe stato interessante osservare cosa veniva acquistato da ogni persona, quindi cosa ci fosse in ogni cestino della spesa; quindi guardare le abitudini d'acquisto dei clienti trovando associazioni e correlazioni tra diversi articoli acquistati dai clienti. Questo ha portato allo sviluppo della Association Analysis.

Association Analysis: è l'analisi fatta per trovare relazioni interessanti e nascoste nei dati, per esempio trovare dei prodotti che vengono spesso acquistati insieme. Oltre ad applicazioni con fini economici come quella del supermercato, l'Association Analysis è utile anche nelle applicazioni biologiche.

delletelecomunicazioni (dove vediamo ogni cliente come una transazione contenente un set di chiamate),fenomeni atmosferici (dove vediamo ogni intervallo di tempo, ad esempio un giorno, come unatransazione contenente un set di eventi osservati come pioggia, neve, …) oppure in campo medico (pervedere se ci sono gruppi di geni con determinate variazioni spesso presenti in concomitanza con una certamalattia).

MARKET BASKET ANALYSIS

Dato un database di customer transactions, dove ogni transazione è un insieme di oggetti, si cerca ditrovare quali gruppi di oggetti vengono frequentemente comprati insieme. Il problema è di difficilecomputazione perché il numero di combinazioni possibili tra i prodotti è molto elevato. L’obiettivo dellaMarket Basket Analysis è estrarre informazioni dai comportamenti d’acquisto dei clienti. Le informazioniutili possono suggerire nuovi layouts dello store (quali prodotti sistemare vicini, diversi assortimenti,

Quali prodotti mettere in promozione). Questa analisi è applicabile ogni volta che il cliente acquista più cose insieme. ASSOCIATION RULES

Anteprima

Vedrai una selezione di 16 pagine su 75