Anteprima
Vedrai una selezione di 10 pagine su 52
Machine Learning Pag. 1 Machine Learning Pag. 2
Anteprima di 10 pagg. su 52.
Scarica il documento per vederlo tutto.
Machine Learning Pag. 6
Anteprima di 10 pagg. su 52.
Scarica il documento per vederlo tutto.
Machine Learning Pag. 11
Anteprima di 10 pagg. su 52.
Scarica il documento per vederlo tutto.
Machine Learning Pag. 16
Anteprima di 10 pagg. su 52.
Scarica il documento per vederlo tutto.
Machine Learning Pag. 21
Anteprima di 10 pagg. su 52.
Scarica il documento per vederlo tutto.
Machine Learning Pag. 26
Anteprima di 10 pagg. su 52.
Scarica il documento per vederlo tutto.
Machine Learning Pag. 31
Anteprima di 10 pagg. su 52.
Scarica il documento per vederlo tutto.
Machine Learning Pag. 36
Anteprima di 10 pagg. su 52.
Scarica il documento per vederlo tutto.
Machine Learning Pag. 41
1 su 52
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

I

Cloudy la

3 Rain

classe predica probabilità

in che i

g

µ

XD

2 i

i I n

i

i Xp

3 e 2 in

WORKING DATA

TEXT

WITH

Un di

problema classificazione

dati

i sonotestuali

dove quello

e

dello

spam

Il prima

avviene

preprocessing dal

della

classificazione dominio

e

dipende

Comprende l'intero

testo

1 lowercase

Lower convertire in

casing nel dei

riconoscimento

problema nomi

2 basatasul

CustomerNormalization dominio

è

mail

URL nel URL

trovare

e testo

a indirizzi e

possibile sulla

mail

E incidano

che

non

indirizzi

9 o

8

e la mail e URL

classificazione

e

È diversi nellespam

sono sempre

E a b Numeri sostituiti

con numbers

o

à dollar

sostituiti

c Dollari con

È 8 tab

d sostituiti

Non ecc

virgolepunti

parole

E e

e con

uno

spazio

html

tag

Rimozione

e

3

Word Stemming alla

Le radice

ridotte

parolesono

discount

es discounted Discount

stemming

discounting

discounts Soluzioni

PROBLEMA le of

Word

feature

classificare o

Bag

sappiamo Approach

ER ott

da IDF

vettori senza

a

partire

numerici

stanghe le dalle

email

Bisognaestrarre feature

of Word Approach

Bag list

1 Creare vocabolario

un vocabulary il

di

le tutto

tutte parole

Prendere

set mailbox ordinarle

e

training loro

associando numero

un

Si solo che

quelle

sceglieranno volte

di

si n

più

ripetono

il l'indice

2 testo

con associato

Mappare nel

testo

ogni pre

parola processato

lista di

viene

mappatoinuna

word che l'indice

contiene

indices list

della nel

parola vocabulary

è

nel

Se parola

B

iv non

una

dizionariononsenetieneconto

FeatureExtraction

3 e'convertita

ogni inun

email nè

vedi il

dare

vettore nel

di vocabolario

numero parole

N la i esimaparola

vi quando

Esempio 8

7

5 6

0 2 3 4

I

doc 0

O

I 1

The O O

I

1 i

0

is

Sun Shining I 0 O

I

1

0 O 1 i

o

the

2 sweet

is

weather I 1

1 2 i

2 2 i

3 I

3 and

The the and

sweet istmo

weather one

Sunis is one

Shining X i

list

vocabulary Il

2 one

3 Shining

4 Sun

5 sweet

6 the

7 tuo

8 weather

TF IDF Term InverseDocument

Frequency Heavenly di unaword

occorrenza

La

TF il di di

IDF tenendo

normalizza conto

vettore occorrenza documenti

n

Alto sarà

Una se

parola importante

tante

volte pochi

in

compare

µ 1

flw.d

tf.io

TF IDF Ef.flnfff

documenti i

Basso una

parola poche

compare

volte molti

ma

in documenti di

di documenti

volte

di numero

numero

numero nel la

cui cui

in in

vi documenti compare

appare

d

nel set

documento w

parola

training

la la

Su TF

Sakitlearn 12

IDF Normalization

include

procedura

non vii vi

Nulla vii

Esempio 8

7

5 6

3 4

0 2

da I

The

1 is

Sun 0 0

O

043 O O

0.43

0.560.56

Shining

the

2 0.430 0 O

is

Sweet 0

weather 0 0.560.43 0.56

3 The the sweet

weather 0.19

Sunis ndOneandone.istwo 0.50450.50.19

is 0.190.190.30.25

Shining 12

catene normalization

e

Dopo n

n

a n

n a

list

vocabulary 11

aria 1

is

i

3 µ

Shining

4 Sun

5 sweet

6 the

7 tuo

8 weather

Per nel

della

calcolare l'importanza terzo

is documento

parola

p dD

Hideki t1

d 3

voltein 3fnfgft1

npjf.ee jggset

I limitidelBag the

o

Word context

Approach Capturing

Frasi le o i

stesse Non

si

che considerano solamente

contengono token anche

parolesonovalutatein singoli

egual ma coppie

di

singolitoken

modo triple

avendo un o

significato

pur list

nel

diversa o potrebbero

vocabulary binari

esserci

es diagrammi

than

John

smarter

is

Mary es

than not

issmarter worth

John Mary very

good

Le utilizzatesono

parole

piu overbi

che

spesso congiunzioni

di

non

sono particolare

importanza

fini

della

di classificazione

es and or

is Text

transformation

list

vocabulary

of textwith

Words

Bag word

swap indeces

I

text the

take

numbers most

no frequentindecisi

Problem Classification

TF IDF t.fdflw.dttf.tn

nnjjtY

of

Indeals

Vocabulary

variable

length

MACHINE REGULARIZATION

LEARNING

Ricapitolandoquanto

fatto

finora

AD

LINEAR

REGRESSION case

ya Ya

y

y

held held held

x x x

Underfit Good Overfit

hdd.qtqxi.GE GG

ho ho

itQxIQftGFIlnodeUoe'troppo

è sensore l'ipotesi

e'perfetto

Non feature

ma troppe

semplice

enansiadatta ottimale adattarsi benissimo

potrebbe

adeguatamente all'raining

set

del

dati

ai Set fallire si

se

ma dovessero

potrebbe

training nuovi

generalizzare esempi

Gradient QQ

hold cost

function Descent

gia Algorithm

LOGISTICREGRESSION n

µ µ x

fit

Under Good

overfithdd.ee

QxI xatQxIet.it

QtQxitqxa hddgIGtQqt

hddsglqtqxi.GE

dati

l'andamento dei

segue accurato

abbastanza

inmodo

Inno Datandataset

dove il

dataset

multidimensionale Restituisce

spazio 500

di

tante dimensionalità

e'facile

hanno

si 50

feature non didimensionalità

Wil Wal

determinare fortemente

feature

sono

quale

correlate peroraratternative

Esistono I uni

I

1

di

il

1 Ridurre feature

numero V

le

feature

a selezionando manualmente della

di

Pearson riduzione

danartenercaniccafficiente

b PG dimensionalità mantenendo

Principal Component

Analysis le informazioni

del

viso principali

esiminimizzerei

dettagli

perlaconoscimentofacciale

2 Regularization le

tutte

Mantenere feature

il dei

valore

riducendo parametri

Lavora molte

bene feature

con

dellequali contribuisce

ognuna

alla part

dig Regularization

predizione p

RIDGE

REGRESSION

t n

È

f lh Hl

yYtdjfgylafunzione.cioe

L'obiettivo

e'minimizzare

cercare

di

trovare

Canigliar costo

potesiteneraobassiisuoifmaiamifa.fi

coefficienti E

è ysommaaeieoeq.ae

E 4

dell'ipotesi

moltiplicativo

lambda

µ

insalatiera

Talvolta es invece jfq.tn costlhdxl.y ttg aq

di I siusa

utilizzare

cit ftp 9

iostlhdxhdt

2C

1

htQ4

hdq.ge QxntGxrt µ f

µ

pp

di QQ.GG

A

Esempio applicazione G

Prendiamo da

laclassificazionedetesti

in dei

considerazione parametri

Rappresentazione

Politica bassi

tenere schiacciati

e

text LOGISTICREGRESSION No

politica TF

set

di

Poniamo IDF

50

un con

avere training esempi

Wii Dirai ParlamentoSenato

Salvini

ha ED

Dirai

Salvini hold

IPOTESI

Senato Logistic Pao

QQ

REGRESSION

I

Dirai Parlamento

Salvini

Woo µ

iii

feature

list di

feature

vocabulary

d

Salvini Maio Parlamento

Senato a

REGULARIZATION de'un da

parametro spostare Il

c S di

senza

minimizzazione

µ µ ma Dirai

ott Salvini

bassi Senato

Parlamento

piu

nn

Dirai

Salvini Unavoltacambiatogoverno

Overeating emodevasarciinutile

The

holdout

method SET

ORIGINAL

SET

TRAINING SET

TEST

SET SET

VALIDATION

TRAINING

training

o tuning

evacuation É

no Final

Performance

Estimate

PREDICTIVE

MODEL

METRICHE del

di

Matrice Class

PREDICTED risposta

Confusione False classificatore

Trapositives

Laconfusionmatrix

permette Negatives

Actual TPl

il

di classificatore

se

capire Class

lavora False true

Positives

bene meno negatives

FP TN

laventaiche

dovrebbe

essere

predetta

GrandTruth

Training Esempio

i tesey

I

IlogisticRegressionIoooiIon.aon ioue

s nataaeaiq.ee

in

Kim P N

hypothesis http 1

Èsonostimatie A.C

gli

B non logistic

v Regression

b N 1

1

corretti

necessariamente hdxtglqto.at n

attività p

umane

Esempio IfÉ

O noi s

22.76

02 0

O

confuso

per

running

running 4 O

1

walkingjogging running ci

azzecca

quanto sehddso dabet.li

5

diagonale

Accuracy TP Esempio

Accuracy set

NtTPtTN

T.pt su

Accuracy training

testset

su

1.89

Accuracy

L'accuratezza calcola Pc Pc

µ

i DO

20

0

totale 1

di predizioni

numero

la la

ovvero

diagonale predizione

chein

sia casi

corretta nei positivi

quelli

negativi

Esenpiocalcdoacc.ci Pc

PC achoof3 acwray.jo

0.95AC

3Acaray 0

1

1 0.85 20

1 3

20

0

20 O estremamentesbilanciato

è

Questo

sbilanciato

Inquestacasasinandataset mesemepio dire tutti

chenegativitametricaeinconneponiedico che i

sarebbe

come

conpiù positivi

esempi malati banale

sani

pazientisono o

interessantemafuorviarteinquasticasi

esistenadicequasisempresiatultigli esempi

Altre metriche

Precision FN TN

Ma

La calcola p

quante

precisione TPtfpfpfb

tra corrette

istanze sono

prelevate

quelle matrix

chagonale.nameconfusion TP FP

Esempio

Dettagli
Publisher
A.A. 2019-2020
52 pagine
SSD Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Aurora_Arctic di informazioni apprese con la frequenza delle lezioni di Machine learning e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Udine o del prof Serra Giuseppe.