Machine Learning

Appunti di machine learning basati su appunti personali del publisher presi alle lezioni del prof. Serra dell’università degli Studi di Udine - Uniud, facoltà di Scienze matematiche fisiche e naturali, Corso di laurea in informatica. Scarica il file in formato PDF!

Esame Machine learning

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Serra Giuseppe

Università Università degli Studi di Udine

Publisher Aurora_Arctic

A.A. 2019-2020

52 pagine

Appunto

Vota 5,0 / 5 (2)

Scarica

Estratto del documento

I

Cloudy la

3 Rain

classe predica probabilità

in che i

XD

2 i

i I n

i Xp

3 e 2 in

WORKING DATA

TEXT

WITH

Un di

problema classificazione

dati

i sonotestuali

dove quello

dello

spam

Il prima

avviene

preprocessing dal

della

classificazione dominio

dipende

Comprende l'intero

testo

1 lowercase

Lower convertire in

casing nel dei

riconoscimento

problema nomi

2 basatasul

CustomerNormalization dominio

mail

URL nel URL

trovare

e testo

a indirizzi e

possibile sulla

mail

E incidano

che

non

indirizzi

9 o

e la mail e URL

classificazione

È diversi nellespam

sono sempre

E a b Numeri sostituiti

con numbers

à dollar

sostituiti

c Dollari con

È 8 tab

d sostituiti

Non ecc

virgolepunti

parole

E e

e con

uno

spazio

html

tag

Rimozione

Word Stemming alla

Le radice

ridotte

parolesono

discount

es discounted Discount

stemming

discounting

discounts Soluzioni

PROBLEMA le of

Word

feature

classificare o

Bag

sappiamo Approach

ER ott

da IDF

vettori senza

partire

numerici

stanghe le dalle

Bisognaestrarre feature

of Word Approach

Bag list

1 Creare vocabolario

un vocabulary il

le tutto

tutte parole

Prendere

set mailbox ordinarle

training loro

associando numero

Si solo che

quelle

sceglieranno volte

si n

più

ripetono

il l'indice

2 testo

con associato

Mappare nel

testo

ogni pre

parola processato

lista di

viene

mappatoinuna

word che l'indice

contiene

indices list

della nel

parola vocabulary

nel

Se parola

B

iv non

una

dizionariononsenetieneconto

FeatureExtraction

3 e'convertita

ogni inun

email nè

vedi il

dare

vettore nel

di vocabolario

numero parole

N la i esimaparola

vi quando

Esempio 8

5 6

0 2 3 4

I

doc 0

O

I 1

The O O

I

1 i

Sun Shining I 0 O

I

0 O 1 i

the

2 sweet

weather I 1

1 2 i

2 2 i

3 I

3 and

The the and

sweet istmo

weather one

Sunis is one

Shining X i

list

vocabulary Il

2 one

3 Shining

4 Sun

5 sweet

6 the

7 tuo

8 weather

TF IDF Term InverseDocument

Frequency Heavenly di unaword

occorrenza

TF il di di

IDF tenendo

normalizza conto

vettore occorrenza documenti

Alto sarà

Una se

parola importante

tante

volte pochi

compare

µ 1

flw.d

tf.io

TF IDF Ef.flnfff

documenti i

Basso una

parola poche

compare

volte molti

in documenti di

di documenti

volte

di numero

numero

numero nel la

cui cui

in in

vi documenti compare

appare

nel set

documento w

parola

training

la la

Su TF

Sakitlearn 12

IDF Normalization

include

procedura

non vii vi

Nulla vii

Esempio 8

5 6

3 4

0 2

da I

The

1 is

Sun 0 0

O

043 O O

0.43

0.560.56

Shining

the

2 0.430 0 O

Sweet 0

weather 0 0.560.43 0.56

3 The the sweet

weather 0.19

Sunis ndOneandone.istwo 0.50450.50.19

is 0.190.190.30.25

Shining 12

catene normalization

Dopo n

a n

n a

list

vocabulary 11

aria 1

3 µ

Shining

4 Sun

5 sweet

6 the

7 tuo

8 weather

Per nel

della

calcolare l'importanza terzo

is documento

parola

p dD

Hideki t1

d 3

voltein 3fnfgft1

npjf.ee jggset

I limitidelBag the

Word context

Approach Capturing

Frasi le o i

stesse Non

che considerano solamente

contengono token anche

parolesonovalutatein singoli

egual ma coppie

singolitoken

modo triple

avendo un o

significato

pur list

nel

diversa o potrebbero

vocabulary binari

esserci

es diagrammi

than

John

smarter

Mary es

than not

issmarter worth

John Mary very

good

Le utilizzatesono

parole

piu overbi

che

spesso congiunzioni

non

sono particolare

importanza

fini

della

di classificazione

es and or

is Text

transformation

list

vocabulary

of textwith

Words

Bag word

swap indeces

I

text the

take

numbers most

no frequentindecisi

Problem Classification

TF IDF t.fdflw.dttf.tn

nnjjtY

Indeals

Vocabulary

variable

length

MACHINE REGULARIZATION

LEARNING

Ricapitolandoquanto

fatto

finora

LINEAR

REGRESSION case

ya Ya

held held held

x x x

Underfit Good Overfit

hdd.qtqxi.GE GG

ho ho

itQxIQftGFIlnodeUoe'troppo

è sensore l'ipotesi

e'perfetto

Non feature

ma troppe

semplice

enansiadatta ottimale adattarsi benissimo

potrebbe

adeguatamente all'raining

set

del

dati

ai Set fallire si

ma dovessero

potrebbe

training nuovi

generalizzare esempi

Gradient QQ

hold cost

function Descent

gia Algorithm

LOGISTICREGRESSION n

µ µ x

fit

Under Good

overfithdd.ee

QxI xatQxIet.it

QtQxitqxa hddgIGtQqt

hddsglqtqxi.GE

dati

l'andamento dei

segue accurato

abbastanza

inmodo

Inno Datandataset

dove il

dataset

multidimensionale Restituisce

spazio 500

tante dimensionalità

e'facile

hanno

si 50

feature non didimensionalità

Wil Wal

determinare fortemente

feature

sono

quale

correlate peroraratternative

Esistono I uni

I

1 Ridurre feature

numero V

feature

a selezionando manualmente della

Pearson riduzione

danartenercaniccafficiente

b PG dimensionalità mantenendo

Principal Component

Analysis le informazioni

del

viso principali

esiminimizzerei

dettagli

perlaconoscimentofacciale

2 Regularization le

tutte

Mantenere feature

il dei

valore

riducendo parametri

Lavora molte

bene feature

con

dellequali contribuisce

ognuna

alla part

dig Regularization

predizione p

RIDGE

REGRESSION

t n

f lh Hl

yYtdjfgylafunzione.cioe

L'obiettivo

e'minimizzare

cercare

trovare

Canigliar costo

potesiteneraobassiisuoifmaiamifa.fi

coefficienti E

è ysommaaeieoeq.ae

E 4

dell'ipotesi

moltiplicativo

lambda

insalatiera

Talvolta es invece jfq.tn costlhdxl.y ttg aq

di I siusa

utilizzare

cit ftp 9

iostlhdxhdt

htQ4

hdq.ge QxntGxrt µ f

di QQ.GG

A

Esempio applicazione G

Prendiamo da

laclassificazionedetesti

in dei

considerazione parametri

Rappresentazione

Politica bassi

tenere schiacciati

text LOGISTICREGRESSION No

politica TF

set

Poniamo IDF

un con

avere training esempi

Wii Dirai ParlamentoSenato

Salvini

ha ED

Dirai

Salvini hold

IPOTESI

Senato Logistic Pao

QQ

REGRESSION

I

Dirai Parlamento

Salvini

Woo µ

iii

feature

list di

feature

vocabulary

Salvini Maio Parlamento

Senato a

REGULARIZATION de'un da

parametro spostare Il

c S di

senza

minimizzazione

µ µ ma Dirai

ott Salvini

bassi Senato

Parlamento

piu

Dirai

Salvini Unavoltacambiatogoverno

Overeating emodevasarciinutile

The

holdout

method SET

ORIGINAL

SET

TRAINING SET

TEST

SET SET

VALIDATION

TRAINING

training

o tuning

evacuation É

no Final

Performance

Estimate

PREDICTIVE

MODEL

METRICHE del

Matrice Class

PREDICTED risposta

Confusione False classificatore

Trapositives

Laconfusionmatrix

permette Negatives

Actual TPl

di classificatore

capire Class

lavora False true

Positives

bene meno negatives

FP TN

laventaiche

dovrebbe

essere

predetta

GrandTruth

Training Esempio

i tesey

I

IlogisticRegressionIoooiIon.aon ioue

s nataaeaiq.ee

Kim P N

hypothesis http 1

Èsonostimatie A.C

gli

B non logistic

v Regression

b N 1

corretti

necessariamente hdxtglqto.at n

attività p

umane

Esempio IfÉ

O noi s

22.76

02 0

O

confuso

per

running

running 4 O

walkingjogging running ci

azzecca

quanto sehddso dabet.li

diagonale

Accuracy TP Esempio

Accuracy set

NtTPtTN

T.pt su

Accuracy training

testset

1.89

Accuracy

L'accuratezza calcola Pc Pc

i DO

totale 1

di predizioni

numero

la la

ovvero

diagonale predizione

chein

sia casi

corretta nei positivi

quelli

negativi

Esenpiocalcdoacc.ci Pc

PC achoof3 acwray.jo

0.95AC

3Acaray 0

1 0.85 20

1 3

20 O estremamentesbilanciato

Questo

sbilanciato

Inquestacasasinandataset mesemepio dire tutti

chenegativitametricaeinconneponiedico che i

sarebbe

come

conpiù positivi

esempi malati banale

sani

pazientisono o

interessantemafuorviarteinquasticasi

esistenadicequasisempresiatultigli esempi

Altre metriche

Precision FN TN

La calcola p

quante

precisione TPtfpfpfb

tra corrette

istanze sono

prelevate

quelle matrix

chagonale.nameconfusion TP FP

Esempio

Anteprima

Vedrai una selezione di 10 pagine su 52