Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
I
Cloudy la
3 Rain
classe predica probabilità
in che i
g
µ
XD
2 i
i I n
i
i Xp
3 e 2 in
WORKING DATA
TEXT
WITH
Un di
problema classificazione
dati
i sonotestuali
dove quello
e
dello
spam
Il prima
avviene
preprocessing dal
della
classificazione dominio
e
dipende
Comprende l'intero
testo
1 lowercase
Lower convertire in
casing nel dei
riconoscimento
problema nomi
2 basatasul
CustomerNormalization dominio
è
URL nel URL
trovare
e testo
a indirizzi e
possibile sulla
E incidano
che
non
indirizzi
9 o
8
e la mail e URL
classificazione
e
È diversi nellespam
sono sempre
E a b Numeri sostituiti
con numbers
o
à dollar
sostituiti
c Dollari con
È 8 tab
d sostituiti
Non ecc
virgolepunti
parole
E e
e con
uno
spazio
html
tag
Rimozione
e
3
Word Stemming alla
Le radice
ridotte
parolesono
discount
es discounted Discount
stemming
discounting
discounts Soluzioni
PROBLEMA le of
Word
feature
classificare o
Bag
sappiamo Approach
ER ott
da IDF
vettori senza
a
partire
numerici
stanghe le dalle
Bisognaestrarre feature
of Word Approach
Bag list
1 Creare vocabolario
un vocabulary il
di
le tutto
tutte parole
Prendere
set mailbox ordinarle
e
training loro
associando numero
un
Si solo che
quelle
sceglieranno volte
di
si n
più
ripetono
il l'indice
2 testo
con associato
Mappare nel
testo
ogni pre
parola processato
lista di
viene
mappatoinuna
word che l'indice
contiene
indices list
della nel
parola vocabulary
è
nel
Se parola
B
iv non
una
dizionariononsenetieneconto
FeatureExtraction
3 e'convertita
ogni inun
email nè
vedi il
dare
vettore nel
di vocabolario
numero parole
N la i esimaparola
vi quando
Esempio 8
7
5 6
0 2 3 4
I
doc 0
O
I 1
The O O
I
1 i
0
is
Sun Shining I 0 O
I
1
0 O 1 i
o
the
2 sweet
is
weather I 1
1 2 i
2 2 i
3 I
3 and
The the and
sweet istmo
weather one
Sunis is one
Shining X i
list
vocabulary Il
2 one
3 Shining
4 Sun
5 sweet
6 the
7 tuo
8 weather
TF IDF Term InverseDocument
Frequency Heavenly di unaword
occorrenza
La
TF il di di
IDF tenendo
normalizza conto
vettore occorrenza documenti
n
Alto sarà
Una se
parola importante
tante
volte pochi
in
compare
µ 1
flw.d
tf.io
TF IDF Ef.flnfff
documenti i
Basso una
parola poche
compare
volte molti
ma
in documenti di
di documenti
volte
di numero
numero
numero nel la
cui cui
in in
vi documenti compare
appare
d
nel set
documento w
parola
training
la la
Su TF
Sakitlearn 12
IDF Normalization
include
procedura
non vii vi
Nulla vii
Esempio 8
7
5 6
3 4
0 2
da I
The
1 is
Sun 0 0
O
043 O O
0.43
0.560.56
Shining
the
2 0.430 0 O
is
Sweet 0
weather 0 0.560.43 0.56
3 The the sweet
weather 0.19
Sunis ndOneandone.istwo 0.50450.50.19
is 0.190.190.30.25
Shining 12
catene normalization
e
Dopo n
n
a n
n a
list
vocabulary 11
aria 1
is
i
3 µ
Shining
4 Sun
5 sweet
6 the
7 tuo
8 weather
Per nel
della
calcolare l'importanza terzo
is documento
parola
p dD
Hideki t1
d 3
voltein 3fnfgft1
npjf.ee jggset
I limitidelBag the
o
Word context
Approach Capturing
Frasi le o i
stesse Non
si
che considerano solamente
contengono token anche
parolesonovalutatein singoli
egual ma coppie
di
singolitoken
modo triple
avendo un o
significato
pur list
nel
diversa o potrebbero
vocabulary binari
esserci
es diagrammi
than
John
smarter
is
Mary es
than not
issmarter worth
John Mary very
good
Le utilizzatesono
parole
piu overbi
che
spesso congiunzioni
di
non
sono particolare
importanza
fini
della
di classificazione
es and or
is Text
transformation
list
vocabulary
of textwith
Words
Bag word
swap indeces
I
text the
take
numbers most
no frequentindecisi
Problem Classification
TF IDF t.fdflw.dttf.tn
nnjjtY
of
Indeals
Vocabulary
variable
length
MACHINE REGULARIZATION
LEARNING
Ricapitolandoquanto
fatto
finora
AD
LINEAR
REGRESSION case
ya Ya
y
y
held held held
x x x
Underfit Good Overfit
hdd.qtqxi.GE GG
ho ho
itQxIQftGFIlnodeUoe'troppo
è sensore l'ipotesi
e'perfetto
Non feature
ma troppe
semplice
enansiadatta ottimale adattarsi benissimo
potrebbe
adeguatamente all'raining
set
del
dati
ai Set fallire si
se
ma dovessero
potrebbe
training nuovi
generalizzare esempi
Gradient QQ
hold cost
function Descent
gia Algorithm
LOGISTICREGRESSION n
µ µ x
fit
Under Good
overfithdd.ee
QxI xatQxIet.it
QtQxitqxa hddgIGtQqt
hddsglqtqxi.GE
dati
l'andamento dei
segue accurato
abbastanza
inmodo
Inno Datandataset
dove il
dataset
multidimensionale Restituisce
spazio 500
di
tante dimensionalità
e'facile
hanno
si 50
feature non didimensionalità
Wil Wal
determinare fortemente
feature
sono
quale
correlate peroraratternative
Esistono I uni
I
1
di
il
1 Ridurre feature
numero V
le
feature
a selezionando manualmente della
di
Pearson riduzione
danartenercaniccafficiente
b PG dimensionalità mantenendo
Principal Component
Analysis le informazioni
del
viso principali
esiminimizzerei
dettagli
perlaconoscimentofacciale
2 Regularization le
tutte
Mantenere feature
il dei
valore
riducendo parametri
Lavora molte
bene feature
con
dellequali contribuisce
ognuna
alla part
dig Regularization
predizione p
RIDGE
REGRESSION
t n
È
f lh Hl
yYtdjfgylafunzione.cioe
L'obiettivo
e'minimizzare
cercare
di
trovare
Canigliar costo
potesiteneraobassiisuoifmaiamifa.fi
coefficienti E
è ysommaaeieoeq.ae
E 4
dell'ipotesi
moltiplicativo
lambda
µ
insalatiera
Talvolta es invece jfq.tn costlhdxl.y ttg aq
di I siusa
utilizzare
cit ftp 9
iostlhdxhdt
2C
1
htQ4
hdq.ge QxntGxrt µ f
µ
pp
di QQ.GG
A
Esempio applicazione G
Prendiamo da
laclassificazionedetesti
in dei
considerazione parametri
Rappresentazione
Politica bassi
tenere schiacciati
e
text LOGISTICREGRESSION No
politica TF
set
di
Poniamo IDF
50
un con
avere training esempi
Wii Dirai ParlamentoSenato
Salvini
ha ED
Dirai
Salvini hold
IPOTESI
Senato Logistic Pao
REGRESSION
I
Dirai Parlamento
Salvini
Woo µ
iii
feature
list di
feature
vocabulary
d
Salvini Maio Parlamento
Senato a
REGULARIZATION de'un da
parametro spostare Il
c S di
senza
minimizzazione
µ µ ma Dirai
ott Salvini
bassi Senato
Parlamento
piu
nn
Dirai
Salvini Unavoltacambiatogoverno
Overeating emodevasarciinutile
The
holdout
method SET
ORIGINAL
SET
TRAINING SET
TEST
SET SET
VALIDATION
TRAINING
training
o tuning
evacuation É
no Final
Performance
Estimate
PREDICTIVE
MODEL
METRICHE del
di
Matrice Class
PREDICTED risposta
Confusione False classificatore
Trapositives
Laconfusionmatrix
permette Negatives
Actual TPl
il
di classificatore
se
capire Class
lavora False true
Positives
bene meno negatives
FP TN
laventaiche
dovrebbe
essere
predetta
GrandTruth
Training Esempio
i tesey
I
IlogisticRegressionIoooiIon.aon ioue
s nataaeaiq.ee
in
Kim P N
hypothesis http 1
Èsonostimatie A.C
gli
B non logistic
v Regression
b N 1
1
corretti
necessariamente hdxtglqto.at n
attività p
umane
Esempio IfÉ
O noi s
22.76
02 0
O
confuso
per
running
running 4 O
1
walkingjogging running ci
azzecca
quanto sehddso dabet.li
5
diagonale
Accuracy TP Esempio
Accuracy set
NtTPtTN
T.pt su
Accuracy training
testset
su
1.89
Accuracy
L'accuratezza calcola Pc Pc
µ
i DO
20
0
totale 1
di predizioni
numero
la la
ovvero
diagonale predizione
chein
sia casi
corretta nei positivi
quelli
negativi
Esenpiocalcdoacc.ci Pc
PC achoof3 acwray.jo
0.95AC
3Acaray 0
1
1 0.85 20
1 3
20
0
20 O estremamentesbilanciato
è
Questo
sbilanciato
Inquestacasasinandataset mesemepio dire tutti
chenegativitametricaeinconneponiedico che i
sarebbe
come
conpiù positivi
esempi malati banale
sani
pazientisono o
interessantemafuorviarteinquasticasi
esistenadicequasisempresiatultigli esempi
Altre metriche
Precision FN TN
Ma
La calcola p
quante
precisione TPtfpfpfb
tra corrette
istanze sono
prelevate
quelle matrix
chagonale.nameconfusion TP FP
Esempio