vuoi
o PayPal
tutte le volte che vuoi
LOGISTIC REGRESSION
CLASSIFICAZIONE
NOTA: il termine logist regression sta ad indicare un algoritmo per la
classificazione anche se nel nome è presente la parola “regression”
La classificazione differisce dalla regressione solo per la tipologia della variabile
target.
Nei task di classificazione si va ad utilizzare un threshold ossia una valore tale
che se il valore predetto supera tale valore, allora viene assegnato ad una classe,
altrimenti viene assegnata la classe restante
Nel caso in cui il dominio della mai variabile target sia compreso tra 0 e 1, il
modello dovrà generare un valore predetto in questo range di valori e non
superiore.
Anche nella regressione logistica si usa una funzione lineare (come nella
regressione normale), ma dato che siamo interessati ad ottenere un valore tra che
è o 0 oppure 1 è necessario usare la funzione sigmoid che prende in input il valore
restituito dalla funzione lineare e restituisce un valore compreso tra 0 e 1
LOGISTIC REGRESSION 1
NOTA: la funzione sigmoid viene anche chiamata funzione logistica
Applicare la funzione sigmoid non basta per la classificazione ( in quanto abbiamo
solo valori tra 0 e 1 e non i due estremi direttamente). Per ottenere un 1 oppure uno
0 dobbiamo applicare un decision bundary una sorta di soglia/threshold che in
base al valore restituito dalla funzione sigmoid stabilisce la classe (se supera o
meno questa soglia)
NOTA: alla fine di tutto il modello non è altro che la funzione sigmoid che riceve in
input il valore delle funzione lineare mentre il decision bundary è un qualcosa di
staccato dalla funzione sigmoid ma che serve comunque per la classificazione
NOTA: in questo caso si può pensare al modello come una coppia sigmoid
function + decision bundary
DAL PUNTO DI VISTA PROBABILISTICO
Dal punto di vista probabilistico la funzione sigmoid ci dice la probabilità che
l’istanza che stiamo considerando appartenga alla classe 1 (positiva).
LOGISTIC REGRESSION 2
( = 0.7
Quindi se , il modello ci sta dicendo che l’istanza di input appartiene
h x) x
θ
alla classe 1 con probabilità 0.7(70%) con l’insieme dei parametri .
θ
( = = 1∣x;
h x) p(y θ)
θ
Come nella regressione lineare per determinare i migliori parametri è necessario
stabilire una funzione di costo che poi verrà minimizzata per identificare i migliori
parametri.
In questo caso il problema di minimizzare la funzione di costo può essere può
essere ripensato andando a trovare la migliore ipotesi usando il criterio della
massima verosimiglianza.
NOTA: rappresenta la massima verosimiglianza
L(θ)
NOTA: il nostro obiettivo è quello di trovare l’insieme di parametri che
θ
massimizza la probabilità
p(y∣X; θ)
NOTA: la funzione di massima verosimiglianza rappresenta la probabilità che un
(X)
modello di parametro abbia generato i dati osservati
θ
NOTA: la funzione di costo in questo caso rappresenta la nostra funzione di
“costo” solo che invece di massimizzarla dobbiamo massimizzarla
dato che, per quanto detto prima:
LOGISTIC REGRESSION 3
(i)
NOTA: la probabilità condizionata viene calcolata in questo modo perché
y
1−y
(Y = = ⋅ (1 −
y
segue una distribuzione di Bernoulli ( )
P y) p p)
possiamo riformulare la funzione di massima verosimiglianza nel seguente modo:
Dato che la produttoria di probabilità (numeri più minori di 0) potrebbe portare il
computer in underflow si passa al logaritmo della funzione:
NOTA: il passaggio da produttoria a sommatoria è dovuta alla proprietà dei
logaritmi log(a * b * c) = log(a) + log(b) + log(c)
LOGISTIC REGRESSION 4