vuoi
o PayPal
tutte le volte che vuoi
Serve a prevedere scrivendo un modello matematico, in questo caso di tipo
lineare.
Utilizzare dei modelli semplici per trovare migliore forma del modello che
approssima i dati.
Trovare la retta che minimizza lo scarto.
Supervised learning: io supervisore ti do un dataset, te impari da questo
dataset poi ti do un altro dataset e tu mi dirai.
Unsupervised learning: sistema che permette alla rete, non di fare previsioni
ma di accorgersi se all’interno di un campione ci sono dei cluster; rete di allena
a separare gruppi che sono diversi (si cercano gruppi di persone la cui
variabilità è più piccola) <- non ha bisogno di un dataset noto prima.
Reinforcement learning: si rinforzano le risposte che sono associate ad un
premio perché sono giuste.
Regressione:
tutte le slide
Lezione 6 – 02/11
R^2
Faccio campione ed ottengono una distribuzione di risposta, poi ipotizzo che vi
sia una correlazione lineari tra due variabili (può essere una retta) <- Da due o
più dimensioni riduco la dimensionalità a uno, ma ci saranno degli errori (che si
discostano dalla retta che ho individuato)
Posso calcolare il residuo tra singolo campione e retta individuata
(SSE=sommatoria(y-y^)^2) <- Più SSE è basso più i punti sono vicini alla retta
quindi il mio modello è migliore.
R^2: misura quanta parte dell’informazione che c’è nel mio campione il mio
modello riesce a spiegare.
Y^: valori assunti dal modello
Y-: media delle risposte del mio campione
• SSR=sommatoria (y^-y-)^2 <- vedo quanto è variabile il modello rispetto al
valor medio del modello (varianza intorno al valor medio del modello – quanta
informazione è contenuta nel modello)
• SST=sommatoria (y-y^)^2 <- varianza della distribuzione sperimentale
(quanta informazione c’è nel dato sperimentale)
Se SSR è minore di SST allora non sta spiegando bene e viceversa.
SST possiamo scriverlo come SSE + SSR perché: variabilità del modello +
quanto differisce il modello dalla realtà = variabilità della realtà
R^2 = SSR / SST <- più mi avvicino a uno più il mio modello è un buon modello
(significa che ho un buon contenuto di informazione).
R^2 posso anche scriverlo come: 1 – SSE / SST <- più questo rapporto si
avvicina a zero più il mio modello è buono (significa che il mio modello sbaglia
poco rispetto alla realtà).
Il modello di regressione lineare multipla
Non più retta ma piano per un modello tridimensionale, i punti si muovono
intorno al piano, possono essere sopra o sotto il piano.
Potendo muovere il piano posso trovare un modello che minimizza il grado
dell’angolo tra i punti ed il piano.
Dato che il mio campione non rappresenta tutta la popolazione per poter
rappresentarla metto l’errore “ε”; gli errori sono definiti come la differenza tra i
valori osservati e quelli previsti per la variabile di risposta, ovvero e=y-y^ <-
SSE=sommatoria di e^2
Iniziamo con la creazione di una relazione lineare singola,
con t o t value valutiamo quanto è vero o non è vero che esiste una relazione,
poi ci chiediamo quanto questa variabile ci spiega il modello ed infine ci
chiediamo se questa variabile è utile per la risposta della nostra domanda.
Se il test R^2 è basso capisco che devo passare da una regressione lineare
singola ad una regressione lineare multipla.
Posso poi fare un test (bj / sbj (dev.standard per rendere comparabili i valori))
per capire l’affidabilità.