Lezioni business data science

Trasformazione dei dati prima di fare analisi, molto utile rendere variabili confrontabili: -> i più usati sono la centratura e la normalizzazioneCentratura: per confrontare i dati si …

Esame Business data science

Facoltà Economia

Dal corso del Prof. Nervi Federico

Università Università degli studi di Torino

Publisher alessiagio2000

A.A. 2023-2024

5 pagine

Appunti esame

Vota

Scarica

Estratto del documento

Serve a prevedere scrivendo un modello matematico, in questo caso di tipo

lineare.

Utilizzare dei modelli semplici per trovare migliore forma del modello che

approssima i dati.

Trovare la retta che minimizza lo scarto.

Supervised learning: io supervisore ti do un dataset, te impari da questo

dataset poi ti do un altro dataset e tu mi dirai.

Unsupervised learning: sistema che permette alla rete, non di fare previsioni

ma di accorgersi se all’interno di un campione ci sono dei cluster; rete di allena

a separare gruppi che sono diversi (si cercano gruppi di persone la cui

variabilità è più piccola) <- non ha bisogno di un dataset noto prima.

Reinforcement learning: si rinforzano le risposte che sono associate ad un

premio perché sono giuste.

Regressione:

tutte le slide

Lezione 6 – 02/11

R^2

Faccio campione ed ottengono una distribuzione di risposta, poi ipotizzo che vi

sia una correlazione lineari tra due variabili (può essere una retta) <- Da due o

più dimensioni riduco la dimensionalità a uno, ma ci saranno degli errori (che si

discostano dalla retta che ho individuato)

Posso calcolare il residuo tra singolo campione e retta individuata

(SSE=sommatoria(y-y^)^2) <- Più SSE è basso più i punti sono vicini alla retta

quindi il mio modello è migliore.

R^2: misura quanta parte dell’informazione che c’è nel mio campione il mio

modello riesce a spiegare.

Y^: valori assunti dal modello

Y-: media delle risposte del mio campione

• SSR=sommatoria (y^-y-)^2 <- vedo quanto è variabile il modello rispetto al

valor medio del modello (varianza intorno al valor medio del modello – quanta

informazione è contenuta nel modello)

• SST=sommatoria (y-y^)^2 <- varianza della distribuzione sperimentale

(quanta informazione c’è nel dato sperimentale)

Se SSR è minore di SST allora non sta spiegando bene e viceversa.

SST possiamo scriverlo come SSE + SSR perché: variabilità del modello +

quanto differisce il modello dalla realtà = variabilità della realtà

R^2 = SSR / SST <- più mi avvicino a uno più il mio modello è un buon modello

(significa che ho un buon contenuto di informazione).

R^2 posso anche scriverlo come: 1 – SSE / SST <- più questo rapporto si

avvicina a zero più il mio modello è buono (significa che il mio modello sbaglia

poco rispetto alla realtà).

Il modello di regressione lineare multipla

Non più retta ma piano per un modello tridimensionale, i punti si muovono

intorno al piano, possono essere sopra o sotto il piano.

Potendo muovere il piano posso trovare un modello che minimizza il grado

dell’angolo tra i punti ed il piano.

Dato che il mio campione non rappresenta tutta la popolazione per poter

rappresentarla metto l’errore “ε”; gli errori sono definiti come la differenza tra i

valori osservati e quelli previsti per la variabile di risposta, ovvero e=y-y^ <-

SSE=sommatoria di e^2

Iniziamo con la creazione di una relazione lineare singola,

con t o t value valutiamo quanto è vero o non è vero che esiste una relazione,

poi ci chiediamo quanto questa variabile ci spiega il modello ed infine ci

chiediamo se questa variabile è utile per la risposta della nostra domanda.

Se il test R^2 è basso capisco che devo passare da una regressione lineare

singola ad una regressione lineare multipla.

Posso poi fare un test (bj / sbj (dev.standard per rendere comparabili i valori))

per capire l’affidabilità.

Anteprima

Vedrai una selezione di 1 pagina su 5

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher alessiagio2000 di informazioni apprese con la frequenza delle lezioni di Business data science e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Nervi Federico.

Appunti correlati

Invia appunti e guadagna

Recensioni

Ti è piaciuto questo appunto?

Lezioni business data science

Recensioni

Domande e risposte

I migliori insegnanti di Ripetizioni

Salvatore F.

Daniele P.

Matteo S.