Statistical learning, appunti di teoria completa, prof. Osmetti

Name: Statistical learning, appunti di teoria completa, prof. Osmetti
Rating: 4.0 (1 reviews)
Author: nicoletta0597

Revisionato il 30/05/2026

di nicoletta0597

Publisher

Vota 4,0/5 (1)

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Appunti di statistical learning basati su appunti personali del publisher presi alle lezioni del prof. Osmetti, dell’università degli Studi Cattolica del Sacro Cuore - Milano …

Esame Statistical learning

Facoltà Economia

Dal corso del Prof. Osmetti Silvia

Università Università Cattolica del "Sacro Cuore"

A.A. 2019-2020

125 pagine

4 download

Appunto

Scarica

Estratto del documento

Inferenza e previsione

In questa lezione introdurremo la simbologia utilizzata, parleremo di inferenza e di previsione e parleremo di metodi parametrici e non parametrici.

Simbologia e annotazione

Introduciamo l’annotazione che utilizzeremo nel corso:

Numero delle osservazioni campionarie
Numero di variabili esplicative o indipendenti rilevate
Valore della j-esima variabile per la i-esima osservazione (unità statistica)
Matrice dei dati che avrà dimensione, righe e colonne; in particolare sulle colonne avremo le variabili esplicative e sulle righe le osservazioni

Indicheremo poi con o con trasposto, a seconda che il valore lo vogliamo scritto come vettore riga o vettore colonna, il vettore dei valori delle p variabili esplicative, rilevate per l’i-esima unità statistica. Indicheremo poi con i valori della variabile di risposta o di output, quando questa sarà rilevata; anche il vettore della variabile sarà di dimensione.

Relazione tra variabili

Quindi considereremo una variabile di risposta/output Y, e predittori cioè variabili esplicative. Supporremo che esiste una relazione tra la variabile dipendente Y e alcune delle variabili indipendenti, e questa relazione può essere descritta mediante un modello:

Dove è una funzione che mostra il legame che c’è tra la variabile dipendente e le variabili esplicative che però non è nota e quindi andrà stimata dai dati; è l’errore casuale che solitamente si suppone abbia valore atteso zero cioè media zero e che sia dipendente dalle variabili esplicative o che sia incorrelato dalle variabili esplicative.

Che cosa è ? È il termine di errore che comprende tutto quello che la funzione non è in grado di spiegare della relazione che c’è tra la variabile dipendente Y e le variabili esplicative Y.

Obiettivo dell'inferenza e previsione

Per ogni modello che vedremo cercheremo di capire perché stimare, cioè qual è l’obiettivo dell' stima di X e cercheremo di capire come stimare, le tecniche di statistical learning si riferiscono proprio a tutti quei metodi che vengono utilizzati per stimare questa funzione.

Inoltre vedremo anche delle tecniche che ci consentono di cercare un compromesso cioè un trade-off tra la capacità di precisione previsiva del modello e di conseguenza la sua flessibilità, maggiore è la flessibilità maggiore è la capacità previsiva del modello, e l’interpretabilità del modello.

Questi due aspetti: precisione previsiva e interpretabilità del modello purtroppo sono due aspetti che agiscono in modo opposto: maggiore è la flessibilità del modello, di solito è migliore la precisione del modello però più è flessibile, più noi andiamo a costruire dei modelli che non sono facilmente interpretabili. Quindi cercheremo di capire come scegliere il giusto trade-off tra i due aspetti.

Esempi di realizzazioni

(Nel grafico a destra abbiamo un grafico a dispersione vengono rappresentate le coppie osservate, che sono state simulate da una funzione nota. Nel grafico a sinistra abbiamo delle coppie di valori osservate indicati con i puntini verdi sono stati simulati dalla funzione nota che viene disegnata sul grafico, il termine di errore rappresenta tutto quello che questa funzione non è in grado di spiegare della relazione che c’è tra Y e X, e rappresenta la distanza tra il punto osservato e la funzione.

Ovviamente questa funzione non è nota e andrà stimata. In questo grafico vediamo un altro esempio ma in tre dimensioni, abbiamo la variabile Y reddito in funzione di due variabili esplicative ossia anni di educazione e età, sono state simulate delle osservazioni dalla funzione nota e descritta dalla superficie blu, i puntini rossi indicano tutte le terne di valore osservati per la variabile dipendente reddito e le due variabili esplicative anni di educazione e età e come vediamo questi puntini rossi non stanno perfettamente sulla superficie blu e la distanza tra i puntini rossi e la superficie blu rappresenta quel termine di errore che abbiamo descritto prima. Anche in questo caso la funzione non è nota a priori 2 e quindi il nostro obiettivo sarà quello di stimarla.

Quindi le tecniche di statistical learning si riferiscono a tutti quei metodi che mi consentono di stimare questa funzione incognita, stimare o apprendere perché in realtà queste tecniche di statistical learning vedremo apprendono dai dati per effettuare le stime della funzione.

Perché stimare ?

L’obiettivo di stimare la funzione è duplice, io posso essere interessato a fare previsione o semplicemente a fare inferenza:

1. Previsione

Noi potremmo essere interessati a fare solo previsione sulla variabile di risposta. La variabile input X è nota, ma la variabile di risposta Y non è nota quindi io posso essere interessata, per una nuova unità statistica, a prevedere il valore assunto dalla variabile di output Y in funzione del valore assunto dalla variabile di input X.

In questo contesto l’obiettivo è la previsione della variabile dipendente Y, la stima di passa in secondo piano perché diventa una scatola nera, non sono interessata a capire come è questa funzione stimata, non sono interessata a capire la relazione che c’è tra la variabile esplicativa e la variabile dipendente, non sono interessata a capire se questa funzione magari è una retta, quindi esprime una relazione lineare, o una parabola ecc.. sono solo interessata a stimare al meglio questa funzione in modo tale da effettuare delle previsioni accurate della variabile dipendente perché il mio obiettivo non è capire la relazione che c’è tra la variabile indipendente Y e la variabile dipendente X, ma è solo quello di prevedere la variabile indipendente e prevederla al meglio.

Esempio:

In ambito mobiliare, l’obiettivo potrebbe essere quello di prevedere il valore di un immobile in funzione di alcune variabili ad es. il tasso di criminalità, della zona, la distanza di un immobile dal fiume, la presenza di una scuola ecc.. L’obiettivo non è quello di capire il legame che c’è tra queste variabili esplicative e la variabile dipendente, valore dell’immobile, ma semplicemente prevedere il valore dell’immobile in funzione delle variabili esplicative. L’obbiettivo è la previsione della variabile di risposta.

2. Inferenza

Se invece sono interessata a fare inferenza, allora vuol dire che sono interessata a capire com’è fatta la funzione, com’è fatta la stima della funzione, che la stima della funzione non sarà più una scatola nera, voglio capire quindi la relazione che c’è tra la variabile dipendente Y e le variabili esplicative X, voglio capire se le variabili esplicative modificano o hanno un effetto sulla variabile dipendente. Quindi l’obiettivo non è più tanto fare una previsione su Y, ma cercare di stimare per capire per come deve essere fatta.

Potremmo essere interessati a rispondere diverse domande ad esempio:

Quali variabili, predittori, influenzano Y? Non tutte le variabili influenzano Y, io sono interessata a prendere solo quelle che hanno un effetto sulla variabile dipendente
La dipendenza tra Y e una X è positiva o negativa? Positiva cioè all’aumentare di Y tende ad aumentare X? Negativa cioè all’aumentare di Y tende a diminuire X?
La relazione tra Y e le X di che tipo è? Sono interessata a capire che tipo di funzione lega le due variabili, che tipo di funzione lega Y a X, è una funzione di tipo lineare? Potrebbe anche non essere lineare, potrei anche ipotizzare che la funzione sia una funzione più complessa e complicata.

Riprendiamo l'esempio visto precedentemente nel contesto mobiliare: il problema è cercare di capire se esiste un legame fra il prezzo di un immobile e una serie di variabili esplicative, come ad esempio tasso di criminalità, distanza dell’immobili dal fiume, presenza di scuole o no ecc.

In questo contesto non siamo tanto interessati a prevedere il prezzo della casa in funzione di queste variabili, ma ora siamo interessati a capire se esiste un legame tra la variabile dipendente Y e le variabili esplicative X, siamo interessati a capire quali sono le variabili esplicative tra quelle elencate precedentemente che hanno un impatto maggiore sul prezzo dell’immobile quindi il mio obiettivo non sarà più quello di prevedere il prezzo, ma cercare di fare luce sulla relazione che c'è tra le variabili esplicative e la variabile dipendente. Ad esempio possiamo essere interessata e capire qual è l'effetto sul prezzo dell'immobile della variabile essere al piano alto o essere al piano basso.

Come stimare ?

Supponiamo ora di rispondere alla seconda domanda, come stimare la funzione?

Per stimare questa funzione abbiamo bisogno di un campione di osservazioni, i dati che noi utilizzeremo per stimare la funzione sono detti “training data” quindi il campione utilizzato per stimare la funzione verrà detto “trading set”.

In generale noi avremo a disposizione “data set” abbastanza ampi, questi data set saranno suddivisi in due sottocampioni: un sottocampione di dimensione un pochino più elevata che sarà appunto il training set che verrà utilizzato per stimare il modello; e un altro sottocampione di dimensioni più ridotte che si chiamerà “control set” che verrà utilizzato per spiegare il modello cioè valutare l’accuratezza del modello.

Quindi noi stimeremo il nostro modello, la nostra funzione attraverso il training set.

Metodi di stima

Esistono diversi metodi per stimare il modello e questi metodi si suddividono in: metodi parametrici e metodi non parametrici.

1. Metodi parametrici

I metodi parametrici prevedono la definizione del modello, cioè bisogna assumere una forma funzionale per la funzione come funzione di parametri incogniti e di variabili esplicative.

Il modello più semplice che noi possiamo ipotizzare è il modello di tipo lineare, da un semplice modello di regressione lineare, quella con una sola variabile esplicativa, quello che abbiamo visto nei corsi di base di statistica: a modelli più complessi dove si prevedono l'utilizzo di più variabili esplicative come il modello definito da una funzione lineare con P variabili esplicative e è l’intercetta.

Questo modello descrive una superficie di tipo lineare, se consideriamo il modello di una sola variabile esplicativa ossia un modello del tipo esso rappresenterà una retta., se consideriamo il modello rappresenterà un piano, man mano che aggiungiamo variabili possiamo rappresentare questa funzione mediante un iperpiano.

Ci sono poi anche delle forme funzionali più complesse di quelle lineari, fino ad esempio potremmo ipotizzare che le relazioni che legato la variabile dipendente con le variabili esplicative, sono magari descritte non da un polinomio di grado 2, ma da un polinomio di grado più elevato e quindi possiamo pensare di utilizzare dei modelli che siano più complessi e complicati quindi più flessibili per descrivere la reale relazione che c’è tra la variabile dipendente e le variabili esplicative.

Una volta definito il modello e la forma funzionale del modello, si passa alla stima dei parametri mediante l’utilizzo del training set.

La stima dei parametri basati su metodi parametrici risulta piuttosto semplice, poiché noi dobbiamo stimare solo i parametri incogniti, ..., e non dobbiamo stimare un’intera funzione. Quindi in sostanza la stima della funzione si riduce alla stima dei parametri incogniti.

Il metodo più usato per la stima dei parametri, che abbiamo utilizzato nei modelli di regressione lineare, è il metodo dei minimi quadrati ordinari. Esistono però dei diversi altri metodi parametrici, come ad esempio i metodi di stima della massima verosimiglianza, che tipicamente vengono utilizzati sia per i modelli di regressione lineare, sia anche per altri modelli più complessi come il modello di regressione logistica.

La figura sotto mostra un esempio di stima di un modello di regressione lineare con due variabili esplicative, quindi in sostanza ipotizza per la funzione un piano. In basso a destra troviamo il grafico che abbiamo visto precedentemente in cui viene mostrata la reale funzione, dato dalla superficie blu che spiega la relazione esistente tra la variabile dipendente e le variabili esplicative; in rosso, invece, sono indicate le unità statistiche.

Scopo del modello di regressione è quello di cercare di stimare questa funzione in blu che noi non conosciamo, la stimiamo ipotizzando un piano, quello rappresentato dalla figura in giallo, quindi si utilizza un modello di regressione con due parametri, un intercetta, questa funzione è funzione dei parametri incogniti e delle variabili esplicative, anno di educazione e età.

Questo modello viene messo in piedi per stimare la funzione che lega la variabile reddito alle due variabili esplicative: nella figura grande, oltre all’iperpiano in giallo che rappresenta la stima del nostro modello di regressione a due variabili, vengono rappresentate ancora le osservazioni, le unità statistiche in rosso che sono stati per stimare il modello, e vediamo che le linee verticali nere rappresentano invece gli errori commessi dal modello.

Anche se non è mai quasi corretto, un modello lineare è spesso una buona approssimazione della realtà, una buona approssimazione della funzione ed è facilmente interpretabile. Questi metodi parametrici, però hanno degli svantaggi: un potenziale svantaggio, proprio parametrico, è che io sono costretto a scegliere una forma funzionale per e quindi il modello che scegliamo potrebbe non corrispondere alla vera, se il modello scelto è troppo lontano dalla vera allora la nostra stima potrebbe essere imprecisa o fuorviante.

Questo problema può essere risolto scegliendo dei modelli più complessi, scegliendo dei modelli più flessibili che possono adattarsi meglio a diverse forme funzionali possibili per questa funzione. Adottando un modello più flessibile, occorrerà però stimare un numero più elevato di parametri e modelli troppo complessi possono anche portare ad un fenomeno che si chiama overfitting dei dati cioè ad un modello che segue troppo gli errori, segue troppo il rumore troppo da vicino e non coglie la reale struttura presente nel dataset.

2. Modelli non-parametrici

Esistono poi dei metodi non parametrici, questi metodi non parametrici hanno il vantaggio di non fare ipotesi esplicite circa la forma funzionale di, quello che fanno invece questi metodi è di effettuare una stima di che sia il più vicino possibile ai dati osservati.

Questi approcci hanno dei grossi vantaggi rispetto ai metodi parametrici, infatti dal momento che non assumono una particolare forma funzionale per hanno il potenziale di adattarsi ai dati con una precisione molto più ampia. Essi, infatti, consentono una stima molto più precisa della funzione e permettono di ottenere delle forme più complesse e diverse, non sono dei modelli rigidi e permettono di cogliere relazioni anche complesse diverse da quelle lineari.

Questi metodi però hanno anche degli svantaggi: innanzitutto non riducono il problema della stima di a quello semplice della stima di un piccolo numero di parametri e inoltre per poter stimare queste funzioni complesse è necessario l'utilizzo di un numero di osservazioni molto elevato, questo per ottenere una stima accurata della funzione.

Quindi anche questi metodi presentano degli svantaggi. Questo grafico mostra un esempio di stima mediante un metodo non parametrico, un metodo spline. In basso a destra trovate la solita figura, quindi abbiamo una variabile dipendente, reddito, e due variabili esplicative, livello di educazione ed età. Nel grafico è rappresentato in blu la reale funzione che descrive la relazione tra queste due variabili e la variabile dipendente; in rosso avete reale avete le solite unità statistiche che sono state simulate a questa reale funzione.

Nel grafico sopra in grande trovate invece una stima della funzione effettuata con un metodo non parametrico, un metodo spline, la superficie gialla è il risultato di questa stima. Notiamo come questa superficie sia molto più flessibile rispetto al piano che avevamo stimato precedentemente utilizzando un modello di regressione lineare. Questa superficie infatti è molto più flessibile e si adatta molto di più a rappresentare la reale funzione (x) infatti è molto vicina alla rappresentazione della funzione in blu ed è anche molto vicina alle unità statistiche osservate, vedete infatti com'è piccolo l'errore commesso per ciascuna unità statistica.

Questo metodo si basa sull’utilizzo di funzione caratterizzate da un parametro che si chiama parametro, questo parametro regola la flessibilità della funzione, quindi io posso costruire delle funzioni che siano più o meno flessibili, più alto è il parametro meno flessibile sarà il modello, cioè il modello seguirà meno le variazioni dei dati, seguirà meno rumore e coglierà invece di più il trend, la struttura reale presente nel dato. Più è basso il parametro, più io costruisco un modello flessibile che segue i dati e segue il rumore.

Uno potrebbe pensare che la soluzione migliore sia quello di mettere in piedi dei modelli estremamente flessibili che siano in grado di replicare perfettamente la realtà. In realtà un modello di questo tipo magari può essere utile in fase previsiva, ma sicuramente non è un modello utile in fase di interpretazione, io non so interpretare il modello, non so su quali variabili devo agire per prendere le mie decisioni.

Anteprima

Vedrai una selezione di 20 pagine su 125