Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
ALBERI DI REGRESSIONE
Concentriamo ora la nostra attenzione sugli alberi di regressione, quindi prendiamo in considerazione il caso in cui la variabile di risposta sia di tipo quantitativa continua.Previsione mediante una partizione dello spazio dei predittori
Come funziono questi alberi di regressione? L'obiettivo è quello sempre di prevedere una variabile di risposta di tipo quantitativa in funzione di predittori. Questi alberi di regressione effettuano una partizione dello spazio di questi predittori in regioni, queste regioni risultano essere mutuamente esclusive ed esaustive. Cosa vuol dire questo? Vuol dire che le regioni non possono sovrapporsi, quindi in sostanza devono essere disgiunte, e devono essere tali per cui l'unione di queste regioni mi deve dare tutto lo spazio dei predittori, quindi non ci deve essere nessuna unità statistica che cade in più di una regione e non ci devono essere unità statistiche che non cada in nessuna regione. ComeViene effettuata la previsione della variabile dipendente? La previsione della variabile dipendente viene effettuata in ogni regione quindi io in ogni regione ho un valore diverso previsto per la variabile dipendente e tutte le unità statistiche che appartengono alla stessa regione hanno lo stesso valore previsto per, quindi in generale concentriamo la nostra attenzione sulla regione, nella regione io effetto una previsione per la variabile dipendente Y, la chiamiamo e questa previsione viene calcolata come la media aritmetica di tutte le osservazioni che cadono nella regione. Quindi le unità statistiche che apparterranno a questa regione, quindi che avranno dei valori del predittore tale per cui l'unità statistica cade in questa regione, avranno come valore previsto il valore. Vediamo quindi ora come funziona questa partizione dello spazio dei predittori nel caso di due predittori e vediamo alcuni esempi prima di capire da un punto di vista formale come avviene.
La partizione dello spazio. Alberi di regressione: previsione nel caso di due predittori
Qui viene fatto un esempio nel caso di due predittori. Supponiamo di aver costruito due sole regioni finali, e, calcoliamo il valore previsto per la variabile dipendente Y nella regione facendo la media aritmetica delle Y osservate per l'unità statistica che cadono nella regione 1 e otteniamo il valore Y=10 e poi calcoliamo il valore previsto per Y nella regione con cui otteniamo il valore Y=20. Allora possiamo dire che tutte le unità statistiche che cadono nella regione, cioè tutte le unità statistiche per i quali il valore dei predittori è tale per cui l'unità statistica appartiene alla regione, avranno come valore previsto il valore Y = 10. Altrimenti se l'unità statistica cade nella regione, allora prevediamo un valore per Y=20.
Il caso di 2 predittori e Qui viene presentato sempre un esempio relativo a due predittori, quindi si
considerando due predittori, e , e il grafico a destra mostra la suddivisione dello spazio dei due predittori questa volta in cinque regioni distinte. Per queste cinque regioni viene calcolato il valore previsto per la variabile dipendente, in una regione è pari a 22, in un'altra regione 12 ecc .. Quindi vengono effettuate cinque diverse previsioni ciascuna per ogni regione, per le unità statistiche che cadranno ad esempio nella regione in alto, il valore previsto per variabile dipendente sarà pari a 22. Come creare una partizione dello spazio dei predittori: esempio Cerchiamo ora di capire come è stata costruita questa partizione: questa partizione è stata costruita attraverso una procedura iterativa. Questa procedura iterativa prende il nome di corsie binary splitting ed è una procedura nel quale la regione dello spazio dei predittori viene suddivisa ad ogni step in due sotto regioni. Si parte dallo spazio dei proiettori non suddivisa in regioni,quindi in questo caso lo spazio dei preditori è diviso in due sottoregioni. Nel primo step si effettua la partizione della regione in due sottoregioni: si sceglie una delle due variabili e, in questo caso, viene scelta la variabile e. Si sceglie un valore soglia per questa variabile, in questo caso è stato scelto un valore soglia, e in corrispondenza di questo valore soglia si effettua la partizione dello spazio dei predittori in due regioni: la regione destra e la regione sinistra. Allo step successivo ci si pone in una delle regioni precedentemente create, ad esempio qui abbiamo considerato la regione di sinistra tale per cui ogni elemento è il minore di. In questa regione al secondo step viene effettuata una successiva partizione, suddividendo questa sottoregione di sinistra in due sottoregioni. Come viene effettuata questa partizione? Scegliendo sempre una delle due variabili, e, in questo caso, scegliendo un valore soglia, e la suddivisione di questa regione di sinistra in due regioni è.avvenuta sulla base proprio del valore soglia 84 assegnato alla variabile X. Quindi io ho creato una regione che è data dal rettangolino in basso a sinistra, invece per Y ho creato la regione data dal rettangolo in alto a sinistra. Il risultato finale sarà: Lo spazio dei predittori è stato suddiviso in 5 regioni: regione 1, regione 2, regione 3, regione 4, regione 5. Questa procedura dello spazio campionario in regioni rettangolari avviene per step ed ad ogni step ogni regione viene splittata in due sottoregioni, per questo il nome dell'algoritmo che abbiamo utilizzato si chiama recursive binary splitting. Ora dobbiamo capire come scegliere ogni volta ad ogni step il predittore e il valore soglia che ci permettono di effettuare questa suddivisione dello spazio dei predittori nelle cinque regioni. Questo lo vedremo dopo da un punto di vista formale. Esempio: Il processo di segmentazione dello spazio dei predittori nelle cinque regioni può essere rappresentato anziché con il grafico appena visto, può essereRappresentato attraverso un albero descritto da questa immagine:

Questo è un albero rovesciato dell'albero di regressione, diciamo ottenuto applicando il recursive binary splitting che abbiamo descritto precedentemente.
In basso nell'albero trovate che sono le cosiddette foglie dell'albero o nodi terminali e rappresentano le 5 regioni che ho creato precedentemente. Sopra queste cinque regioni, cioè sopra queste foglie, abbiamo i rami e i nodi interni: questi rami praticamente mostrano come sono state ottenute, attraverso questo procedimento di recursive binary splitting, le 5 regioni finali.
Vi ricordo che queste 5 regioni finali sono state ottenute una procedura step in cui ogni volta lo spazio dei predittori veniva diviso in due sotto regioni, quindi in due rami, scegliendo ogni volta un predittore e un valore soglia per questo predittore che consentiva di effettuare lo splittamento in due della regione nelle due sottoregioni.
Quindi se noi partiamo dalla parte
iniziale dell'albero, ovviamente partiamo da un albero nel quale lo spazio dei predittori nel quale non è stato suddiviso in nessuna regione.
Al primo nodo e quindi al primo step troviamo la regola che abbiamo adottato per suddividere lo spazio dei predittori in due sotto regioni e la prima regola era quella era infatti stata scelta la variabile e la soglia per splittare in due parti, ramo a sinistra e ramo a destra, lo spazio dei predittori.
Poi ci eravamo concentrati sulla prima regione, quindi quella per cui e questa regione cade nel ramo sinistro. In questa regione avevamo effettuato una nuova partizione di questa regione in due piccole sottoregioni che erano e e questa suddivisione era avvenuta considerando il secondo predittore e il valore soglia. Quindi attraverso questa condizione avevamo poi suddiviso la regione in due sottoregioni: tale per cui e tale per cui .
Stesso procedimento è stato utilizzato per definire le regioni , e ogni volta suddividendo la regione.
più grande in due sotto regioni attraverso la scelta di un opportuno predittore, e attraverso la scelta di un valore soglia che permettesse lo splittamento della regione più grande in due sotto regioni più piccole. I punti lungo l'albero dove lo spazio dei proiettori viene suddiviso si chiamano nodi interni, mentre si chiamano nodi terminali o foglie. I segmenti verticali dell'albero si chiamano ramo. Gli alberi di decisione vengono disegnati in genere a testa in giù, quindi le foglie risultano essere alla base dell'albero. Perché viene rappresentata graficamente la partizione dei predittori attraverso una struttura ad albero? Perché la struttura ad albero è molto più semplice e intuitiva, di quanto sia la struttura che abbiamo visto prima, e perché è anche molto facile da leggere e molto più facile anche da comunicare a non esperti del settore. Inoltre mentre la rappresentazione ad albero puòessere effettuata anche nel caso di più di due produttori, la rappresentazione che abbiamo visto prima, quella con il rettangolo e quindi la suddivisione dello spazio dei predittori, nel caso in cui consideri più di 3 predittori diventa difficile da rappresentare perché siamo oltre la terza dimensione. Quindi per questo si preferisce utilizzare una rappresentazione ad albero. 86Credit data: Facciamo un esempio: consideriamo il data set che contiene i dati relativi a 10 mila clienti possessori di una carta di credito, sono state rilevate sia variabili quantitative che variabili qualitative. Tra le variabili quantitative abbiamo la variabile credito medio mensile, età, anni scolastici, numero di carte di credito possedute, limite fissato per la carta di credito e la variabile reddito, rating che stabilisce se si ha un alto livello di rischio o un basso livello di rischio. Abbiamo poi delle variabili qualitative: genere, l'essere o non essere studente, essere o non essere sposato,etnicità divisa in 3 categorie. L'obiettivo è quello di prevedere la variabile balance in funzione di queste variabili esplicative applicando un albero di regressione, quindi applichiamo questo albero di regressione a questo dataset. L'albero di regressione viene utilizzato specialmente quando magari le relazioni che ci sono tra la variabile dipendente e le variabili esplicative non sono di tipo lineare. Applichiamo quindi l'albero di regressione ai nostri dati ed effettuiamo la partizione dello spazio dei predittori: la partizione viene rappresentata graficamente mediante una struttura ad albero e il vantaggio di questo momento sta proprio nel fatto che io ottengo una struttura molto semplice in un formato semplice da leggere e anche nel caso in cui io utilizzo più di due predittori, come nel caso in esame. Come interpretiamo il modello finale? Allora le regioni finali sono rappresentate dalle foglie di quest'albero e sono quelle segnate con ilSono stati creati 16 gruppi / 16 regioni