Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Domande sulle foreste di alberi decisionali
79. Nei modelli foresta è possibile generare centinaia di alberi aggregando quindi i risultati, quale delle seguenti affermazioni è CORRETTA con riferimento ad un generico albero? Scegli una o più alternative:
- Il singolo albero è costruito su un sottoinsieme delle variabili.
- Il singolo albero è costruito considerando tutte le variabili.
- Il singolo albero è costruito solo sulle variabili più importanti.
- Il singolo albero è costruito su un campione delle osservazioni.
80. Quali di questi sono esempi di classificazione?
- Determinare se un apparecchio è acceso o spento in funzione della temperatura.
- Analizzare la relazione tra livello di carica di un macchinario e la temperatura.
- Lo spegnimento del bollitore al raggiungimento di una specifica temperatura.
- Tutte le opzioni descritte.
81. Per quali di questi parametri un valore più alto è meglio nei modelli ad albero?
- Numero di campioni utilizzati per lo split.
- Profondità massima dell'albero.
- Numero di variabili considerate per lo split.
- Impurità del nodo.
seguentiaffermazioni è vera?- il 50% delle osservazione non comprende il 95% delle osservazioni in target
considerando il primo 20% delle osservazioni si raggiunge circa l'80% del target
il primo 20% delle osservazioni permette di cogliere una proporzione del target di circa 4 volte maggiore rispetto ad un'estrazione casuale
tutte le precedenti
87.si consideri l'output di un modello regressivo logistico come riportato nella tabellaseguente relativa all'analisi della propensione ad acquistare dei clienti loyalty di unacatena GDO. Per ogni anno di anzianità di loyalty di quanto varia il rapporto traprobabilità di acquisto e probabilità di non acquisto?
- diminuisce di circa il 9%
- aumenta tra il 20% e il 30%
- resta più o meno invariata→
- aumenta di circa il 10% e^0,0986 -1 = 0,1036 = 10,36%
88. Considerate l'output seguente che confronta 5 modelli ad albero, quale modello scegliereste? Giustificate la risposta in poche parole.
righe.Stando alla profondità è preferibile un albero poco profondo in quanto significherebbe essere piùrobusto. Questa prima analisi ci porterebbe a classificare in ordine di importanza il modello 1seguito dal 2, 3, 4 e 5. Andando poi ad analizzare l’errore nel dataframe di training notiamoinvece che proprio il primo modello è il peggiore, mentre il migliore è l’ultimo; questaosservazione va comparata all’errore nel dataframe di testing (la differenza tra errori in undataframe e nell’altro dovrebbe essere minima).modello 1: 110-100 = 10; modello 2: 105-90 = 15; modello 3: 100-50=50; modello 4: 105- 45=60;modello 5: 150-30= 120Nel modello 5 si ha un’ottima performance nel dataframe di train ma orribile in quello di test. Perquesta ragione confrontando tutti i modelli il migliore dovrebbe essere il primo sia in termini diprofondità che in termini di performance del modello su dati totalmente nuovi.
89. Data l’equazione P(y=1|x,w)=g(w0+w1x),
dove G è la funzione logistica, cambiando i valori di w0 e w1 come potrà variare il valore di p? - Tra 0 e 1 - Tra infinito e + infinito - Tra infinito e 0 - Tra 0 e + infinito 90. Quali delle seguenti affermazioni è VERA: - I modelli KNN non sono influenzati dalla presenza dei dati mancanti - Con i modelli ad albero non è possibile effettuare la profilazione del rischio - I modelli di ranking necessitano della standardizzazione delle variabili - Non è possibile utilizzare il modello di regressione lineare per un'analisi di churn 91. Quale dei seguenti step è indispensabile per utilizzare un modello XGBoost? - Assicurarsi che le variabili indipendenti abbiano una distribuzione normale - Imputare i missing value - Convertire le variabili in numeriche - Gestire gli outlier 92. Quale delle seguenti metriche non può essere utilizzata nella valutazione di un modello di regressione logistica? - Accuratezza - Test t - ROC - Errore quadratico medio 93. Si supponga di voler raggruppare 7lista numerata per elencare le osservazioni in 3 cluster usando l'algoritmo di clustering K-means. Dopo i primi cluster di iterazione, C1, C2, C3 presenta le seguenti osservazioni:- C1: {(2,2), (4,4), (6,6)}
- C2: {(0,4), (4,0)}
- C3: {(5,5), (9,9)}
foresta Boruta e posso usarlo ma fottermene. Perchè mi dice le variabili prettamentestatistico, poi ci metto del mio.È un suggeritore che mi può fare vedere cose idonee.Variabili auto correlate potrebbe essere interessante.Domanda: è meglio avere un modello con tante variabili o poche variabili?Poche variabili mi permette di avere maggiore stabilità nel tempo.Di che tipo di correlazione si tratta?A- esponenzialeB- logaritmicaC- lineare (il coefficiente di correlazione lineare)—> se uso modelli dove il lineare prevale Regressione Lineare potrebbe aiutare.Con il comando COMPLETE risolvo tutti I problemi solitamente.Arrivo al mio Database. Il problema è trovare qualcosa che mi preveda la variabile target.Sui lavora in Cloud se è un database bestiale, ma solitamente non si ha quindi una prima scrematurapuò essere quella di creare una database di Train e di Test. (75-25 per prassi ma è vietatocambiare).Ci sono algoritmi che mi permettono di tiare fuori dati
casuali.Da dove parto? A caso.Albero: da idea di massima che permette ad interpretare il fenomeno sottostante.Il contributo che una variabile dipendente a indipendente -> regressione logistica misura intensitàdella variabile sulla indipendente.Parto con l’albero:
Prima cosa non devo cadere nel grosso rischio- essere estremamente complicati da segare ù- -Rischio di over fitting (è il rischio del modello ad albero) potrei non farlo crescere troppo non stimarecorrettamente i dati missing
Come evitare il rischio di Overfitting?
- Dare dei pesi particolari alla matrice di confusione
- Standardizzare le variabili
- Limitare il parametro maxdeph (questa è giusta)
Potrei settare anche parametri sulle foglie e i nodi.
CP dove se posso dire (limito entropia con Gini o chi-quadro) slitta lo stesso anche se
Altro parametro è ilmigliora di poco oppure dire di fermarsi se non migliora.
CP:> è meglio oprare sul cp> è meglio operare sulla maxdeph> è meglio sulle foglie>
una di queste combinate> nessuna di queste. (Giusta questa)MA ANCHE LE ALTRE POTREBBERO OTTEREN QUALCHE PUNTO
Sugli alberi posso fare anche Cross Validation diminuisce Overfitting:- Fa si che l'albero si autotesti N volte così che non commetta Overfitting. Prende o meno determiniate variabili o osservazioni- Però non posso chiedere un numero troppo alto. (Appesantisco i calcolo inutilmente)
Qual è il metodo in che modo splitto? Non esiste uno migliore perchè se si potesse dimostrare qual'è il migliore allora userei sempre il migliore.
Gini Entropia Chi quadro
Se sono bravo sul Train allora può funzionare anche sul Test. Se non ho tempo e lo faccio direttamente sul Test.