Anteprima
Vedrai una selezione di 6 pagine su 23
Domande Metodi per il marketing Pag. 1 Domande Metodi per il marketing Pag. 2
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Domande Metodi per il marketing Pag. 6
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Domande Metodi per il marketing Pag. 11
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Domande Metodi per il marketing Pag. 16
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Domande Metodi per il marketing Pag. 21
1 su 23
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Domande sulle foreste di alberi decisionali

79. Nei modelli foresta è possibile generare centinaia di alberi aggregando quindi i risultati, quale delle seguenti affermazioni è CORRETTA con riferimento ad un generico albero? Scegli una o più alternative:

  1. Il singolo albero è costruito su un sottoinsieme delle variabili.
  2. Il singolo albero è costruito considerando tutte le variabili.
  3. Il singolo albero è costruito solo sulle variabili più importanti.
  4. Il singolo albero è costruito su un campione delle osservazioni.

80. Quali di questi sono esempi di classificazione?

  1. Determinare se un apparecchio è acceso o spento in funzione della temperatura.
  2. Analizzare la relazione tra livello di carica di un macchinario e la temperatura.
  3. Lo spegnimento del bollitore al raggiungimento di una specifica temperatura.
  4. Tutte le opzioni descritte.

81. Per quali di questi parametri un valore più alto è meglio nei modelli ad albero?

  1. Numero di campioni utilizzati per lo split.
  2. Profondità massima dell'albero.
  3. Numero di variabili considerate per lo split.
  4. Impurità del nodo.
seguenti affermazioni è corretta? - La curva di Lift mostra l'incremento di risposta ottenuto utilizzando un modello di classificazione rispetto a un modello casuale. - La matrice di guadagno mostra la percentuale di casi correttamente classificati dal modello di classificazione. 87. Qual è il significato del p-value in un test di ipotesi? - La probabilità di ottenere un risultato almeno estremo come quello osservato, assumendo che l'ipotesi nulla sia vera. - La probabilità di ottenere un risultato almeno estremo come quello osservato, assumendo che l'ipotesi alternativa sia vera. - La probabilità di ottenere un risultato almeno estremo come quello osservato, indipendentemente dall'ipotesi nulla o alternativa. - La probabilità di ottenere un risultato almeno estremo come quello osservato, assumendo che l'ipotesi nulla e l'ipotesi alternativa siano entrambe vere. 88. Qual è il significato del coefficiente di determinazione (R^2) in un modello di regressione lineare? - La percentuale di variazione nella variabile dipendente spiegata dal modello. - La percentuale di variazione nella variabile indipendente spiegata dal modello. - La percentuale di variazione totale nel modello spiegata dalla variabile indipendente. - La percentuale di variazione totale nel modello spiegata dalla variabile dipendente.

seguentiaffermazioni è vera?- il 50% delle osservazione non comprende il 95% delle osservazioni in target

considerando il primo 20% delle osservazioni si raggiunge circa l'80% del target

il primo 20% delle osservazioni permette di cogliere una proporzione del target di circa 4 volte maggiore rispetto ad un'estrazione casuale

tutte le precedenti

87.si consideri l'output di un modello regressivo logistico come riportato nella tabellaseguente relativa all'analisi della propensione ad acquistare dei clienti loyalty di unacatena GDO. Per ogni anno di anzianità di loyalty di quanto varia il rapporto traprobabilità di acquisto e probabilità di non acquisto?

- diminuisce di circa il 9%

- aumenta tra il 20% e il 30%

- resta più o meno invariata→

- aumenta di circa il 10% e^0,0986 -1 = 0,1036 = 10,36%

88. Considerate l'output seguente che confronta 5 modelli ad albero, quale modello scegliereste? Giustificate la risposta in poche parole.

righe.Stando alla profondità è preferibile un albero poco profondo in quanto significherebbe essere piùrobusto. Questa prima analisi ci porterebbe a classificare in ordine di importanza il modello 1seguito dal 2, 3, 4 e 5. Andando poi ad analizzare l’errore nel dataframe di training notiamoinvece che proprio il primo modello è il peggiore, mentre il migliore è l’ultimo; questaosservazione va comparata all’errore nel dataframe di testing (la differenza tra errori in undataframe e nell’altro dovrebbe essere minima).modello 1: 110-100 = 10; modello 2: 105-90 = 15; modello 3: 100-50=50; modello 4: 105- 45=60;modello 5: 150-30= 120Nel modello 5 si ha un’ottima performance nel dataframe di train ma orribile in quello di test. Perquesta ragione confrontando tutti i modelli il migliore dovrebbe essere il primo sia in termini diprofondità che in termini di performance del modello su dati totalmente nuovi.

89. Data l’equazione P(y=1|x,w)=g(w0+w1x),

dove G è la funzione logistica, cambiando i valori di w0 e w1 come potrà variare il valore di p? - Tra 0 e 1 - Tra infinito e + infinito - Tra infinito e 0 - Tra 0 e + infinito 90. Quali delle seguenti affermazioni è VERA: - I modelli KNN non sono influenzati dalla presenza dei dati mancanti - Con i modelli ad albero non è possibile effettuare la profilazione del rischio - I modelli di ranking necessitano della standardizzazione delle variabili - Non è possibile utilizzare il modello di regressione lineare per un'analisi di churn 91. Quale dei seguenti step è indispensabile per utilizzare un modello XGBoost? - Assicurarsi che le variabili indipendenti abbiano una distribuzione normale - Imputare i missing value - Convertire le variabili in numeriche - Gestire gli outlier 92. Quale delle seguenti metriche non può essere utilizzata nella valutazione di un modello di regressione logistica? - Accuratezza - Test t - ROC - Errore quadratico medio 93. Si supponga di voler raggruppare 7lista numerata per elencare le osservazioni in 3 cluster usando l'algoritmo di clustering K-means. Dopo i primi cluster di iterazione, C1, C2, C3 presenta le seguenti osservazioni:
  1. C1: {(2,2), (4,4), (6,6)}
  2. C2: {(0,4), (4,0)}
  3. C3: {(5,5), (9,9)}
Quali saranno i centroidi dei cluster se si desidera procedere per la seconda iterazione? - C1: (6,6), C2: (4,4), C3: (9,9) - Nessuno di questi - C1:(4,4),C2:(2,2),C3:(7,7) - C1: (2,2), C2: (0,0), C3: (5,5) Metodi ripasso Variabile discreta o continua? Tutte le volte per cui calcolare la Media è una castroneria quella è categorica (possesso/non possesso fidelity card, sesso, età) se l'età la misuro in microsecondi di vita è continua. Poi abbiamo visto tutta una serie di accortezze per rendere il database utilizzabile. Quando si hanno dentro schifezze ci sono modi di sistemarli. Se le variabili sono scritte male con gli spazzi tutto non funziona, infatti non devono essere contenuti spazi o caratteri speciali. Allora si deve iniziare con lettere e se si vuole usare unaIl carattere va usato _ underscore. I programmi non riescono ad elaborare. Controllo che sia tutto scritto in maniera decente, se nò non si riesce a calcolare. Primo aspetto fondamentale è stato sono importanti tutte le informazioni all’interno? Si buttano fuori quelle con tanti missing o con una percentuale scelta. Se il missing lo voglio mantenere trovo la modalità per sostituire i missing. Sbattere via le osservazioni se sono troppo vuote di informazioni. Dopo questa pulizia mi chiedo ci sono valori anomali? Quindi clienti con profilo diverso. Quali sono i modelli che secondo noi sono più influenzati dagli outlier? - Regressione logistica - KNN - Cluster Analysis ottimizza la distanza all’interno dei cluster e fra i cluster. Maggior distanza esterna e minor e interna. Faccio tabella dove vedo i percentile e valori massimo della variabile, in tutti i casi dove ho differenze molto ampie (non c’è un dato fisso) gli tolgo. Se ritengo che non voglio togliere le osservazioni Winsorizzo.Se ritengo che la tua caratteristica sia completamente fuori, creo una variabile "outlier" e faccio: ```R database$outliers <- ifelse(upt > 10, 1, 0) ``` All'interno del mio database tengo tutte le osservazioni, ma ci sono delle righe che saranno identificate con `outlier = 1`. I missing non si sono risolti tutti, cosa si fa? Costruisco un'altra variabile "classe d'età", una variabile discreta, e uno dei valori che può assumere è "missing". La mia finalità è avere un modello che posso generalizzare, così da metterlo in produzione. Se una delle variabili è "età" e io non ho gestito il dato mancante, se in questo caso non conosco l'età e non ho classificato in classi (età mancante), il modello si blocca. È una libera scelta perché se considero una variabile continua, si ha una capacità esplicativa maggiore di quella divisa per classi. Quali sono i metodi per risolvere il problema dei dati mancanti? Utilizziamo l'algoritmo KNN. Arrivo al mostro della

foresta Boruta e posso usarlo ma fottermene. Perchè mi dice le variabili prettamentestatistico, poi ci metto del mio.È un suggeritore che mi può fare vedere cose idonee.Variabili auto correlate potrebbe essere interessante.Domanda: è meglio avere un modello con tante variabili o poche variabili?Poche variabili mi permette di avere maggiore stabilità nel tempo.Di che tipo di correlazione si tratta?A- esponenzialeB- logaritmicaC- lineare (il coefficiente di correlazione lineare)—> se uso modelli dove il lineare prevale Regressione Lineare potrebbe aiutare.Con il comando COMPLETE risolvo tutti I problemi solitamente.Arrivo al mio Database. Il problema è trovare qualcosa che mi preveda la variabile target.Sui lavora in Cloud se è un database bestiale, ma solitamente non si ha quindi una prima scrematurapuò essere quella di creare una database di Train e di Test. (75-25 per prassi ma è vietatocambiare).Ci sono algoritmi che mi permettono di tiare fuori dati

Formattazione del testo

casuali.Da dove parto? A caso.Albero: da idea di massima che permette ad interpretare il fenomeno sottostante.Il contributo che una variabile dipendente a indipendente -> regressione logistica misura intensitàdella variabile sulla indipendente.Parto con l’albero:

Prima cosa non devo cadere nel grosso rischio- essere estremamente complicati da segare ù- -Rischio di over fitting (è il rischio del modello ad albero) potrei non farlo crescere troppo non stimarecorrettamente i dati missing

Come evitare il rischio di Overfitting?

  • Dare dei pesi particolari alla matrice di confusione
  • Standardizzare le variabili
  • Limitare il parametro maxdeph (questa è giusta)

Potrei settare anche parametri sulle foglie e i nodi.

CP dove se posso dire (limito entropia con Gini o chi-quadro) slitta lo stesso anche se

Altro parametro è ilmigliora di poco oppure dire di fermarsi se non migliora.

CP:> è meglio oprare sul cp> è meglio operare sulla maxdeph> è meglio sulle foglie>

una di queste combinate> nessuna di queste. (Giusta questa)MA ANCHE LE ALTRE POTREBBERO OTTEREN QUALCHE PUNTO

Sugli alberi posso fare anche Cross Validation diminuisce Overfitting:- Fa si che l'albero si autotesti N volte così che non commetta Overfitting. Prende o meno determiniate variabili o osservazioni- Però non posso chiedere un numero troppo alto. (Appesantisco i calcolo inutilmente)

Qual è il metodo in che modo splitto? Non esiste uno migliore perchè se si potesse dimostrare qual'è il migliore allora userei sempre il migliore.

Gini Entropia Chi quadro

Se sono bravo sul Train allora può funzionare anche sul Test. Se non ho tempo e lo faccio direttamente sul Test.

Dettagli
Publisher
A.A. 2021-2022
23 pagine
SSD Scienze economiche e statistiche SECS-P/08 Economia e gestione delle imprese

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher filcompagnoni di informazioni apprese con la frequenza delle lezioni di Metodi quantitativi per il marketing e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università "Carlo Cattaneo" (LIUC) o del prof Gnecchi Michele.