Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE
Docente: Ducange Pietro
Lezione 002
01. Che cosa è il Data Mining?
Il processo che estrae nuova conoscenza o identifica pattern/modelli nei dati mediante l'applicazione di diversi algoritmi.
Il processo che estrae dati dai fenomeni mediante l'applicazione di diversi algoritmi.
Il processo che estrae fenomeni dai dati mediante l'applicazione di diversi algoritmi.
Nessuna delle altre alternative
02. Che cosa è un pattern?
Una espressione in un determinato linguaggio che descrive modelli descrittivi estratti da un sottoinsieme di registrazioni presenti in un data base
Una espressione in un determinato linguaggio che descrive i fatti di un sottoinsieme di registrazioni presenti in un data base
Una espressione in un determinato linguaggio che descrive modelli predittivi estratti da un sottoinsieme di registrazioni presenti in un data base
Nessuna delle altre alternative
03. Quale fra le seguenti attività non fa parte del processo di KDD
Interpretazione
Nessuna delle altre alternative
Data Mining
Selezione
04. Quale fra le seguenti attività non fa parte del processo di KDD?
Selezione
Intervista
Nessuna delle altre alternative
Data Mining
05. Quali sono le fasi caratteristiche del data mining?
06. Cosa è una transazione?
07. Quali sono le fasi del KDD? © 2016 - 2018 Università Telematica eCampus - Data Stampa 28/07/2018 14:53:26 - 3/41
Set Domande: DATA MINING
INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE
Docente: Ducange Pietro
Lezione 003
01. Cosa si intende per knowledge elicitation?
Il confronto fra gli esperti di uno specifico dominio e l'ingegnere della conoscenza al fine di aggiungere in fase di modellazione elementi che potrebbero non essere
estraibili dai dati.
Il confronto fra gli esperti informatici e l'ingegnere della conoscenza al fine di aggiungere in fase di modellazione elementi che potrebbero non essere estraibili dai dati.
Nessuna delle altre alternative
Il confronto fra gli esperti informatici e matematici al fine di aggiungere in fase di modellazione elementi che potrebbero non essere estraibili dai dati.
02. A cosa servono i modelli predittivi?
Vengono utilizzati per descrivere la struttura organizzativa e la distribuzione dei dati. L'obiettivo di questi modelli e quello di approfondire la conoscenza nascosta dietro ai
dati.
Utilizzano i loro parametri e meccanismi caratteristici per effettuare delle previsioni future che possono essere utili nei processi decisionali.
Il loro obiettivo è quello di descrivere i dati per effettuare delle previsioni future.
Nessuna delle altre alternative
03. A cosa servono i modelli descrittivi?
Vengono utilizzati per descrivere la struttura organizzativa e la distribuzione dei dati. L'obiettivo di questi modelli e quello di approfondire la conoscenza nascosta dietro ai
dati.
Vengono utilizzati per descrivere i dati per effettuare delle previsioni future.
Utilizzano i loro parametri e meccanismi caratteristici per effettuare delle previsioni future che possono essere utili nei processi decisionali.
Nessuna delle altre alternative
04. Quali sono i pilastri operativi su cui si basa ogni algoritmo di data mining?
Nessuna delle altre alternative
Esporazione, Valutazione, Visualizzazione
Esporazione, Modellazione, Valutazione
Selezione, Modellazione, Valutazione
05. Discutere la differenza fra modelli predittivi e descrittivi.
06. Perché il processo di data mining è da considerarsi interattivo?
07. Quali sono i pilastri operativi su cui poggia il data mining? © 2016 - 2018 Università Telematica eCampus - Data Stampa 28/07/2018 14:53:26 - 4/41
Set Domande: DATA MINING
INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE
Docente: Ducange Pietro
Lezione 004
01. Cosa succede durante un addestramento supervisionato?
Nessuna delle altre alternative
Vengono utilizzati dei dati che sono solo in parte etichettati. La parte restante e non etichettata viene utilizzata per la cross valtidation
I dati che si utilizzano non sono etichettati e gli algoritmi di apprendimento mirano ad estrarre la conoscenza (i parametri del modello) senza avere una specifica
conoscenza del dominio del problema
Vengono utilizzati dei dati etichettati, ovvero dove si conosce il valore dell'uscita desiderata, sia essa una classe o il valore di una funzione, a fronte di un ingresso specifico
02. A cosa serve la cross validation?
A migliorare l'accuratezza dei modelli
Nessuna delle altre alternative
A migliorare la capacità di generalizzazione dei modelli
A migliorare l'adattabilità dei modelli
03. Che cosa è l'overfitting?
E' il fenomeno per cui in fase di addestramento un modello si adatta al campione osservato e perde la capacita di generalizzazione
E' il fenomeno per cui in fase di addestramento un modello allontana molto dal campione osservato e assume una grande capacita di generalizzazione
Nessuna delle altre alternative
E' il fenomeno per cui in fase di addestramento un modello si adatta al campione osservato e assume una grande capacita di generalizzazione
04. Cosa succede durante un addestramento non supervisionato?
Vengono utilizzati dei dati che sono solo in parte etichettati. La parte restante e non etichettata viene utilizzata per la cross valtidation
Vengono utilizzati dei dati etichettati, ovvero dove si conosce il valore dell'uscita desiderata, sia essa una classe o il valore di una funzione, a fronte di un ingresso specifico
Nessuna delle altre alternative
I dati che si utilizzano non sono etichettati e gli algoritmi di apprendimento mirano ad estrarre la conoscenza (i parametri del modello) senza avere una specifica
conoscenza del dominio del problema
05. Quale è il dominio degli attributi categorici?
Reale
Razionale
Nessuna delle altre alternative
Intero
06. Discutere il processo della cross validation.
07. Elencare le differenze fra boosting e bagging.
08. Discutere il problema dell'overfitting. © 2016 - 2018 Università Telematica eCampus - Data Stampa 28/07/2018 14:53:26 - 5/41
Set Domande: DATA MINING
INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE
Docente: Ducange Pietro
Lezione 005
01. Cosa sono gli istogrammi?
Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli)
Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo
quartile, terzo quartile
Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro
Nessuna delle altre alternative
02. Cosa sono gli scatter plot?
Nessuna delle altre alternative
Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro
Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli)
Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo
quartile, terzo quartile
03. Cosa sono i box plot?
Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro
Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo
quartile, terzo quartile
Nessuna delle altre alternative
Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli)
04. Che cosa è la mediana di una variabile casuale X?
E' una media pesata
E' un indice di posizione: una volta ordinati tutti i valori assunti da X, la mediana si calcola estraendo il valore del campione che divide la distribuzione in due popolazioni
di eguali dimensioni
E' l'indicatore che indica quale è il valore di X che si presenta più frequentemente nei dati
E' un indicatore che sostanzialmente si calcola come il valor medio
05. Che cosa è la moda di una variabile casuale X?
E' una media pesata
E' un indicatore che sostanzialmente si calcola come il valor medio
E' l'indicatore che indica quale è il valore di X che si presenta più frequentemente nei dati
E' un indice di posizione: una volta ordinati tutti i valori assunti da X, la moda si calcola estraendo il valore del campione che divide la distribuzione in due popolazioni di
eguali dimensioni
06. Fornire un esempio di distribuzione e del suo istogramma
07. Cosa si intende per outliers?
08. Quali sono gli indicatori di dispersione?
09. Discutere la differenza fra quartile e quantile © 2016 - 2018 Università Telematica eCampus - Data Stampa 28/07/2018 14:53:26 - 6/41
Set Domande: DATA MINING
INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE
Docente: Ducange Pietro
Lezione 006
01. Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati?
Integrazione dei dati
Nessuna delle altre alternative
Pulizia dei dati
Riduzione dei dati
02. Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati?
Pulizia dei dati
Trasformazione dei dati
Gestione dei dati
Riduzione dei dati
03. Cosa si intende per riduzione della dimensionalità?
Nessuna delle altre alternative
Si parla di riduzione dimensionale quando vengono applicate delle tecniche per codificare i dati secondo degli schemi precisi al fine di ottenere una rappresentazione
compressa o ridotta dei dati originali (esempio uso di Trasformate o tecniche di selezione di attributi).
Si parla di riduzione dimensionale quando i dati sono sostituiti da delle rappresentazioni di più piccole dimensioni si parla di riduzione della numerosità (esempio uso di
cluster o istogrammi)
Si parla di riduzione dimensionale quando i dati sono sostituiti da dati sottocampionati
04. Quali sono i principali fattori che caratterizzano la qualità dei dati?
05. Perché è necessario il trattamento preliminare dei dati?
06. Fornire un esempio in cui potrebbe essere necessario effettuare data cleaning o data integration.
© 2016 - 2018 Università Telematica eCampus - Data Stampa 28/07/2018 14:53:26 - 7/41
Set Domande: DATA MINING
INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE
Docente: Ducange Pietro
Lezione 007
01. Quali fra le seguenti tecniche non si usano in fase di gestione dei missing value?
Sostituzione dei valori mancanti con il valore più probabile
Ignorare la tupla contenente valori mancanti
Nessuna delle altre alternative
Riempimento a mano dei valori mancanti
02. L'analisi degli outier può essere usata per:
Identificare e g