Anteprima
Vedrai una selezione di 9 pagine su 39
Paniere con risposte chiuse - Data mining (2023/2024) Pag. 1 Paniere con risposte chiuse - Data mining (2023/2024) Pag. 2
Anteprima di 9 pagg. su 39.
Scarica il documento per vederlo tutto.
Paniere con risposte chiuse - Data mining (2023/2024) Pag. 6
Anteprima di 9 pagg. su 39.
Scarica il documento per vederlo tutto.
Paniere con risposte chiuse - Data mining (2023/2024) Pag. 11
Anteprima di 9 pagg. su 39.
Scarica il documento per vederlo tutto.
Paniere con risposte chiuse - Data mining (2023/2024) Pag. 16
Anteprima di 9 pagg. su 39.
Scarica il documento per vederlo tutto.
Paniere con risposte chiuse - Data mining (2023/2024) Pag. 21
Anteprima di 9 pagg. su 39.
Scarica il documento per vederlo tutto.
Paniere con risposte chiuse - Data mining (2023/2024) Pag. 26
Anteprima di 9 pagg. su 39.
Scarica il documento per vederlo tutto.
Paniere con risposte chiuse - Data mining (2023/2024) Pag. 31
Anteprima di 9 pagg. su 39.
Scarica il documento per vederlo tutto.
Paniere con risposte chiuse - Data mining (2023/2024) Pag. 36
1 su 39
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE

Docente: Ducange Pietro

Lezione 002

01. Che cosa è il Data Mining?

Il processo che estrae nuova conoscenza o identifica pattern/modelli nei dati mediante l'applicazione di diversi algoritmi.

Il processo che estrae dati dai fenomeni mediante l'applicazione di diversi algoritmi.

Il processo che estrae fenomeni dai dati mediante l'applicazione di diversi algoritmi.

Nessuna delle altre alternative

02. Che cosa è un pattern?

Una espressione in un determinato linguaggio che descrive modelli descrittivi estratti da un sottoinsieme di registrazioni presenti in un data base

Una espressione in un determinato linguaggio che descrive i fatti di un sottoinsieme di registrazioni presenti in un data base

Una espressione in un determinato linguaggio che descrive modelli predittivi estratti da un sottoinsieme di registrazioni presenti in un data base

Nessuna delle altre alternative

03. Quale fra le seguenti attività non fa parte del processo di KDD

Interpretazione

Nessuna delle altre alternative

Data Mining

Selezione

04. Quale fra le seguenti attività non fa parte del processo di KDD?

Selezione

Intervista

Nessuna delle altre alternative

Data Mining

05. Quali sono le fasi caratteristiche del data mining?

06. Cosa è una transazione?

07. Quali sono le fasi del KDD? © 2016 - 2018 Università Telematica eCampus - Data Stampa 28/07/2018 14:53:26 - 3/41

Set Domande: DATA MINING

INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE

Docente: Ducange Pietro

Lezione 003

01. Cosa si intende per knowledge elicitation?

Il confronto fra gli esperti di uno specifico dominio e l'ingegnere della conoscenza al fine di aggiungere in fase di modellazione elementi che potrebbero non essere

estraibili dai dati.

Il confronto fra gli esperti informatici e l'ingegnere della conoscenza al fine di aggiungere in fase di modellazione elementi che potrebbero non essere estraibili dai dati.

Nessuna delle altre alternative

Il confronto fra gli esperti informatici e matematici al fine di aggiungere in fase di modellazione elementi che potrebbero non essere estraibili dai dati.

02. A cosa servono i modelli predittivi?

Vengono utilizzati per descrivere la struttura organizzativa e la distribuzione dei dati. L'obiettivo di questi modelli e quello di approfondire la conoscenza nascosta dietro ai

dati.

Utilizzano i loro parametri e meccanismi caratteristici per effettuare delle previsioni future che possono essere utili nei processi decisionali.

Il loro obiettivo è quello di descrivere i dati per effettuare delle previsioni future.

Nessuna delle altre alternative

03. A cosa servono i modelli descrittivi?

Vengono utilizzati per descrivere la struttura organizzativa e la distribuzione dei dati. L'obiettivo di questi modelli e quello di approfondire la conoscenza nascosta dietro ai

dati.

Vengono utilizzati per descrivere i dati per effettuare delle previsioni future.

Utilizzano i loro parametri e meccanismi caratteristici per effettuare delle previsioni future che possono essere utili nei processi decisionali.

Nessuna delle altre alternative

04. Quali sono i pilastri operativi su cui si basa ogni algoritmo di data mining?

Nessuna delle altre alternative

Esporazione, Valutazione, Visualizzazione

Esporazione, Modellazione, Valutazione

Selezione, Modellazione, Valutazione

05. Discutere la differenza fra modelli predittivi e descrittivi.

06. Perché il processo di data mining è da considerarsi interattivo?

07. Quali sono i pilastri operativi su cui poggia il data mining? © 2016 - 2018 Università Telematica eCampus - Data Stampa 28/07/2018 14:53:26 - 4/41

Set Domande: DATA MINING

INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE

Docente: Ducange Pietro

Lezione 004

01. Cosa succede durante un addestramento supervisionato?

Nessuna delle altre alternative

Vengono utilizzati dei dati che sono solo in parte etichettati. La parte restante e non etichettata viene utilizzata per la cross valtidation

I dati che si utilizzano non sono etichettati e gli algoritmi di apprendimento mirano ad estrarre la conoscenza (i parametri del modello) senza avere una specifica

conoscenza del dominio del problema

Vengono utilizzati dei dati etichettati, ovvero dove si conosce il valore dell'uscita desiderata, sia essa una classe o il valore di una funzione, a fronte di un ingresso specifico

02. A cosa serve la cross validation?

A migliorare l'accuratezza dei modelli

Nessuna delle altre alternative

A migliorare la capacità di generalizzazione dei modelli

A migliorare l'adattabilità dei modelli

03. Che cosa è l'overfitting?

E' il fenomeno per cui in fase di addestramento un modello si adatta al campione osservato e perde la capacita di generalizzazione

E' il fenomeno per cui in fase di addestramento un modello allontana molto dal campione osservato e assume una grande capacita di generalizzazione

Nessuna delle altre alternative

E' il fenomeno per cui in fase di addestramento un modello si adatta al campione osservato e assume una grande capacita di generalizzazione

04. Cosa succede durante un addestramento non supervisionato?

Vengono utilizzati dei dati che sono solo in parte etichettati. La parte restante e non etichettata viene utilizzata per la cross valtidation

Vengono utilizzati dei dati etichettati, ovvero dove si conosce il valore dell'uscita desiderata, sia essa una classe o il valore di una funzione, a fronte di un ingresso specifico

Nessuna delle altre alternative

I dati che si utilizzano non sono etichettati e gli algoritmi di apprendimento mirano ad estrarre la conoscenza (i parametri del modello) senza avere una specifica

conoscenza del dominio del problema

05. Quale è il dominio degli attributi categorici?

Reale

Razionale

Nessuna delle altre alternative

Intero

06. Discutere il processo della cross validation.

07. Elencare le differenze fra boosting e bagging.

08. Discutere il problema dell'overfitting. © 2016 - 2018 Università Telematica eCampus - Data Stampa 28/07/2018 14:53:26 - 5/41

Set Domande: DATA MINING

INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE

Docente: Ducange Pietro

Lezione 005

01. Cosa sono gli istogrammi?

Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli)

Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo

quartile, terzo quartile

Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro

Nessuna delle altre alternative

02. Cosa sono gli scatter plot?

Nessuna delle altre alternative

Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro

Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli)

Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo

quartile, terzo quartile

03. Cosa sono i box plot?

Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro

Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo

quartile, terzo quartile

Nessuna delle altre alternative

Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli)

04. Che cosa è la mediana di una variabile casuale X?

E' una media pesata

E' un indice di posizione: una volta ordinati tutti i valori assunti da X, la mediana si calcola estraendo il valore del campione che divide la distribuzione in due popolazioni

di eguali dimensioni

E' l'indicatore che indica quale è il valore di X che si presenta più frequentemente nei dati

E' un indicatore che sostanzialmente si calcola come il valor medio

05. Che cosa è la moda di una variabile casuale X?

E' una media pesata

E' un indicatore che sostanzialmente si calcola come il valor medio

E' l'indicatore che indica quale è il valore di X che si presenta più frequentemente nei dati

E' un indice di posizione: una volta ordinati tutti i valori assunti da X, la moda si calcola estraendo il valore del campione che divide la distribuzione in due popolazioni di

eguali dimensioni

06. Fornire un esempio di distribuzione e del suo istogramma

07. Cosa si intende per outliers?

08. Quali sono gli indicatori di dispersione?

09. Discutere la differenza fra quartile e quantile © 2016 - 2018 Università Telematica eCampus - Data Stampa 28/07/2018 14:53:26 - 6/41

Set Domande: DATA MINING

INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE

Docente: Ducange Pietro

Lezione 006

01. Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati?

Integrazione dei dati

Nessuna delle altre alternative

Pulizia dei dati

Riduzione dei dati

02. Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati?

Pulizia dei dati

Trasformazione dei dati

Gestione dei dati

Riduzione dei dati

03. Cosa si intende per riduzione della dimensionalità?

Nessuna delle altre alternative

Si parla di riduzione dimensionale quando vengono applicate delle tecniche per codificare i dati secondo degli schemi precisi al fine di ottenere una rappresentazione

compressa o ridotta dei dati originali (esempio uso di Trasformate o tecniche di selezione di attributi).

Si parla di riduzione dimensionale quando i dati sono sostituiti da delle rappresentazioni di più piccole dimensioni si parla di riduzione della numerosità (esempio uso di

cluster o istogrammi)

Si parla di riduzione dimensionale quando i dati sono sostituiti da dati sottocampionati

04. Quali sono i principali fattori che caratterizzano la qualità dei dati?

05. Perché è necessario il trattamento preliminare dei dati?

06. Fornire un esempio in cui potrebbe essere necessario effettuare data cleaning o data integration.

© 2016 - 2018 Università Telematica eCampus - Data Stampa 28/07/2018 14:53:26 - 7/41

Set Domande: DATA MINING

INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE

Docente: Ducange Pietro

Lezione 007

01. Quali fra le seguenti tecniche non si usano in fase di gestione dei missing value?

Sostituzione dei valori mancanti con il valore più probabile

Ignorare la tupla contenente valori mancanti

Nessuna delle altre alternative

Riempimento a mano dei valori mancanti

02. L'analisi degli outier può essere usata per:

Identificare e g

Dettagli
Publisher
A.A. 2023-2024
39 pagine
SSD Ingegneria industriale e dell'informazione ING-INF/05 Sistemi di elaborazione delle informazioni

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Carlo9898 di informazioni apprese con la frequenza delle lezioni di Data mining e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università telematica "e-Campus" di Novedrate (CO) o del prof Ducange Pietro.