Estratto del documento

Lezione 002

Che cosa è il data mining?

Il processo che estrae nuova conoscenza o identifica pattern/modelli nei dati mediante l'applicazione di diversi algoritmi.

Il processo che estrae dati dai fenomeni mediante l'applicazione di diversi algoritmi.

Il processo che estrae fenomeni dai dati mediante l'applicazione di diversi algoritmi.

Nessuna delle altre alternative

Che cosa è un pattern?

Una espressione in un determinato linguaggio che descrive modelli descrittivi estratti da un sottoinsieme di registrazioni presenti in un data base.

Una espressione in un determinato linguaggio che descrive i fatti di un sottoinsieme di registrazioni presenti in un data base.

Una espressione in un determinato linguaggio che descrive modelli predittivi estratti da un sottoinsieme di registrazioni presenti in un data base.

Nessuna delle altre alternative

Quale fra le seguenti attività non fa parte del processo di KDD?

Interpretazione

Nessuna delle altre alternative

Data Mining

Selezione

Quale fra le seguenti attività non fa parte del processo di KDD?

Selezione

Intervista

Nessuna delle altre alternative

Data Mining

Lezione 003

Cosa si intende per knowledge elicitation?

Il confronto fra gli esperti di uno specifico dominio e l'ingegnere della conoscenza al fine di aggiungere in fase di modellazione elementi che potrebbero non essere estraibili dai dati.

Il confronto fra gli esperti informatici e l'ingegnere della conoscenza al fine di aggiungere in fase di modellazione elementi che potrebbero non essere estraibili dai dati.

Nessuna delle altre alternative

Il confronto fra gli esperti informatici e matematici al fine di aggiungere in fase di modellazione elementi che potrebbero non essere estraibili dai dati.

A cosa servono i modelli predittivi?

Vengono utilizzati per descrivere la struttura organizzativa e la distribuzione dei dati. L'obiettivo di questi modelli è quello di approfondire la conoscenza nascosta dietro ai dati.

Utilizzano i loro parametri e meccanismi caratteristici per effettuare delle previsioni future che possono essere utili nei processi decisionali.

Il loro obiettivo è quello di descrivere i dati per effettuare delle previsioni future.

Nessuna delle altre alternative

A cosa servono i modelli descrittivi?

Vengono utilizzati per descrivere la struttura organizzativa e la distribuzione dei dati. L'obiettivo di questi modelli è quello di approfondire la conoscenza nascosta dietro ai dati.

Vengono utilizzati per descrivere i dati per effettuare delle previsioni future.

Utilizzano i loro parametri e meccanismi caratteristici per effettuare delle previsioni future che possono essere utili nei processi decisionali.

Nessuna delle altre alternative

Quali sono i pilastri operativi su cui si basa ogni algoritmo di data mining?

Nessuna delle altre alternative

Esplorazione, Valutazione, Visualizzazione

Esplorazione, Modellazione, Selezione, Modellazione, Valutazione

Lezione 004

Cosa succede durante un addestramento supervisionato?

Nessuna delle altre alternative

Vengono utilizzati dei dati che sono solo in parte etichettati. La parte restante non etichettata viene utilizzata per la cross validation.

I dati che si utilizzano non sono etichettati e gli algoritmi di apprendimento mirano ad estrarre la conoscenza (i parametri del modello) senza avere una specifica conoscenza del dominio del problema.

Vengono utilizzati dei dati etichettati, ovvero dove si conosce il valore dell'uscita desiderata, sia essa una classe o il valore di una funzione, a fronte di un ingresso specifico.

A cosa serve la cross validation?

A migliorare l'accuratezza dei modelli

Nessuna delle altre alternative

A migliorare la capacità di generalizzazione

A migliorare l'adattabilità dei modelli

Che cosa è l'overfitting?

È il fenomeno per cui in fase di addestramento un modello si adatta al campione osservato e perde la capacità di generalizzazione.

È il fenomeno per cui in fase di addestramento un modello allontana molto dal campione osservato e assume una grande capacità di generalizzazione.

Nessuna delle altre alternative

È il fenomeno per cui in fase di addestramento un modello si adatta al campione osservato e assume una grande capacità di generalizzazione.

Cosa succede durante un addestramento non supervisionato?

Vengono utilizzati dei dati che sono solo in parte etichettati. La parte restante non etichettata viene utilizzata per la cross validation.

Vengono utilizzati dei dati etichettati, ovvero dove si conosce il valore dell'uscita desiderata, sia essa una classe o il valore di una funzione, a fronte di un ingresso specifico.

Nessuna delle altre alternative

I dati che si utilizzano non sono etichettati e gli algoritmi di apprendimento mirano ad estrarre la conoscenza (i parametri del modello) senza avere una specifica conoscenza del dominio del problema.

Quale è il dominio degli attributi categorici?

Reale

Razionale

Nessuna delle altre alternative

Intero

Lezione 005

Cosa sono gli istogrammi?

Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli).

Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo quartile, terzo quartile.

Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro.

Nessuna delle altre alternative

Cosa sono gli scatter plot?

Nessuna delle altre alternative

Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro.

Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli).

Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo quartile, terzo quartile.

Cosa sono i box plot?

Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro.

Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo quartile, terzo quartile.

Nessuna delle altre alternative

Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli).

Che cosa è la mediana di una variabile casuale X?

È una media pesata.

È un indice di posizione; una volta ordinati tutti i valori assunti da X, la mediana si calcola estraendo il valore del campione che divide la distribuzione in due popolazioni di eguali dimensioni.

È l'indicatore che indica quale è il valore di X che si presenta più frequentemente nei dati.

È un indicatore che sostanzialmente si calcola come il valor medio.

Che cosa è la moda di una variabile casuale X?

È una media pesata.

È un indicatore che sostanzialmente si calcola come il valor medio.

È l'indicatore che indica quale è il valore di X che si presenta più frequentemente nei dati.

È un indice di posizione; una volta ordinati tutti i valori assunti da X, la moda si calcola estraendo il valore del campione che divide la distribuzione in due popolazioni di eguali dimensioni.

Lezione 006

Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati?

Integrazione dei dati

Nessuna delle altre alternative

Pulizia dei dati

Riduzione dei dati

Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati?

Pulizia dei dati

Trasformazione dei dati

Gestione dei dati

Riduzione dei dati

Cosa si intende per riduzione della dimensionalità?

Nessuna delle altre alternative

Si parla di riduzione dimensionale quando vengono applicate delle tecniche per codificare i dati secondo degli schemi precisi al fine di ottenere una rappresentazione compressa o ridotta dei dati originali (esempio uso di trasformate o tecniche di selezione di attributi).

Si parla di riduzione dimensionale quando i dati sono sostituiti da delle rappresentazioni di più piccole dimensioni si parla di riduzione della numerosità (esempio uso di cluster o istogrammi).

Si parla di riduzione dimensionale quando i dati sono sostituiti da dati sottocampionati.

Lezione 007

Quali fra le seguenti tecniche non si usano in fase di gestione dei missing value?

Sostituzione dei valori mancanti con il valore più probabile.

Ignorare la tupla contenente valori mancanti.

Nessuna delle altre alternative

Riempimento a mano dei valori mancanti.

L'analisi degli outlier può essere usata per:

Identificare e gestire i missing value.

Ridurre la dimensionalità.

Identificare e gestire i dati rumorosi.

Nessuna delle altre alternative.

L'analisi in regressione può essere usata per:

Identificare e gestire i dati rumorosi.

Fare selezione di attributi.

Gestire dati provenienti da sorgenti eterogenee.

Nessuna delle altre alternative.

Con quali tecniche si gestiscono i missing value?

Nessuna delle altre alternative.

Data Transformation

Data cleaning

Data Reduction

Lezione 008

Quali sono i passi da effettuare nel processo di data integration?

Identificazione delle identità, Identificazione e risoluzione dei conflitti nei dati, identificazione delle ridondanze.

Identificazione delle entità, Identificazione e risoluzione dei conflitti nei dati, identificazione delle ridondanze.

Identificazione delle entità, identificazione dei conflitti nei dati, identificazione delle ridondanze.

Nessuna delle altre alternative.

Qual è l'obiettivo principale della fase di data integration?

Ottenere una memorizzazione coerente per i dati derivanti da sorgenti multiple di memorizzazione.

Ripulire i dati dal rumore.

Nessuna delle altre alternative.

Ridurre la quantità di dati da integrare.

Per quale fase si può utilizzare l'analisi di correlazione nel processo di data integration?

Identificazione e risoluzione dei conflitti nei dati.

Identificazione delle ridondanze.

Nessuna delle altre alternative.

Identificazione delle entità.

Lezione 009

Cosa si intende per riduzione dei dati lossy?

La tecnica utilizzata consente di ricostruire i dati originali da quelli ridotti senza alcuna perdita di informazione.

Nessuna delle altre alternative.

La tecnica utilizzata per la riduzione consente di ricostruire i dati originali solo tramite una approssimazione degli stessi.

La tecnica utilizzata per la riduzione non consente di ricostruire i dati originali.

Per cosa può essere utilizzata la principal component analysis?

Selezione di attributi.

Nessuna delle altre alternative.

Riduzione della dimensionalità.

Integrazione dei dati.

Cosa si intende per riduzione dei dati lossless?

La tecnica utilizzata consente di ricostruire i dati originali da quelli ridotti senza alcuna perdita di informazione.

La tecnica utilizzata per la riduzione consente di ricostruire i dati originali solo tramite una approssimazione degli stessi.

La tecnica utilizzata per la riduzione non consente di ricostruire i dati originali.

Anteprima
Vedrai una selezione di 14 pagine su 64
Paniere Data mining - risposte multiple Pag. 1 Paniere Data mining - risposte multiple Pag. 2
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Paniere Data mining - risposte multiple Pag. 6
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Paniere Data mining - risposte multiple Pag. 11
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Paniere Data mining - risposte multiple Pag. 16
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Paniere Data mining - risposte multiple Pag. 21
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Paniere Data mining - risposte multiple Pag. 26
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Paniere Data mining - risposte multiple Pag. 31
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Paniere Data mining - risposte multiple Pag. 36
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Paniere Data mining - risposte multiple Pag. 41
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Paniere Data mining - risposte multiple Pag. 46
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Paniere Data mining - risposte multiple Pag. 51
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Paniere Data mining - risposte multiple Pag. 56
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Paniere Data mining - risposte multiple Pag. 61
1 su 64
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher fra5675 di informazioni apprese con la frequenza delle lezioni di Data mining e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università telematica "e-Campus" di Novedrate (CO) o del prof Ducange Pietro.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community