Lezione 002
Che cosa è il data mining?
Il processo che estrae nuova conoscenza o identifica pattern/modelli nei dati mediante l'applicazione di diversi algoritmi.
Il processo che estrae dati dai fenomeni mediante l'applicazione di diversi algoritmi.
Il processo che estrae fenomeni dai dati mediante l'applicazione di diversi algoritmi.
Nessuna delle altre alternative
Che cosa è un pattern?
Una espressione in un determinato linguaggio che descrive modelli descrittivi estratti da un sottoinsieme di registrazioni presenti in un data base.
Una espressione in un determinato linguaggio che descrive i fatti di un sottoinsieme di registrazioni presenti in un data base.
Una espressione in un determinato linguaggio che descrive modelli predittivi estratti da un sottoinsieme di registrazioni presenti in un data base.
Nessuna delle altre alternative
Quale fra le seguenti attività non fa parte del processo di KDD?
Interpretazione
Nessuna delle altre alternative
Data Mining
Selezione
Quale fra le seguenti attività non fa parte del processo di KDD?
Selezione
Intervista
Nessuna delle altre alternative
Data Mining
Lezione 003
Cosa si intende per knowledge elicitation?
Il confronto fra gli esperti di uno specifico dominio e l'ingegnere della conoscenza al fine di aggiungere in fase di modellazione elementi che potrebbero non essere estraibili dai dati.
Il confronto fra gli esperti informatici e l'ingegnere della conoscenza al fine di aggiungere in fase di modellazione elementi che potrebbero non essere estraibili dai dati.
Nessuna delle altre alternative
Il confronto fra gli esperti informatici e matematici al fine di aggiungere in fase di modellazione elementi che potrebbero non essere estraibili dai dati.
A cosa servono i modelli predittivi?
Vengono utilizzati per descrivere la struttura organizzativa e la distribuzione dei dati. L'obiettivo di questi modelli è quello di approfondire la conoscenza nascosta dietro ai dati.
Utilizzano i loro parametri e meccanismi caratteristici per effettuare delle previsioni future che possono essere utili nei processi decisionali.
Il loro obiettivo è quello di descrivere i dati per effettuare delle previsioni future.
Nessuna delle altre alternative
A cosa servono i modelli descrittivi?
Vengono utilizzati per descrivere la struttura organizzativa e la distribuzione dei dati. L'obiettivo di questi modelli è quello di approfondire la conoscenza nascosta dietro ai dati.
Vengono utilizzati per descrivere i dati per effettuare delle previsioni future.
Utilizzano i loro parametri e meccanismi caratteristici per effettuare delle previsioni future che possono essere utili nei processi decisionali.
Nessuna delle altre alternative
Quali sono i pilastri operativi su cui si basa ogni algoritmo di data mining?
Nessuna delle altre alternative
Esplorazione, Valutazione, Visualizzazione
Esplorazione, Modellazione, Selezione, Modellazione, Valutazione
Lezione 004
Cosa succede durante un addestramento supervisionato?
Nessuna delle altre alternative
Vengono utilizzati dei dati che sono solo in parte etichettati. La parte restante non etichettata viene utilizzata per la cross validation.
I dati che si utilizzano non sono etichettati e gli algoritmi di apprendimento mirano ad estrarre la conoscenza (i parametri del modello) senza avere una specifica conoscenza del dominio del problema.
Vengono utilizzati dei dati etichettati, ovvero dove si conosce il valore dell'uscita desiderata, sia essa una classe o il valore di una funzione, a fronte di un ingresso specifico.
A cosa serve la cross validation?
A migliorare l'accuratezza dei modelli
Nessuna delle altre alternative
A migliorare la capacità di generalizzazione
A migliorare l'adattabilità dei modelli
Che cosa è l'overfitting?
È il fenomeno per cui in fase di addestramento un modello si adatta al campione osservato e perde la capacità di generalizzazione.
È il fenomeno per cui in fase di addestramento un modello allontana molto dal campione osservato e assume una grande capacità di generalizzazione.
Nessuna delle altre alternative
È il fenomeno per cui in fase di addestramento un modello si adatta al campione osservato e assume una grande capacità di generalizzazione.
Cosa succede durante un addestramento non supervisionato?
Vengono utilizzati dei dati che sono solo in parte etichettati. La parte restante non etichettata viene utilizzata per la cross validation.
Vengono utilizzati dei dati etichettati, ovvero dove si conosce il valore dell'uscita desiderata, sia essa una classe o il valore di una funzione, a fronte di un ingresso specifico.
Nessuna delle altre alternative
I dati che si utilizzano non sono etichettati e gli algoritmi di apprendimento mirano ad estrarre la conoscenza (i parametri del modello) senza avere una specifica conoscenza del dominio del problema.
Quale è il dominio degli attributi categorici?
Reale
Razionale
Nessuna delle altre alternative
Intero
Lezione 005
Cosa sono gli istogrammi?
Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli).
Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo quartile, terzo quartile.
Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro.
Nessuna delle altre alternative
Cosa sono gli scatter plot?
Nessuna delle altre alternative
Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro.
Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli).
Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo quartile, terzo quartile.
Cosa sono i box plot?
Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro.
Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo quartile, terzo quartile.
Nessuna delle altre alternative
Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli).
Che cosa è la mediana di una variabile casuale X?
È una media pesata.
È un indice di posizione; una volta ordinati tutti i valori assunti da X, la mediana si calcola estraendo il valore del campione che divide la distribuzione in due popolazioni di eguali dimensioni.
È l'indicatore che indica quale è il valore di X che si presenta più frequentemente nei dati.
È un indicatore che sostanzialmente si calcola come il valor medio.
Che cosa è la moda di una variabile casuale X?
È una media pesata.
È un indicatore che sostanzialmente si calcola come il valor medio.
È l'indicatore che indica quale è il valore di X che si presenta più frequentemente nei dati.
È un indice di posizione; una volta ordinati tutti i valori assunti da X, la moda si calcola estraendo il valore del campione che divide la distribuzione in due popolazioni di eguali dimensioni.
Lezione 006
Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati?
Integrazione dei dati
Nessuna delle altre alternative
Pulizia dei dati
Riduzione dei dati
Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati?
Pulizia dei dati
Trasformazione dei dati
Gestione dei dati
Riduzione dei dati
Cosa si intende per riduzione della dimensionalità?
Nessuna delle altre alternative
Si parla di riduzione dimensionale quando vengono applicate delle tecniche per codificare i dati secondo degli schemi precisi al fine di ottenere una rappresentazione compressa o ridotta dei dati originali (esempio uso di trasformate o tecniche di selezione di attributi).
Si parla di riduzione dimensionale quando i dati sono sostituiti da delle rappresentazioni di più piccole dimensioni si parla di riduzione della numerosità (esempio uso di cluster o istogrammi).
Si parla di riduzione dimensionale quando i dati sono sostituiti da dati sottocampionati.
Lezione 007
Quali fra le seguenti tecniche non si usano in fase di gestione dei missing value?
Sostituzione dei valori mancanti con il valore più probabile.
Ignorare la tupla contenente valori mancanti.
Nessuna delle altre alternative
Riempimento a mano dei valori mancanti.
L'analisi degli outlier può essere usata per:
Identificare e gestire i missing value.
Ridurre la dimensionalità.
Identificare e gestire i dati rumorosi.
Nessuna delle altre alternative.
L'analisi in regressione può essere usata per:
Identificare e gestire i dati rumorosi.
Fare selezione di attributi.
Gestire dati provenienti da sorgenti eterogenee.
Nessuna delle altre alternative.
Con quali tecniche si gestiscono i missing value?
Nessuna delle altre alternative.
Data Transformation
Data cleaning
Data Reduction
Lezione 008
Quali sono i passi da effettuare nel processo di data integration?
Identificazione delle identità, Identificazione e risoluzione dei conflitti nei dati, identificazione delle ridondanze.
Identificazione delle entità, Identificazione e risoluzione dei conflitti nei dati, identificazione delle ridondanze.
Identificazione delle entità, identificazione dei conflitti nei dati, identificazione delle ridondanze.
Nessuna delle altre alternative.
Qual è l'obiettivo principale della fase di data integration?
Ottenere una memorizzazione coerente per i dati derivanti da sorgenti multiple di memorizzazione.
Ripulire i dati dal rumore.
Nessuna delle altre alternative.
Ridurre la quantità di dati da integrare.
Per quale fase si può utilizzare l'analisi di correlazione nel processo di data integration?
Identificazione e risoluzione dei conflitti nei dati.
Identificazione delle ridondanze.
Nessuna delle altre alternative.
Identificazione delle entità.
Lezione 009
Cosa si intende per riduzione dei dati lossy?
La tecnica utilizzata consente di ricostruire i dati originali da quelli ridotti senza alcuna perdita di informazione.
Nessuna delle altre alternative.
La tecnica utilizzata per la riduzione consente di ricostruire i dati originali solo tramite una approssimazione degli stessi.
La tecnica utilizzata per la riduzione non consente di ricostruire i dati originali.
Per cosa può essere utilizzata la principal component analysis?
Selezione di attributi.
Nessuna delle altre alternative.
Riduzione della dimensionalità.
Integrazione dei dati.
Cosa si intende per riduzione dei dati lossless?
La tecnica utilizzata consente di ricostruire i dati originali da quelli ridotti senza alcuna perdita di informazione.
La tecnica utilizzata per la riduzione consente di ricostruire i dati originali solo tramite una approssimazione degli stessi.
La tecnica utilizzata per la riduzione non consente di ricostruire i dati originali.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Paniere completo di Data Mining (2025) - Risposte multiple
-
Paniere Completo di Data Mining B (2025) - Risposte multiple
-
Paniere svolto Data mining - solo risposte multiple
-
Paniere multiple Data Mining