Paniere multiple Data Mining

Name: Paniere multiple Data Mining
Rating: 3.0 (2 reviews)
Author: mariolino.96

Revisionato il 29/09/2024

di mariolino.96

Publisher

Vota 3,0/5 (2)

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Paniere 2022/2023 Multiple esame Data Mining università telematica e-campus LM-32 prof. Ducange.Esame passato senza problemi utilizzando questo paniere.Il paniere non contiene domande a …

Esame Data mining

Facoltà Ingegneria

Dal corso del Prof. Ducange Pietro

Università Università telematica "e-Campus" di Novedrate (CO)

A.A. 2022-2023

9 pagine

Panieri

Scarica

Estratto del documento

Indice di posizione e moda

E' un indice di posizione: una volta ordinati tutti i valori assunti da X, la mediana si calcola estraendo il valore del campione che divide la distribuzione in due popolazioni di eguali dimensioni. Che cosa è la moda di una variabile casuale X? E' l'indicatore che indica quale è il valore di X che si presenta più frequentemente nei dati. L 6 1. Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati? nessuna delle altre alternative 2. Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati? Gestione dei dati 3. Cosa si intende per riduzione della dimensionalità? Si parla di riduzione dimensionale quando vengono applicate delle tecniche per codificare i dati secondo degli schemi precisi al fine di ottenere una rappresentazione compressa o ridotta dei dati originali (esempio uso di Trasformate o tecniche di selezione di attributi) L 7 1. Quali fra le seguenti tecniche non si usano in fase di gestione dei dati?missing value? Nessuna delle altre alternative 2. L'analisi degli outlier può essere usata per Identificare e gestire i dati rumorosi 3. L'analisi in regressione può essere usata per Identificare e gestire i dati rumorosi 4. Con quali tecniche si gestiscono i missing value? Data cleaning 1. Quali sono i passi da effettuare nel processo di data integration? Identificazione delle entità, Identificazione e risoluzione dei conflitti nei dati, identificazione delle ridondanze 2. Quale è l'obiettivo principale della fase di data integration? Ottenere una memorizzazione coerente per i dati derivanti da sorgenti multiple di memorizzazione 3. Per quale fase si può utilizzare l'analisi di correlazione nel processo di data integration? Identificazione delle ridondanze 1. Cosa si intende per riduzione dei dati lossy? La tecnica utilizzata per la riduzione consente di ricostruire i dati originali solo tramite una approssimazione degli stessi 2. Per cosa si utilizza l'analisi di correlazione nel processo di data integration? Identificazione delle relazioni tra le variabilipuò essere utilizzata la principal component analysis? Riduzione della dimensionalità 3. Cosa si intende per riduzione dei dati lossless? La tecnica utilizzata consente di ricostruire i dati originali da quelli ridotti senza alcuna perdita di informazione 4. Per cosa può essere utilizzata la trasformata discreta wavelet? Riduzione della dimensionalità 5. Quali fra le seguenti sono tecniche parametriche per la riduzione della numerosità? Regressione lineare e modelli log-lineari 6. La selezione degli attributi è in sostanza un problema di: Ottimizzazione 7. Nella strategia di selezione in avanti, il processo di selezione di attributi in genere comincia con: Un insieme iniziale di attributi vuoto 8. Nella strategia di selezione all'indietro, il processo di selezione di attributi in genere comincia con: Un insieme iniziale contenente tutti gli attributi 9. Quale fra le seguenti non è una tecnica non parametrica per la riduzione della dimensionalità?

numerosità
Regressione lineare e modelli log-lineari
Quali delle seguenti tecniche di classficazione possono essere usate anche per la selezione degli attributi?

Alberi di decisione

A cosa serve la normalizzazione dei dati?

Viene spesso utilizzata nella fase di data transformation per fare in modo che tutti gli attributi abbiano lo stesso peso o influenza

Se una tecnica di discretizzazione dei dati utilizza le etichette delle classi e le informazioni da esse derivate di che tipologia è?

Supervisionata

Cosa si intende per splitting?

E' fase di un processo di discretizzazione in cui si identificano ricorsivamente uno o più punti in cui suddividere gli intervalli di definizione degli attributi

Quali sono le condizioni che deve soddisfare una misura di similarità fra due punti?

Simmetria; Massimo valore in 1 quando i due punti coincidono

Quali sono le condizioni che deve soddisfare una misura di distanza fra due punti?

Riflessività, non negatività,

Quando una disanza si definisce metrica? Quando rispetta anche la condizione di diseguaglianza triangolare
Nella formula della distanza di Mahalanobis che tipo di matrice è presente? Di covarianze fra i due punti
La distanza Manhattan è un caso particolare di quale distanza? Minkowski
Quali sono le proprietà della distanza Minkowski? Definita positiva, simmetrica e gode di diseguaglianza triangolare
Che tipo di distanza si può utilizzare fra due punti descritti da variabili binarie asimmetriche? Jaccard
Che tipo di distanza si può utilizzare fra due punti descritti da variabili binarie simmetriche? SMC
Quando una variabile binaria si dice simmetrica? Se la probabilità che ciascuno dei suoi stati si verifichi (che assuma valore zero o uno) è uguale e entrambi gli stati assumono lo stesso peso
La formula della similarità coseno fra due vettori utilizza al suo interno? La norma dei due vettori e il

prodotto scalare fra i due vettori
E' possibile calcolare la distanza fra istanze descritte da attributi nominali?

Si, utilizzando una distanza basata sul matching

Che tipo di distanza si può usare fra due istanze descritte con attributi di tipologia mista?

Nessuna delle altre alternative

Che tipo di apprendimento si utilizza quando si creano modelli per il clustering?

Non supervisionato

Gli algoritmi di clustering si utilizzano per generare:

Modelli descrittivi

Con riferimento agli algoritmi di clustering, quali delle seguenti affermazione è falsa?

E' sempre noto apriori il numero di cluster da cercare

Un algoritmo di clustering produce cluster di alta qualità se assicura:

Alta similarità intra-cluster e bassa similarità inter-cluster

L'algoritmo di clustering SOM (self organizing map) a quale categoria di algoritmi appartiene?

Nessuna delle altre alternative

Quale tipologia di algoritmi di clustering è

ulteriori informazioni che rappresenta la struttura gerarchica dei cluster4. Quali sono i principali vantaggi dell'algoritmo di clustering gerarchico?1) Non richiede di specificare a priori il numero di cluster, 2) Fornisce una rappresentazione visuale della struttura dei cluster5. Quali sono i principali svantaggi dell'algoritmo di clustering gerarchico?1) Elevata complessità computazionale, 2) Sensibilità alla presenza di outlier

albero che mostra le sequenza di fusioni fra cluster generati man mano da un algoritmo di clustering gerarchico

Negli algoritmi di clustering gerarchici con approccio agglomerativo come avviene l'inizializzazione?

Si parte con tanti cluster quanti sono gli oggetti

Quali sono i principali parametri che occorre fissare per effettuare il clustering tramite l'algoritmo DBSCAN?

Nessuna delle altre alternative

Oltre al valore del massimo raggio del vicinato, quale altro parametro deve essere specificato per l'algoritmo di clustering DBSCAN?

Il minimo numero di punti che devono essere contenuti all'interno di un vicinato

Quando si parla di algoritmo di clustering DBSCAN, cosa sono i core point?

Sono i punti la cui densità (numero di punti) è superiore a MinPts

Cosa rappresenta il parametro Epsilon dell'algoritmo di clustering DBSCAN?

Il massimo raggio del vicinato

Che cosa è il supporto di una regola associativa?

È la frequenza relativa

delle transazioni nel database che verificano la regola2. Che cosa è la confidenza di una regola associativa? È la frequenza delle transazioni nel database che verificano la regola rispetto a quelle che non verificano l'antecedente3. Quando una regola associativa si definisce forte? Si definisce forte, una regola associativa che soddisfa un supporto minimo prefissato ed una confidenza minima prefissata4. La generazione di regole associative avviene utilizzando che tipologia di apprendimento? Non supervisionato5. Che cosa è una regola associativa? È un'implicazione della forma X->Y, dove X e Y sono degli itemset6. Cosa è la Market Basket Analysis? Una analisi ha l'obiettivo di studiare la regolarità, all'interno delle transazioni registrate, nelle vendite dei supermercati7. Che cosa è un itemset? Un insieme di articoliL 221. A cosa serve l'algoritmo APRIORI? Per generare regole associative2. Quale èl'algoritmo APRIORI affronta la fase di generazione degli itemset frequenti per approssimazioni successive, a partire dagli itemset con un solo elemento. Un itemset frequente è un itemset con supporto maggiore di un valore stabilito. Per la generazione di regole associative, in genere è necessario generare come prima cosa gli itemset frequenti. I parametri più importanti da fissare per l'algoritmo APRIORI sono il valore del supporto minimo e il valore della confidenza minima. APRIORI usa un approccio per livelli per generare le regole associative. Ogni livello corrisponde al numero di item che appartengono al conseguente. Non è possibile aumentare l'efficienza dell'algoritmo APRIORI. Con riferimento all'algoritmo FP-growth, sono necessarie un numero variabile di scansioni del database.vengono effettuate per la generazione dell'FP-tree?
Risposta: Le operazioni effettuate per la generazione dell'FP-tree sono: 1. Scansione del database per identificare gli itemset frequenti. 2. Creazione dell'FP-tree utilizzando gli itemset frequenti identificati nella scansione precedente. L'algoritmo FP-growth consente di evitare cosa?
Risposta: L'algoritmo FP-growth consente di evitare la generazione degli itemset frequenti candidati, che è un'operazione computazionalmente costosa. Con riferimento all'algoritmo FP-growth, cosa viene fatto durante la seconda scansione nella fase di generazione dell'FP-tree?
Risposta: Durante la seconda scansione nella fase di generazione dell'FP-tree, viene effettivamente creato l'albero FP-tree utilizzando gli itemset frequenti identificati nella prima scansione. Con riferimento all'algoritmo FP-growth, cosa viene fatto nei primi due passi della generazione dell'FP-tree?
Risposta: Nei primi due passi della generazione dell'FP-tree vengono eseguite le seguenti operazioni: 1. Si identificano tutti gli 1-itemset frequenti dal database. 2. Si crea una lista L degli 1-itemset frequenti ordinati secondo il loro supporto o frequenza. A cosa serve l'FP-tree?
Risposta: L'FP-tree serve a comprimere il database considerando solo gli itemset frequenti, consentendo così di effettuare l'analisi delle associazioni in modo più efficiente.

Anteprima

Vedrai una selezione di 3 pagine su 9

Anteprima di 3 pagg. su 9.
Scarica il documento per vederlo tutto.

Scarica

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher mariolino.96 di informazioni apprese con la frequenza delle lezioni di Data mining e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università telematica "e-Campus" di Novedrate (CO) o del prof Ducange Pietro.

Appunti correlati