Anteprima
Vedrai una selezione di 3 pagine su 9
Paniere multiple Data Mining   Pag. 1 Paniere multiple Data Mining   Pag. 2
Anteprima di 3 pagg. su 9.
Scarica il documento per vederlo tutto.
Paniere multiple Data Mining   Pag. 6
1 su 9
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Indice di posizione e moda

E' un indice di posizione: una volta ordinati tutti i valori assunti da X, la mediana si calcola estraendo il valore del campione che divide la distribuzione in due popolazioni di eguali dimensioni. Che cosa è la moda di una variabile casuale X? E' l'indicatore che indica quale è il valore di X che si presenta più frequentemente nei dati. L 6 1. Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati? nessuna delle altre alternative 2. Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati? Gestione dei dati 3. Cosa si intende per riduzione della dimensionalità? Si parla di riduzione dimensionale quando vengono applicate delle tecniche per codificare i dati secondo degli schemi precisi al fine di ottenere una rappresentazione compressa o ridotta dei dati originali (esempio uso di Trasformate o tecniche di selezione di attributi) L 7 1. Quali fra le seguenti tecniche non si usano in fase di gestione dei dati?missing value? Nessuna delle altre alternative 2. L'analisi degli outlier può essere usata per Identificare e gestire i dati rumorosi 3. L'analisi in regressione può essere usata per Identificare e gestire i dati rumorosi 4. Con quali tecniche si gestiscono i missing value? Data cleaning 1. Quali sono i passi da effettuare nel processo di data integration? Identificazione delle entità, Identificazione e risoluzione dei conflitti nei dati, identificazione delle ridondanze 2. Quale è l'obiettivo principale della fase di data integration? Ottenere una memorizzazione coerente per i dati derivanti da sorgenti multiple di memorizzazione 3. Per quale fase si può utilizzare l'analisi di correlazione nel processo di data integration? Identificazione delle ridondanze 1. Cosa si intende per riduzione dei dati lossy? La tecnica utilizzata per la riduzione consente di ricostruire i dati originali solo tramite una approssimazione degli stessi 2. Per cosa si utilizza l'analisi di correlazione nel processo di data integration? Identificazione delle relazioni tra le variabilipuò essere utilizzata la principal component analysis? Riduzione della dimensionalità 3. Cosa si intende per riduzione dei dati lossless? La tecnica utilizzata consente di ricostruire i dati originali da quelli ridotti senza alcuna perdita di informazione 4. Per cosa può essere utilizzata la trasformata discreta wavelet? Riduzione della dimensionalità 5. Quali fra le seguenti sono tecniche parametriche per la riduzione della numerosità? Regressione lineare e modelli log-lineari 6. La selezione degli attributi è in sostanza un problema di: Ottimizzazione 7. Nella strategia di selezione in avanti, il processo di selezione di attributi in genere comincia con: Un insieme iniziale di attributi vuoto 8. Nella strategia di selezione all'indietro, il processo di selezione di attributi in genere comincia con: Un insieme iniziale contenente tutti gli attributi 9. Quale fra le seguenti non è una tecnica non parametrica per la riduzione della dimensionalità?
  • numerosità
  • Regressione lineare e modelli log-lineari
  • Quali delle seguenti tecniche di classficazione possono essere usate anche per la selezione degli attributi?
    • Alberi di decisione
  • A cosa serve la normalizzazione dei dati?
    • Viene spesso utilizzata nella fase di data transformation per fare in modo che tutti gli attributi abbiano lo stesso peso o influenza
  • Se una tecnica di discretizzazione dei dati utilizza le etichette delle classi e le informazioni da esse derivate di che tipologia è?
    • Supervisionata
  • Cosa si intende per splitting?
    • E' fase di un processo di discretizzazione in cui si identificano ricorsivamente uno o più punti in cui suddividere gli intervalli di definizione degli attributi
  • Quali sono le condizioni che deve soddisfare una misura di similarità fra due punti?
    • Simmetria; Massimo valore in 1 quando i due punti coincidono
  • Quali sono le condizioni che deve soddisfare una misura di distanza fra due punti?
    • Riflessività, non negatività,
  1. Quando una disanza si definisce metrica? Quando rispetta anche la condizione di diseguaglianza triangolare
  2. Nella formula della distanza di Mahalanobis che tipo di matrice è presente? Di covarianze fra i due punti
  3. La distanza Manhattan è un caso particolare di quale distanza? Minkowski
  4. Quali sono le proprietà della distanza Minkowski? Definita positiva, simmetrica e gode di diseguaglianza triangolare
  5. Che tipo di distanza si può utilizzare fra due punti descritti da variabili binarie asimmetriche? Jaccard
  6. Che tipo di distanza si può utilizzare fra due punti descritti da variabili binarie simmetriche? SMC
  7. Quando una variabile binaria si dice simmetrica? Se la probabilità che ciascuno dei suoi stati si verifichi (che assuma valore zero o uno) è uguale e entrambi gli stati assumono lo stesso peso
  8. La formula della similarità coseno fra due vettori utilizza al suo interno? La norma dei due vettori e il
  1. prodotto scalare fra i due vettori
  2. E' possibile calcolare la distanza fra istanze descritte da attributi nominali?
  3. Si, utilizzando una distanza basata sul matching

  4. Che tipo di distanza si può usare fra due istanze descritte con attributi di tipologia mista?
  5. Nessuna delle altre alternative

  6. Che tipo di apprendimento si utilizza quando si creano modelli per il clustering?
  7. Non supervisionato

  8. Gli algoritmi di clustering si utilizzano per generare:
  9. Modelli descrittivi

  10. Con riferimento agli algoritmi di clustering, quali delle seguenti affermazione è falsa?
  11. E' sempre noto apriori il numero di cluster da cercare

  12. Un algoritmo di clustering produce cluster di alta qualità se assicura:
  13. Alta similarità intra-cluster e bassa similarità inter-cluster

  14. L'algoritmo di clustering SOM (self organizing map) a quale categoria di algoritmi appartiene?
  15. Nessuna delle altre alternative

  16. Quale tipologia di algoritmi di clustering è
ulteriori informazioni che rappresenta la struttura gerarchica dei cluster4. Quali sono i principali vantaggi dell'algoritmo di clustering gerarchico?1) Non richiede di specificare a priori il numero di cluster, 2) Fornisce una rappresentazione visuale della struttura dei cluster5. Quali sono i principali svantaggi dell'algoritmo di clustering gerarchico?1) Elevata complessità computazionale, 2) Sensibilità alla presenza di outlier

albero che mostra le sequenza di fusioni fra cluster generati man mano da un algoritmo di clustering gerarchico

Negli algoritmi di clustering gerarchici con approccio agglomerativo come avviene l'inizializzazione?

Si parte con tanti cluster quanti sono gli oggetti

Quali sono i principali parametri che occorre fissare per effettuare il clustering tramite l'algoritmo DBSCAN?

Nessuna delle altre alternative

Oltre al valore del massimo raggio del vicinato, quale altro parametro deve essere specificato per l'algoritmo di clustering DBSCAN?

Il minimo numero di punti che devono essere contenuti all'interno di un vicinato

Quando si parla di algoritmo di clustering DBSCAN, cosa sono i core point?

Sono i punti la cui densità (numero di punti) è superiore a MinPts

Cosa rappresenta il parametro Epsilon dell'algoritmo di clustering DBSCAN?

Il massimo raggio del vicinato

Che cosa è il supporto di una regola associativa?

È la frequenza relativa

delle transazioni nel database che verificano la regola2. Che cosa è la confidenza di una regola associativa? È la frequenza delle transazioni nel database che verificano la regola rispetto a quelle che non verificano l'antecedente3. Quando una regola associativa si definisce forte? Si definisce forte, una regola associativa che soddisfa un supporto minimo prefissato ed una confidenza minima prefissata4. La generazione di regole associative avviene utilizzando che tipologia di apprendimento? Non supervisionato5. Che cosa è una regola associativa? È un'implicazione della forma X->Y, dove X e Y sono degli itemset6. Cosa è la Market Basket Analysis? Una analisi ha l'obiettivo di studiare la regolarità, all'interno delle transazioni registrate, nelle vendite dei supermercati7. Che cosa è un itemset? Un insieme di articoliL 221. A cosa serve l'algoritmo APRIORI? Per generare regole associative2. Quale èl'algoritmo APRIORI affronta la fase di generazione degli itemset frequenti per approssimazioni successive, a partire dagli itemset con un solo elemento. Un itemset frequente è un itemset con supporto maggiore di un valore stabilito. Per la generazione di regole associative, in genere è necessario generare come prima cosa gli itemset frequenti. I parametri più importanti da fissare per l'algoritmo APRIORI sono il valore del supporto minimo e il valore della confidenza minima. APRIORI usa un approccio per livelli per generare le regole associative. Ogni livello corrisponde al numero di item che appartengono al conseguente. Non è possibile aumentare l'efficienza dell'algoritmo APRIORI. Con riferimento all'algoritmo FP-growth, sono necessarie un numero variabile di scansioni del database.vengono effettuate per la generazione dell'FP-tree?
Risposta: Le operazioni effettuate per la generazione dell'FP-tree sono: 1. Scansione del database per identificare gli itemset frequenti. 2. Creazione dell'FP-tree utilizzando gli itemset frequenti identificati nella scansione precedente. L'algoritmo FP-growth consente di evitare cosa?
Risposta: L'algoritmo FP-growth consente di evitare la generazione degli itemset frequenti candidati, che è un'operazione computazionalmente costosa. Con riferimento all'algoritmo FP-growth, cosa viene fatto durante la seconda scansione nella fase di generazione dell'FP-tree?
Risposta: Durante la seconda scansione nella fase di generazione dell'FP-tree, viene effettivamente creato l'albero FP-tree utilizzando gli itemset frequenti identificati nella prima scansione. Con riferimento all'algoritmo FP-growth, cosa viene fatto nei primi due passi della generazione dell'FP-tree?
Risposta: Nei primi due passi della generazione dell'FP-tree vengono eseguite le seguenti operazioni: 1. Si identificano tutti gli 1-itemset frequenti dal database. 2. Si crea una lista L degli 1-itemset frequenti ordinati secondo il loro supporto o frequenza. A cosa serve l'FP-tree?
Risposta: L'FP-tree serve a comprimere il database considerando solo gli itemset frequenti, consentendo così di effettuare l'analisi delle associazioni in modo più efficiente.
Dettagli
Publisher
A.A. 2022-2023
9 pagine
SSD Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher mariolino.96 di informazioni apprese con la frequenza delle lezioni di Data mining e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università telematica "e-Campus" di Novedrate (CO) o del prof Ducange Pietro.