vuoi
o PayPal
tutte le volte che vuoi
Indice di posizione e moda
E' un indice di posizione: una volta ordinati tutti i valori assunti da X, la mediana si calcola estraendo il valore del campione che divide la distribuzione in due popolazioni di eguali dimensioni. Che cosa è la moda di una variabile casuale X? E' l'indicatore che indica quale è il valore di X che si presenta più frequentemente nei dati. L 6 1. Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati? nessuna delle altre alternative 2. Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati? Gestione dei dati 3. Cosa si intende per riduzione della dimensionalità? Si parla di riduzione dimensionale quando vengono applicate delle tecniche per codificare i dati secondo degli schemi precisi al fine di ottenere una rappresentazione compressa o ridotta dei dati originali (esempio uso di Trasformate o tecniche di selezione di attributi) L 7 1. Quali fra le seguenti tecniche non si usano in fase di gestione dei dati?missing value? Nessuna delle altre alternative 2. L'analisi degli outlier può essere usata per Identificare e gestire i dati rumorosi 3. L'analisi in regressione può essere usata per Identificare e gestire i dati rumorosi 4. Con quali tecniche si gestiscono i missing value? Data cleaning 1. Quali sono i passi da effettuare nel processo di data integration? Identificazione delle entità, Identificazione e risoluzione dei conflitti nei dati, identificazione delle ridondanze 2. Quale è l'obiettivo principale della fase di data integration? Ottenere una memorizzazione coerente per i dati derivanti da sorgenti multiple di memorizzazione 3. Per quale fase si può utilizzare l'analisi di correlazione nel processo di data integration? Identificazione delle ridondanze 1. Cosa si intende per riduzione dei dati lossy? La tecnica utilizzata per la riduzione consente di ricostruire i dati originali solo tramite una approssimazione degli stessi 2. Per cosa si utilizza l'analisi di correlazione nel processo di data integration? Identificazione delle relazioni tra le variabilipuò essere utilizzata la principal component analysis? Riduzione della dimensionalità 3. Cosa si intende per riduzione dei dati lossless? La tecnica utilizzata consente di ricostruire i dati originali da quelli ridotti senza alcuna perdita di informazione 4. Per cosa può essere utilizzata la trasformata discreta wavelet? Riduzione della dimensionalità 5. Quali fra le seguenti sono tecniche parametriche per la riduzione della numerosità? Regressione lineare e modelli log-lineari 6. La selezione degli attributi è in sostanza un problema di: Ottimizzazione 7. Nella strategia di selezione in avanti, il processo di selezione di attributi in genere comincia con: Un insieme iniziale di attributi vuoto 8. Nella strategia di selezione all'indietro, il processo di selezione di attributi in genere comincia con: Un insieme iniziale contenente tutti gli attributi 9. Quale fra le seguenti non è una tecnica non parametrica per la riduzione della dimensionalità?- numerosità
- Regressione lineare e modelli log-lineari
- Quali delle seguenti tecniche di classficazione possono essere usate anche per la selezione degli attributi?
- Alberi di decisione
- A cosa serve la normalizzazione dei dati?
- Viene spesso utilizzata nella fase di data transformation per fare in modo che tutti gli attributi abbiano lo stesso peso o influenza
- Se una tecnica di discretizzazione dei dati utilizza le etichette delle classi e le informazioni da esse derivate di che tipologia è?
- Supervisionata
- Cosa si intende per splitting?
- E' fase di un processo di discretizzazione in cui si identificano ricorsivamente uno o più punti in cui suddividere gli intervalli di definizione degli attributi
- Quali sono le condizioni che deve soddisfare una misura di similarità fra due punti?
- Simmetria; Massimo valore in 1 quando i due punti coincidono
- Quali sono le condizioni che deve soddisfare una misura di distanza fra due punti?
- Riflessività, non negatività,
- Quando una disanza si definisce metrica? Quando rispetta anche la condizione di diseguaglianza triangolare
- Nella formula della distanza di Mahalanobis che tipo di matrice è presente? Di covarianze fra i due punti
- La distanza Manhattan è un caso particolare di quale distanza? Minkowski
- Quali sono le proprietà della distanza Minkowski? Definita positiva, simmetrica e gode di diseguaglianza triangolare
- Che tipo di distanza si può utilizzare fra due punti descritti da variabili binarie asimmetriche? Jaccard
- Che tipo di distanza si può utilizzare fra due punti descritti da variabili binarie simmetriche? SMC
- Quando una variabile binaria si dice simmetrica? Se la probabilità che ciascuno dei suoi stati si verifichi (che assuma valore zero o uno) è uguale e entrambi gli stati assumono lo stesso peso
- La formula della similarità coseno fra due vettori utilizza al suo interno? La norma dei due vettori e il
- prodotto scalare fra i due vettori
- E' possibile calcolare la distanza fra istanze descritte da attributi nominali?
- Che tipo di distanza si può usare fra due istanze descritte con attributi di tipologia mista?
- Che tipo di apprendimento si utilizza quando si creano modelli per il clustering?
- Gli algoritmi di clustering si utilizzano per generare:
- Con riferimento agli algoritmi di clustering, quali delle seguenti affermazione è falsa?
- Un algoritmo di clustering produce cluster di alta qualità se assicura:
- L'algoritmo di clustering SOM (self organizing map) a quale categoria di algoritmi appartiene?
- Quale tipologia di algoritmi di clustering è
Si, utilizzando una distanza basata sul matching
Nessuna delle altre alternative
Non supervisionato
Modelli descrittivi
E' sempre noto apriori il numero di cluster da cercare
Alta similarità intra-cluster e bassa similarità inter-cluster
Nessuna delle altre alternative
albero che mostra le sequenza di fusioni fra cluster generati man mano da un algoritmo di clustering gerarchico
Negli algoritmi di clustering gerarchici con approccio agglomerativo come avviene l'inizializzazione?
Si parte con tanti cluster quanti sono gli oggetti
Quali sono i principali parametri che occorre fissare per effettuare il clustering tramite l'algoritmo DBSCAN?
Nessuna delle altre alternative
Oltre al valore del massimo raggio del vicinato, quale altro parametro deve essere specificato per l'algoritmo di clustering DBSCAN?
Il minimo numero di punti che devono essere contenuti all'interno di un vicinato
Quando si parla di algoritmo di clustering DBSCAN, cosa sono i core point?
Sono i punti la cui densità (numero di punti) è superiore a MinPts
Cosa rappresenta il parametro Epsilon dell'algoritmo di clustering DBSCAN?
Il massimo raggio del vicinato
Che cosa è il supporto di una regola associativa?
È la frequenza relativa
delle transazioni nel database che verificano la regola2. Che cosa è la confidenza di una regola associativa? È la frequenza delle transazioni nel database che verificano la regola rispetto a quelle che non verificano l'antecedente3. Quando una regola associativa si definisce forte? Si definisce forte, una regola associativa che soddisfa un supporto minimo prefissato ed una confidenza minima prefissata4. La generazione di regole associative avviene utilizzando che tipologia di apprendimento? Non supervisionato5. Che cosa è una regola associativa? È un'implicazione della forma X->Y, dove X e Y sono degli itemset6. Cosa è la Market Basket Analysis? Una analisi ha l'obiettivo di studiare la regolarità, all'interno delle transazioni registrate, nelle vendite dei supermercati7. Che cosa è un itemset? Un insieme di articoliL 221. A cosa serve l'algoritmo APRIORI? Per generare regole associative2. Quale èl'algoritmo APRIORI affronta la fase di generazione degli itemset frequenti per approssimazioni successive, a partire dagli itemset con un solo elemento. Un itemset frequente è un itemset con supporto maggiore di un valore stabilito. Per la generazione di regole associative, in genere è necessario generare come prima cosa gli itemset frequenti. I parametri più importanti da fissare per l'algoritmo APRIORI sono il valore del supporto minimo e il valore della confidenza minima. APRIORI usa un approccio per livelli per generare le regole associative. Ogni livello corrisponde al numero di item che appartengono al conseguente. Non è possibile aumentare l'efficienza dell'algoritmo APRIORI. Con riferimento all'algoritmo FP-growth, sono necessarie un numero variabile di scansioni del database.vengono effettuate per la generazione dell'FP-tree?Risposta: Le operazioni effettuate per la generazione dell'FP-tree sono: 1. Scansione del database per identificare gli itemset frequenti. 2. Creazione dell'FP-tree utilizzando gli itemset frequenti identificati nella scansione precedente. L'algoritmo FP-growth consente di evitare cosa?
Risposta: L'algoritmo FP-growth consente di evitare la generazione degli itemset frequenti candidati, che è un'operazione computazionalmente costosa. Con riferimento all'algoritmo FP-growth, cosa viene fatto durante la seconda scansione nella fase di generazione dell'FP-tree?
Risposta: Durante la seconda scansione nella fase di generazione dell'FP-tree, viene effettivamente creato l'albero FP-tree utilizzando gli itemset frequenti identificati nella prima scansione. Con riferimento all'algoritmo FP-growth, cosa viene fatto nei primi due passi della generazione dell'FP-tree?
Risposta: Nei primi due passi della generazione dell'FP-tree vengono eseguite le seguenti operazioni: 1. Si identificano tutti gli 1-itemset frequenti dal database. 2. Si crea una lista L degli 1-itemset frequenti ordinati secondo il loro supporto o frequenza. A cosa serve l'FP-tree?
Risposta: L'FP-tree serve a comprimere il database considerando solo gli itemset frequenti, consentendo così di effettuare l'analisi delle associazioni in modo più efficiente.