vuoi
o PayPal
tutte le volte che vuoi
Uso principale Operativo Analitico
Struttura Normalizzat Denormalizzat
a a
Tempo Dati attuali Dati storici
Scritture Sì No
frequenti
(8) Componenti Data Warehouse
● Fonte Dati, ETL, Staging Area, Data Store, Metadata, Strumenti BI.
(9) Architettura Data Warehouse
● Single-tier: integrato ma inefficiente.
● Two-tier: separazione DW e client.
● Three-tier (standard): DW → Server applicazione → Client BI.
(10) Modello Multidimensionale
● Organizza i dati in fatti e dimensioni.
● I fatti rappresentano eventi misurabili (es. vendite).
● Le dimensioni rappresentano contesti (tempo, luogo, prodotto).
(11) Operazioni Modello Multidimensionale
● Drill-down/up: dettagli vs. aggregati.
● Slice: selezione su una dimensione.
● Dice: selezione su più dimensioni.
● Pivot: rotazione delle dimensioni.
(12) Schema a Stella e a Fiocco di Neve
● Stella: una tabella dei fatti collegata a dimensioni denormalizzate.
● Fiocco di Neve: dimensioni normalizzate (più tabelle).
● Trade-off tra semplicità (stella) e ridondanza (fiocco).
(13) CRISP-DM
● Modello standard per Data Mining:
1. Comprensione business
2. Comprensione dei dati
3. Preparazione dati
4. Modellazione
5. Valutazione
6. Distribuzione
(14) Kimball Life Cycle
● Approccio iterativo per DW:
○ Pianificazione
○ Progettazione
○ Costruzione
○ Deployment
○ Gestione
○ Estensione
(15) Sottosistemi ETL
● Extract: recupera dati dalle fonti.
● Transform: pulizia, integrazione, aggregazione.
● Load: carica nel DW.
(16) Progettazione ETL
● Deve considerare fonti, tempistiche, mapping tra tabelle.
● Focalizzata su affidabilità e performance.
(17-21) Dimensional Modelling 1-5
● Tecnica per progettare DW:
○ Fatti misurabili
○ Dimensioni descrittive
● Concetti chiave: surrogate key, slowly changing dimensions (SCD), factless
fact table, junk dimension, conformed dimensions.
(22) Data Visualization
● Tecniche per rappresentare graficamente i dati (grafici, mappe, heatmap).
● Obiettivo: rendere interpretabili i dati complessi.
(23) Introduzione Tableau
● Tool BI per visualizzazione dati.
● Interfaccia drag-and-drop, connessione a diverse fonti.
(24) Connessione ai dati
● Supporta Excel, CSV, DBMS, cloud.
● Unione e join tra dataset.
(25) Drill Down, Ordinamento, Raggruppamento
● Interazione con i dati per approfondire (drill).
● Ordinare e raggruppare valori per analisi più chiare.
(26) Filtri
● Rimuovono dati non rilevanti.
● Possono essere su dimensioni, misure o interattivi (parametri).
(27-28) Campi Calcolati
● Creazione di nuove metriche con formule personalizzate (es. IF, CASE).
● Supportano aggregazioni, stringhe, date, logiche.
(29) Parametri
● Valori dinamici utilizzabili nei calcoli, filtri, riferimenti.
● Consentono interattività (es. scegliere una soglia o una categoria).
(30) Dashboard e Storie
● Dashboard: vista composta da più grafici interattivi.
● Storie: narrazione con dati (sequenza di viste/dash).
(31) Alcuni esempi
● Esempi pratici: vendite per regione, KPI aziendali, andamento temporale.
(32) Dati
● Materia prima per analisi.
● Importante verificarne la qualità, completezza, coerenza.
(33) Esplorare i Dati
● Analisi preliminare: outlier, distribuzioni, relazioni.
● Tecniche: descrittive, boxplot, istogrammi.
(34) Weka
● Tool per data mining e machine learning.
● Interfaccia grafica, algoritmi pronti, dataset ARFF.
(35) Classificazione - Decision Tree
● Algoritmo supervisionato (es. J48).
● Crea alberi logici da feature per classificare.
(36) Valutazione Classificatori
● Metriche: accuracy, precision, recall, F1.
● Confusion matrix per analisi errori.
(37) Classificazione - Regole
● Algoritmi che generano regole IF-THEN.
● Interpretabilità alta (es. RIPPER, OneR).
(38) Associazioni - A priori
● Scopre regole frequenti tra item (es. Market Basket Analysis).
● Misure: support, confidence, lift.
(39) Cluster Analysis
● Raggruppa oggetti simili.
● Tecniche: K-Means, DBScan, Gerarchico.
(40) K-Means
● Divide i dati in k cluster basandosi sulla distanza.
● Richiede specificare k a priori.
(41) DBScan
● Clustering basato sulla densità.
● Non richiede k; rileva rumore e forme arbitrarie.
(42) Rilevamento anomalie
● Individuare dati fuori dal normale.
● Tecniche: statistica, clustering, machine learning.
(43-48) Progetti 1-6
● Applicazioni pratiche su dataset reali: