Appunti modulo 1 Business intelligence e big data m

Name: Appunti modulo 1 Business intelligence e big data m
Rating: 5.0 (2 reviews)
Author: Martina.56989

Revisionato il 17/03/2023

di Martina.56989

Publisher

Vota 5,0/5 (2)

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Appunti di data warehousing/BI, modulo 1 dell'esami di business intelligence e big data. argomenti: la BI nel sistema informativo aziendalela piramide della BIintroduzione al data …

Esame Business intelligence e big data m

Facoltà Ingegneria

Dal corso del Prof. Rizzi Stefano

Università Università degli Studi di Bologna

A.A. 2021-2022

119 pagine

2 download

Appunti esame

Scarica

Estratto del documento

Esempio delle vendite da E/R a schema logico

1° STEP - Scelta dei fatti

I fatti sono concetti di interesse primario per il processo decisionale; tipicamente, corrispondono a eventi che accadono dinamicamente nel mondo aziendale.

Sullo schema E/R un fatto può corrispondere o a un'entità F o a un'associazione n-aria R tra le entità E1, E2..., En.

Sullo schema relazionale un fatto corrisponde a una relazione F.

I fatti stanno dove ci sono degli attributi temporali o nelle immediate vicinanze. In questo caso il fatto sta in VENDITA.

Se il fatto è un'associazione, trasformiamo l'associazione in entità (reificazione).

Le entità o relazioni che rappresentano archivi frequentemente modificati (come VENDITA) sono buoni candidati per definire fatti; quelli che rappresentano archivi quasi-statici (come NEGOZIO e CITTÀ) no.

Nell'esempio delle vendite si sceglie come fatto l'associazione VENDITA, corrispondente alla relazione.

VENDITE

Ogni fatto identificato diviene la radice di un nuovo schema.

➔STEP 2°- SCELTA DELL'ALBERO DEGLI ATTRIBUTI

L'albero degli attributi è un albero in cui:

ogni vertice corrisponde a un attributo - semplice o composto - dello schema sorgente;
la radice corrisponde all'identificatore (chiave primaria) di F;
per ogni vertice v, l'attributo corrispondente determina funzionalmente tutti gli attributi corrispondenti ai discendenti di v.

L'albero degli attributi corrispondente a F può essere costruito in modo automatico applicando una procedura che naviga ricorsivamente le dipendenze funzionali espresse, nello schema sorgente, dagli identificatori e dalle associazioni a-uno.

Dipendenze funzionali esempio vendite

La dipendenza funzionale viene espressa dal secondo tipo:

Negozio (1,1) (1,N) vendite→ dipendenza funzionale interentità

Negozio indirizzo dipendenza intraentità→ Prodotto determina peso dipendenza

intraentità → Se guardo da schema logico: - dipendenza intraentità prendo relazione e la chiave determina gli altri - dipendenza interentità: chiavi esterne

22/4/22 Schema e/r Schema logico

PROGETTAZIONE CONCETTUALE - passi di progettazione

scelta del fatto
per ogni fatto: costruzione di un albero degli attributi algoritmicamente → editing dell'albero degli attributi

Scelta delle dimensioni

Scelta delle misure

Creazione dello schema di fatto

SCELTA DEI FATTI: fatti sono concetti di interesse primario per il processo decisionale; tipicamente, corrispondono a eventi che accadono dinamicamente nel mondo aziendale. Sullo schema E/R un fatto può corrispondere o a un'entità F o a un'associazione n-aria R tra le entità E1, E2..., En. Sullo schema relazionale un fatto corrisponde a una relazione F. Le entità o relazioni che rappresentano archivi frequentemente modificati (come VENDITA) sono buoni candidati per definire fatti; quelli

che rappresentano archivi quasi-statici (come NEGOZIO e CITTÀ) noNell'esempio delle vendite si sceglie come fatto l'associazione VENDITA, corrispondente allarelazione VENDITE.Ogni fatto identificato diviene la radice di un nuovo schemaCostruzione dell'albero degli attributi:L'albero degli attributi è un albero in cui:- ogni vertice corrisponde a un attributo - semplice o composto - dello schema sorgente;- la radice corrisponde all'identificatore (chiave primaria) di F;- per ogni vertice v, l'attributo corrispondente determina funzionalmente tutti gli attributicorrispondenti ai discendenti di vL'albero degli attributi corrispondente a F può essere costruito in modo automatico applicandouna procedura che naviga ricorsivamente le dipendenze funzionali espresse, nello schemasorgente, dagli identificatori e dalle associazioni a-unoOsservazioni applicazione algoritmo:- Non è detto che così facendo riesco ad entrare

in tutte le entità. magazzino→Tra prodotto a magazzino c’è associazione N a N e quindi non ho dipendenza funzionale.- Posso entrare in un’entità che ho già esplorato. stato: in stato ci entro a partire da→negozio ma anche da città.Applicando algoritmo entro 2 volte nella stessa stanza.Condivisione e convergenza si possono entrambe applicare in questa situazione. Bisognacapire se si tratta di condivisione o convergenza.Nell’albero degli attributi si può decidere se accorpare o meno ma bisogna definire se ècondivisione o convergenza.Risultato:Esercitazione su MIRO per capire l’esempio:A partire da venditaprezzoUni e qtà sono i figli di VENDITA identificata come numSc+prodottattributi intra entità di numSc e prodottofigli di numSc: datafigl di prodotto: peso, dimensione, dieta (cardinalità 01 opzionale quindi faccio riga)→POSSO APRIRE LE PORTE SOLO SE C’è 1 NELLA

CARDINALITÀ DALLA PARTE DELLA PORTA: Già aperta

Le cardinalità che interessano nell'entità sono quelle del ramo in uscita → da prodotto a magazzino ho 1,N non posso attraversare e aprire la porta. (per relazioni inter-entità) → POSSO ATTRAVERSARE SOLO SE HO CARDINALITÀ N nella cardinalità massima.

➔ SBAGLIATO: non bisogna scrivere "distretto vendita" ma il suo identificatore → stato + numdistretto

Con dipendenza intra-entità va aggiunto a stato + numdistretto anche NUMDISTRETTO come figlio.

A questo punto va aggiunto figlio inter-entità STATO (perché cardinalità max 1). Bisogna scegliere convergenza o condivisione.

Da stato + numdistretto entro su stato con condivisione.

LE FRECCE SEMPRE DA IDENTIFICATORE VERSO ALTRI ATTRIBUTI.

Da marca a città condivisione o convergenza? Condivisione perché non devo vincolare la città dove è costruita la marca a quella delle vendite metto doppio cerchio → !

inizialmente si può duplicare ma si perde solo tempo quindi capisci prima se è convergenza o condivisione. Convergenza vincolo sulle istanze. Es se ci fosse stato allora la marca avrebbe dovuto avere la città che coincide con la città del negozio di vendita. Se parto da schema logico: dipendenze intraentità le leggo tra parentesi, dipendenze interentità uso foreign key. ALCUNE SITUAZIONI CHE SI POSSONO PRESENTARE APPLICANDO ALGORITMO:

Arrivo 2 volte nello stesso posto condivisione e convergenza: scegliere tra doppio pallino o freccia
Cicli: Trasferimento è il fatto: applico l'algoritmo. Da trasferimento applico attributo data poi seguo i percorsi di associazione. Da persona vado a reparto, da reparto vado a divisione, da divisione torno a persona, da persona torno a reparto. CICLO: 2 modi per gestire: Usare gerarchia ricorsiva (non lo usiamo) o Tagliare la gerarchia: alla fine metto tutto insieme con una condivisione

Gerarchie di specializzazione (ise) equivalenza con associazioni uno a uno opzionali→Il fatto è LINEA D’ORDINE perche da ordine non potrei andare su prodottoDevo fare reificazione:Una gerarchia ise corrisponde sempre ad associazioni opzionaliA questo punto applico l’algoritmo: essendoci lo 0 allora OPZIONALIvengono ereditati anche gli identificatoricodProdCasalinghi…4. Associazione n-arie percorribili solo se “false n-arie”→Associazioni n-arie che coinvolgono più entità→Es.5. Attributi composti generano 2 livelli nell’albero→Esempio a dx fatto è chiamata.→Identificatore DATA + ORA + MINUTO + PREFISSO + NUMERO (3 interni e 2 esterni →identificatore misto)!! SBAGLIATO DATELEFONO, ATELEFONO DAPREFISSO+NUMERO, A→PREFISSO+NUMEROEDITING DELL’ALBEROIn genere non tutti gli attributi dell’albero sono d’interesse per il data mart; quindi, l’albero puòessere

manipolato per eliminare i livelli di dettaglio non necessari

La potatura di un vertice v si effettua eliminando l'intero sottoalbero con radice in v

Gli attributi eliminati non verranno inclusi nello schema di fatto, quindi non potranno essere usati per aggregare i dati

L'innesto viene utilizzato quando, sebbene un vertice esprima un'informazione non interessante, è necessario mantenere nell'albero i suoi discendenti

L'innesto del vertice v, con padre v', viene effettuato collegando tutti i figli di v direttamente a v' ed eliminando v; come risultato verrà perduto il livello di aggregazione corrispondente all'attributo v ma non i livelli corrispondenti ai suoi discendenti

Con innesto preservo le dipendenze:

a → b → c → d → e → f → g → e → f → g

Quando un vertice opzionale viene innestato, tutti i suoi figli ereditano il trattino di opzionalità

Nel caso di potatura o innesto di

un vertice opzionale v con padre v' è possibile aggiungere a→v' un nuovo figlio b corrispondente a un attributo booleano che esprima l'opzionalità

Potare o innestare un figlio della radice che corrisponde, sullo schema sorgente, a un attributo incluso nell'identificatore dell'entità scelta come fatto significa rendere più grossolana la granularità del fatto (si rinuncia a un livello di dettaglio→ si sta aggregando)

il vertice innestato ha più di un figlio, si può avere un aumento del numero di dimensioni→

Nello schema di fatto

Da:

HO AGGREGATO perché numscontrino fa parte della radice ho perso il dettaglio dello→scontrino

Nella pratica possono rendersi necessarie ulteriori manipolazioni sull'albero degli attributi

- Può essere necessario modificarne radicalmente la struttura sostituendo il padre di un certo nodo: ciò corrisponde ad aggiungere o eliminare una dipendenza

funzionale significa togliere dipendenze funzionali. A sinistra b c, a destra scompare. → Perché aggiungere? Se lo schema sorgente non è perfettamente normalizzato. NEI COMPITI SCHEMI SORGENTI NON SIANO PERFETTAMENTE NORMALIZZATI. Non conviene normalizzare lo schema ma si aggiungono le dipendenze funzionali direttamente nell'editing. Es. Togliere dipendenze funzionali? Quando si deve scegliere come misura un attributo che è figlio diretto della radice. In presenza di un'associazione un

Anteprima

Vedrai una selezione di 20 pagine su 119