Anteprima
Vedrai una selezione di 11 pagine su 46
Esame di Big Data Pag. 1 Esame di Big Data Pag. 2
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Esame di Big Data Pag. 6
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Esame di Big Data Pag. 11
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Esame di Big Data Pag. 16
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Esame di Big Data Pag. 21
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Esame di Big Data Pag. 26
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Esame di Big Data Pag. 31
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Esame di Big Data Pag. 36
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Esame di Big Data Pag. 41
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Esame di Big Data Pag. 46
1 su 46
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

DATA PLATFORM

Avviamo una data strategy per avviare una data platform, molto complessa e rappresenta un'evoluzione dei sistemi informativi classici. Le data platform prevedono in ingresso tante tipologie di dato, che devono essere trasformate in informazioni utili per processi di reporting e nel data science (dall'analisi descrittiva a predittiva e prescrittiva).

Caso di studio

Il progetto data platform nasce dalle seguenti necessità:

  • Estendere il perimetro dei dati: introduzione in azienda di nuovi dati provenienti da canali digitali, vendita, post vendita, apps, IoT, social network e altre fonti esterne
  • Introdurre un processo di data governance e data quality: forte esigenza di migliorare il presidio del dato, controllando il processo di elaborazione e la qualità, la sicurezza e la gestione della privacy.
  • Sfruttare le nuove tecnologie disponibili: rinnovare il parco tecnologico attualmente presente

in azienda➢ Abilitare un nuovo processo di collaborazione tra IT e business: rendere più chiari i ruoli, gli obiettivi e le tempistiche necessarie per IT e business, abilitando la partecipazione attiva di tutte le aree aziendali coinvolte.

Per realizzare una Data Platform si passa per due fasi:

  1. Studio Data Platform Strategy - analisi e prioritizzazione degli use case, disegno architettura di riferimenti, business case, proposta approccio realizzativo
  2. Stream di realizzazione (incrementale) - per ogni singolo use case verrà identificato un gruppo di lavoro, con tempistiche definite, che si occuperà di approfondire e realizzare concretamente lo use case facendo leva sull'intera struttura potenziale della data platform.

I diversi use case sono indirizzabili in vari modi:

  • Facendo leva direttamente sulla core data platform
  • Tramite soluzioni verticali stand alone che si interfacceranno con la core data platform per integrare nei dati

→Core data

  1. Customer 360: capire che cosa è importante per il cliente, avere tutte le informazioni possibili sul cliente
  2. Customer journey
  3. DB operations
  4. Pipeline attivazione

Sono stati analizzati tutti gli use case vengono definiti:

  • Obiettivi strategici e operativi
  • Macro requisiti
  • Attori
  • Criticità
  • Priorità
  • Data subject richiesti aggregazione di informazioni. Ogni data subject è collegato a più use case, e ogni use case può essere composto da più data subject
  • Impatti data platform
  • Sorgenti

Viene fatta una mappatura di tutti i data subject, per ognuno viene definita la complessità (più è grande la bolla) e la posizione (più in alto = ready o no). Una volta che è stata definita la composizione di tutti i data subject (come si accede,

I vincoli, memoria, etc), possiamo avere:

  • Mappatura di tutti gli use case e tutte le progettualità
  • Fabbisogni informativi (dimensione, vincoli) visto che uno use case è fatto da data subject, la somma delle complessità dei data subject determinano la complessità dello use case.
  • Priorità ranking o prioritizzazione di tutte gli use case, ovvero da quale use case iniziare, raggruppati in stream di lavoro (ovvero l'orizzonte di tempo nel quale vengono realizzati)

Il progetto di data platform vale milioni di soldi: il ruolo della data strategy è quello di mitigare questo progetto affinché un'azienda non possa fallire.

Quello che ha permesso a questa azienda a seguire nel tempo il processo di data strategy, è stato un passaggio chiave: viene fatta una foto alla situazione as is dell'azienda, secondo alcuni parametri (consistenza, robustezza, automazione, freschezza dati, velocità di risposta), per

Supportare tutto quello che viene definito viene fatta lastessa mappa nella situazione to be, ovvero come quegli stessi parametri dovranno essere e che prestazionidovranno raggiungere.

Nel mondo di dati ci sono figure tecniche, manageriali, tecniche, che si occupano di strategia e di tutto ciò che riguarda il mondo dei dati e la pianificazione e la gestione di questi.

Architettura Cloud vs. On premises→ il primo passo per una nuova DP è quello di definire dove si vuole posizionare l'architettura:

  • Data centre aziendale tradizionale data warehouse: è una tecnologia matura e consolidata
  • Cloud (SaaS - software as a servive) può sfruttare a pieno le caratteristiche dell'offering su cloud, come pay per use, scalabilità, ...

Per valutare la soluzione cloud devono essere prese in considerazioni diverse variabilità:

  • Time to value dell'implementazione
  • Costi CPAEX o OPEX (per on premises = costo più
elevato dell'investimento iniziale, cloud = costo più elevato nel lungo periodo)
  • Dimensionamento, bilanciamento e tuning (on premises = costo di gestione dell'infrastruttura e richiede competenze di system engineer; cloud = necessità di una figura resource manager per monitorare il modo in cui vengono utilizzate le risorse)
  • Data preparation e progettazione dei job ETL
  • Scalabilità ed elasticità
  • Downtime
  • Gestione della sicurezza e rischio data breach
  • Data Governance: la data governance serve per gestire i dati all'interno della data platform bisogna definire: se li posso utilizzare e come li posso utilizzare. Possiamo definire:

    • Data catalog: catalogo dei dati per sapere quali dati ci sono all'interno della data platform
    • Business glossary: glossario dell'informazione, che mi dice il significato dei dati.

    Bisogna essere in grado di definire le tecnologie da utilizzare nella data strategy, considerando i

    costi – benefici, quindi per ogni layer fare una valutazione. →Use Case Elicitation è un processo non fondamentale, ma propedeutico della DS, che permette di far emergere le iniziative legate al mondo dei dati (use case) non ancora mappate a livello aziendale, che siano latenti o che siano idealizzate nei key business user. L’obiettivo è quello di definire e arricchire la lista degli use case, in particolar modo per abilitare la cross contaminazione tra tutti i partecipanti, facendo emergere le idee latenti e non espresse. Il risultato di questo processo sarà una mappa concettuale delle idee e degli use case emersi, la relativa valutazione e definizione di chi parteciperà alle fasi successive della DS. →Fasi la use case elicitation è divisa in due giornate, nelle quali sono coinvolte tutte le persone che fanno parte del progetto di DS. Entrambe le giornate sono articolate da due fasi: divergente (idea generation) e convergente. La tecnicautilizzata è quella del double diamont. La modalità utilizzata è il brain thinking: ovvero una metodologia di brain storming collaborativo che mette insieme persone diverse in maniera pacifica.
    • Brain writing e clustering si scrivono idee e spunti di riflessione: emergono cluster di idee ricorrenti se c'è un fattore comune
    • Ideas scanning e ideas selection le idee vengono selezionate e divise tra quelle fattibili e quelle infattibili (must have, nice to have, waiting list)
    • Stepladder
    • Commercial pitch vengono selezionate solo le idee che rappresentano futuri use case e poi vengono approfondite. Data Strategy e organizzazione ruoli aziendali
    È possibile decidere tra vari framework organizzativi: cosa far fare e come farlo internamente ed esternamente.
    Service level agreement è un sistema per definire e rendere misurabili le

    Caratteristiche di un sistema di business analytics tramite delle variabili standard, semplici da comprendere perché non contengono aspetti tecnici, ma riguardano l'area METODOLOGICA, TECNOLOGICA E ORGANIZZATIVA. L'obiettivo finale è la valutazione del sistema di Business Analytics tramite l'analisi delle variabili. È una modalità trasparente che aiuta a creare un agreement con il cliente ed è utile a creare una roadmap consapevole e commisurata ai bisogni.

    Le fasi:

    • Raccolta livelli di servizio as is
    • Raccolta requisiti di livello di servizio to be
    • Elaborazione gap analysis e roadmap

    I servire levels guidano azioni trasversali:

    • Sfera organizzativa riguarda le linee guida, il maintenance e la governance
    • Sfera metodologica qualità del dato e standard metodologici
    • Sfera tecnologica standard architetturali e capability

    Workshop big data

    Introduzione

    I big data sono dati grezzi nella loro forma

    primordiale sono inutili, quando vengono processati, organizzati,strutturati e presentati in un determinato contesto allora possiamo ottenere informazioni.

    La corretta gestione del dato passa attraverso:

    • Raccolta dei dati (ingestion)
    • Storage
    • Elaborazione →Abbiamo bisogno quindi di “small data” dati abbastanza piccoli da essere compresi dall’uomo, per esserepoi accessibili, capibili e utilizzabili per qualsiasi attività.

    Otteniamo small data, a partire da big data, grazie ad algoritmi e tecniche di data mining su grandi moli didati, mediante: analisi descrittive, predittive e prescrittive.

    I big data sono una collezione di dati così grandi e con caratteristiche complesse che sono difficili daprocessare usando un database o una tradizionale applicazione di data processing. È necessario quindi coprireanche le esigenze di data processing, quindi pensiamo a piattaforme innovative a 360 gradi.

    Evoluzione dei big data:

    • Anni ’90: i dB
    re ridondanti e distribuiti su più server. Questo permette di aumentare la velocità di accesso ai dati e di garantire una maggiore affidabilità del sistema.• Anni 2010: con l'avvento del cloud computing, i dati vengono salvati su server remoti, gestiti da fornitori di servizi cloud come Amazon Web Services, Microsoft Azure, Google Cloud Platform, ecc. Questo permette di ridurre i costi di gestione dell'infrastruttura e di scalare facilmente le risorse in base alle esigenze.• Oggi: con l'evoluzione delle tecnologie di storage e dei database, si stanno sviluppando nuovi approcci come il database distribuito, il database in memoria e il database NoSQL. Questi permettono di gestire grandi volumi di dati in modo più efficiente e di supportare nuovi modelli di dati, come i dati non strutturati e i dati in streaming.
    Dettagli
    A.A. 2022-2023
    46 pagine
    1 download
    SSD Scienze matematiche e informatiche INF/01 Informatica

    I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher alessandra-rea di informazioni apprese con la frequenza delle lezioni di Big Data e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Bologna o del prof Rivaldi Federico.