Big data Analytics

Name: Big data Analytics
Rating: 3.0 (1 reviews)
Author: sessagiordano

Revisionato il 22/06/2026

di sessagiordano

Publisher

Vota 3,0/5 (1)

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Appunti di Big data analytics basati su appunti personali del publisher presi alle lezioni della prof. Freo, dell’università degli Studi di Bologna - Unibo, facoltà di …

Esame Big data analytics

Facoltà Economia

Dal corso del Prof. Freo Marzia

Università Università degli Studi di Bologna

A.A. 2020-2021

34 pagine

Appunto

Scarica

Estratto del documento

Big Data

Analytics

● Introduzione alla materia

● Individuazione della tipologia di variabile

● Analisi dei dati

○ Analisi preliminare

■ Grafici

■ Tabelle

■ analisi descrittiva

● Misure di locazione

● Misure di variabilità

■ Preparazione e pulizia dei dati

● Tipologia di contaminazione

○ Outlier

○ Missing

■ Listwise deletion

■ Pairwise deletion

○ Analisi avanzata

■ Diminuzione numero di variabili

● Analisi fattoriale (quantitative)

● Analisi delle corrispondenze (qualitative)

■ Diminuzione numero di osservazioni

● Analisi dei gruppi (segmentazione generica)

● Segmentazione per obiettivi

Lo scopo del big data analytics è quello di esplorare ed analizzare in modo automatico e

semiautomatico dataset per scoprire regole e comportamenti sistematici ed estrarre info utili.

Come si sviluppa un processo di Data Analytic?

1. Preparazione dei dati e identificazioni delle variabili di interesse

2. Analisi preliminare delle variabili: grafiche e descrittive

3. Analisi avanzata delle variabili

Preparazione dei dati e identificazioni delle variabili di interesse

E’ importante andare a definire quali sono le varie tipologie di variabili.

A seconda del grado (crescente) di elaborazione che una variabile intrinsecamente ammette,

si è soliti distinguere:

1. VARIABILI QUALITATIVE

a. Variabile categorica : carattere qualitativo sconnesso (id)

b. Variabile ordinabile

: carattere qualitativo ordinabile (soddisfazione cliente)

2. VARIABILE QUANTITATIVE

a. Intervallo: hanno uno zero arbitrario (anni, temperatura)

b. Rapporto: hanno uno zero assoluto (conto in banca)

3. Variabile dicotomica : carattere binario, solitamente successo e insuccesso

4. Variabile politomica : poco utilizzata, ammette K>2

E’ possibile passare da una politomica ad una dicotomica tramite il processo di codifica

disgiuntiva , dove si costruiscono K variabili dummy, tali che

Analisi preliminare delle variabili:

Grafici

E’ utile però per l’analisi dei dati, andare a rappresentare i risultati in dei grafici

Di seguito i più utilizzati:

● Grafico a torta

● Grafico a barre

● Grafico di Pareto (serve per disporre la frequenza delle cause di un difetto)

ordina quindi in valore decrescente

Ad esempio dal grafico si evince immediatamente che le cause principali del difetto sono le

prime due.

● Grafico istogramma

● Grafico a dispersione (Scatter Plot)

○ Index Plot: molto utile per andare a rintracciare degli outlier

● Times series plot: analizza una serie storica

● Grafico Boxplot

○ Grafico molto utilizzato in statistica perché permette di avere in un colpo

d’occhio, in ordine:

■ Massimo, Q3, Mediana, Q1, Minimo.

Tabelle

La Distribuzione di frequenza è tabella utilizzata per analizzare i dati, dove a Sx si

raccolgono tutte le modalità di una variabile e Dx il numero di osservazioni per ogni valore.

A partire dalla distribuzione di frequenza assoluta poi si può arrivare a: frequenze relative,

frequenze percentuali, frequenze cumulative e percentuali cumulative.

La Tabella di Contingenza è invece una tabella che incrocia le frequenze di 2 variabili

categoriche/ordinabili.

Con le informazioni che si possono estrarre da questo tipo di tabelle, è interessante andare ad

effettuare un test chi-quadrato

Descrittive

Le variabili descrittive sono dei numeri di sintesi che sono fondamentali per avere un primo

approccio ai dati da analizzare.

Si dividono in

Misure di locazione:

● Media aritmetica

● Mediana

● Moda

● Quartili

○ 1° quartile (Q1): valore che separa il primo 25% dei dati dal resto

○ 3° quartile (Q3): valore che separa il primo 75% dei dati dal resto

Misure di variabilità

● Range interquartilico : IQR è la differenza tra Q3 e Q1, racchiude quindi il 50% dei

valori

● Varianza : esprime una sintesi delle distanze di tutti i dati dalla media.

Matematicamente è la media delle differenze al quadrato tra ogni variabile e la media

● Deviazione Standard : è la radice della varianza, è più utilizzata perché esprimere la

stessa informazione però nell’unità di misura della variabile

● coefficiente di correlazione: una misura standardizzata che, tramite una forchetta che

varia tra -1 e 1 esprime il grado di relazione lineare tra due variabili

!! Regola empirica !!

Solitamente, per un gran numero di situazioni con distribuzione normale a campana

il 68% delle osservazioni sta nell’insieme m+s

il 95% delle osservazioni sta nell’insieme m+2s

il 99% delle osservazioni sta nell’insieme m+3s

Preparazione e pulizia dei dati

Ovviamente i dati non si presentano subito pronti per l’analisi; hanno quindi bisogno di

essere “puliti”.

Le due principali tipologie di contaminazione sono:

● Dati anomali ( outlier ): è utile l’analisi esplorativa tramite index plot, che permette

identificarli immediatamente

Nel caso di presenza di outlier, lo si può:

○ sostituire con un dato missing

, se si pensa che sia un errore di data entry

○ rimuovere il record, se si crede che se pur raro sia vero

○ Sostituire il valore

, secondo delle regole di sostituzione

● Dati mancanti ( missing ) : in questo caso, le soluzioni sono due

○ Listwise deletion: conservo solo i record che sono completi, con un forte costo

informativo.

○ Pairwise deletion: lavoro solo sui dati che ho, ma attenzione al venirsi a creare

di situazioni di non comparabilità (se faccio una media su 100 valori non

posso confrontarla con una fatta su 150)

Analisi fattoriale

Nei casi pratici il numero di variabili può essere molto elevato.

Può quindi essere utile ridurre il numero delle variabili, raggruppandoli in un numero più

limitato, chiamate fattori, che contenendo l’informazione di più variabili, rappresentano le

dimensioni rilevanti del fenomeno analizzato.

I fattori, auspicabilmente, devono essere incorrelati o debolmente correlati

A questo scopo è fondamentale l’ analisi fattoriale, ovvero un metodo statistico usato per

identificare una struttura latente di relazioni tra più variabili al fine appunto di essere descritte

con un numero più limitato di variabili di sintesi, i fattori appunto.

Obiettivo:

1. Sintetizzare l’informazione (evita la ridondanza delle informazioni nei dati)

2. Rendere le informazioni più interpretabili e semplice

Presupposti:

1. basata su variabili quantitative (o poche variabili dummy qualitative)

2. basata su matrice di correlazione dei dati

Ma qual’è la logica?

Partizione della varianza delle variabili.

!Ogni varianza può essere scomposta in 2 componenti: una specifica e una comune, spiegata

dalla covarianza.

In questo caso vediamo come le covarianze sono relativamente basse, quindi c’è molta parte

specifica e bassa comunalità, con conseguente bassa ridondanza di informazioni.

Maggiori sono i valori all'interno della matrice di correlazione, maggiore sarà la varianza

comune e quindi la capacità dell'analisi fattoriale di trovare strutture latenti che permettano di

eliminare variabili e aumentare la leggibilità (riducendo la ridondanza)

Derivazione dei fattori

Come derivo i fattori? Tramite metodi di analisi dei dati; ogni fattore è una combinazione

lineare di tutte le variabili analizzate , ed è importante tenere a mente 3 cose:

1. il numero dei fattori nella soluzione iniziale è uguale al numero delle variabili

a. Infatti se chiediamo a SPSS di derivare il numero dei fattori=numero delle

variabili, le 14 variabili dell’esempio vengono implicitamente sottoposte

all ’operazione di standardizzazione, ottenendo quindi media 0 e varianza 1

Questo processo, che mantiene il numero di fattori uguali al numero delle

variabili, mantiene la varianza uguale.

Il metodo di estrazione è l ’analisi dei componenti principali

ogni fattore ha quindi in sé una parte di ogni variabile con peso diverso

notiamo però che anche se la varianza totale resta sempre uguale, il peso dei

singoli fattori non è assolutamente uguale, ed è disposto in senso decrescente.

Notiamo quindi che, ad esempio, i primi 4 componenti spiegano il 55% della

varianza cumulativa.

Il mio obiettivo è quindi di scartare quelli poco significativi e prendere solo

quelli che in maniera aggregata mi danno più info

2. i fattori sono tra loro indipendenti

3. I fattori sono ordinati in termini di varianza decrescente ( autovalori)

Estrazione dei valori

(Metodo di estrazione: Matrice dei Componenti , ovvero vado a fare una matrice di

correlazione tra fattori e variabili )

Ci sono varie regole che possono essere usate per l’estrazione dei fattori:

1. Kaiser : estraggo quelli con autovalore >1 (colonna “Totale”), utile in fase esplorativa

Qui abbiamo che quella iniziale era 1 poiché i fattori erano 14 come le variabili,

Ade

Anteprima

Vedrai una selezione di 8 pagine su 34