Anteprima
Vedrai una selezione di 8 pagine su 34
Big data Analytics Pag. 1 Big data Analytics Pag. 2
Anteprima di 8 pagg. su 34.
Scarica il documento per vederlo tutto.
Big data Analytics Pag. 6
Anteprima di 8 pagg. su 34.
Scarica il documento per vederlo tutto.
Big data Analytics Pag. 11
Anteprima di 8 pagg. su 34.
Scarica il documento per vederlo tutto.
Big data Analytics Pag. 16
Anteprima di 8 pagg. su 34.
Scarica il documento per vederlo tutto.
Big data Analytics Pag. 21
Anteprima di 8 pagg. su 34.
Scarica il documento per vederlo tutto.
Big data Analytics Pag. 26
Anteprima di 8 pagg. su 34.
Scarica il documento per vederlo tutto.
Big data Analytics Pag. 31
1 su 34
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Presupposti:

1. basata su variabili quantitative (o poche variabili dummy qualitative)

2. basata su matrice di correlazione dei dati

Ma qual è la logica?

Partizione della varianza delle variabili.

Ogni varianza può essere scomposta in 2 componenti: una specifica e una comune, spiegata dalla covarianza.

In questo caso vediamo come le covarianze sono relativamente basse, quindi c'è molta parte specifica e bassa comunalità, con conseguente bassa ridondanza di informazioni.

Maggiori sono i valori all'interno della matrice di correlazione, maggiore sarà la varianza comune e quindi la capacità dell'analisi fattoriale di trovare strutture latenti che permettano di eliminare variabili e aumentare la leggibilità (riducendo la ridondanza)

Derivazione dei fattori

Come derivo i fattori? Tramite metodi di analisi dei dati; ogni fattore è una combinazione lineare di tutte le variabili analizzate.

importante tenere a mente 3 cose:
  1. il numero dei fattori nella soluzione iniziale è uguale al numero delle variabili. Infatti se chiediamo a SPSS di derivare il numero dei fattori=numero delle variabili, le 14 variabili dell'esempio vengono implicitamente sottoposte all'operazione di standardizzazione, ottenendo quindi media 0 e varianza 1. Questo processo, che mantiene il numero di fattori uguali al numero delle variabili, mantiene la varianza uguale.
  2. Il metodo di estrazione è l'analisi dei componenti principali. Ogni fattore ha quindi in sé una parte di ogni variabile con peso diverso. Notiamo però che anche se la varianza totale resta sempre uguale, il peso dei singoli fattori non è assolutamente uguale, ed è disposto in senso decrescente. Notiamo quindi che, ad esempio, i primi 4 componenti spiegano il 55% della varianza cumulativa.
  3. Il mio obiettivo è quindi di scartare quelli poco significativi e prendere
  1. soloquelli che in maniera aggregata mi danno più info
  2. i fattori sono tra loro indipendenti
  3. I fattori sono ordinati in termini di varianza decrescente (autovalori)

Estrazione dei valori (Metodo di estrazione: Matrice dei Componenti, ovvero vado a fare una matrice di correlazione tra fattori e variabili)

Ci sono varie regole che possono essere usate per l'estrazione dei fattori:

  1. Kaiser: estraggo quelli con autovalore >1 (colonna "Totale"), utile in fase esplorativa

Qui abbiamo che quella iniziale era 1 poiché i fattori erano 14 come le variabili. Adesso, in Estrazione, abbiamo preso solo quelli con autovalore >1 (in questo caso 5) e poiché nella matrice di correlazione abbiamo visto che avevamo dati poco correlati, quindi inevitabilmente la comunalità cala. È la comunalità tra le variabili e i fattori estratti, per questo in "Iniziale" abbiamo 1, perché n di estrazione era uguale a n di...

1. Variabili

Andando a scegliere chi estrarre, si opera una operazione con un chiaro costo informativo.

2. Percentuale di varianza spiegata

In questo caso si sceglie in base alla percentuale cumulativa spiegata, andando a fare una scelta arbitraria, tenendo conto del trade off informazione-leggibilità.

3. Grafico Scree

L'utilizzo di un supporto grafico può essere molto utile. Con il Grafico scree, il focus è posto sugli avvallamenti, ovvero situazioni di appiattimento. La nostra scelta ricadrà sui valori prima degli avvallamenti.

Un altro utilizzo del grafico scree è nell'analisi dei cluster. Va a graficare le distanze di fusione per permettere al ricercatore di scegliere i gruppi primi che l'eterogeneità aumenti in maniera più che proporzionale.

In questo caso, sia il grafico scree, sia Kaiser che la percentuale di varianza spiegata suggeriscono di prendere 5 fattori.

Guardiamo allora la nuova matrice dei componenti dopo l'estrazione.

per andare a individuare i loadings (pesi) di ogni fattore. Notiamo che le 14 variabili sono correlate con più di un fattore (cross-loadings). Se il mio obiettivo è ridurre P in K fattori indipendenti, come ad esempio creare dei parametri che sintetizzino le survey, i cross-loadings sono inaccettabili. Quindi come faccio ad eliminarli? Si può fare con la rotazione dei fattori: che sposta la posizione dei fattori nello spazio in modo tale che su di essi presentino pesi elevati solo poche variabili, mentre sulle altre rappresentino pesi vicini allo zero. Infatti, la soluzione non ruotata estrae i fattori in ordine di varianza spiegata, quindi il primo fattore solitamente è un acchiappatutto. Graficamente.. SPSS non riesce a fare la rappresentazione grafica, comunque: la rotazione che uso è la varimax, che mantiene i fattori ortogonali, quindi indipendenti. Nel caso in cui non riesco a trovare quello che mi serve, 1. posso usare altri tipi di

rotazione che rendono i fattori obliqui e quindi non indipendenti.

aumento o diminuisco il numero dei fattori

escludo variabili

Per aumentare la leggibilità, inoltre, scelgo di non mostrare i pesi <0.4, però se mi serve rappresentare graficamente, magari su excel, mantengo tutti i pesi così da avere le coordinate

ottengo questo, ma lo voglio ordinare un po

Bene! adesso ogni mia variabile è collegata in maniera forte con un solo fattore.

Adesso il passo successivo è capire che informazione latente mi da, denominarla e completare l'analisi in fattori. Un ulteriore output dell'analisi fattoriale sono gli scores fattoriali. Sono molto utili per dare un range di giudizio (pensiamo ad esempio agli scores di solvibilità). Poiché infatti i fattori sono fattori latenti e non hanno una scala naturale, gli scores permettono di confrontarli. Gli scores inoltre tramite la correlazione di Pearson, hanno correlazione 1 con se

stessi e 0con gli altri.Prima di fare delle conclusioni nella nostra analisi fattoriale, è però molto importante andarea valutare la solidità del nostro modello.Come faccio?Un modo è quello di andare a verificare la coerenza del risultato tra 2 sottogruppi realizzatitramite un processo di campionamento casuale semplice, che abbiano al proprio interno circail 50% delle osservazioni ciascuna.Se le dimensioni latenti esistono e lavorano anche nei sottogruppi, significa che il modello èsolido.

Analisi delle CorrispondenzeE’ una tecnica di analisi statistica multivariata a carattere esplorativo volta ad analizzare​l'esistenza di schemi di associazione tra variabili qualitative​ , dovuti all'esistenza di trattilatenti. Tale tecnica, può essere vista come una controparte dell'analisi fattoriale applicabile asoli dati qualitativi, che inoltre non restituisce fattori e scores, ma evidenzia tramite ungrafico le corrispondenze.

(come la mappa percettiva, per la percezione di marca)Anche qui, l’input deve essere una tabella di contingenza, o volendo una tabella anche più generalizzata ma comunque con variabili categoriche.

Un esempio classico è quello dove nelle righe troviamo prodotti/imprese e nelle colonne gli attributi, e nelle celle quali prodotti/imprese sono caratterizzati da quei attributi.

Un output grafico tipico può essere questo, dove la vicinanza tra i punti indica una maggiore corrispondenza.

Più avanti analizzeremo il processo che ci ha portati a questo grafico.

E’ utile per andare a categorizzare i proprio competitor o i propri prodotti.

(piccola parentesi sul chi-quadrato, mi servirà dopo nella derivazione: è fondamentale per andare a fare il confronto con una tabella costruita sotto ipotesi di indipendenza. Vedremo che sarà fondamentale per andare a dare un segno)

Derivazione dei fattori: Come funziona il processo di stima?

Se

nell'analisi fattoriale, andavo a valutare la covarianza con dei calcoli matematici (andando a calcolare la media ecc..) nel caso di variabili non quantitative il discorso cambia inevitabilmente. Si utilizza il test chi-quadrato. Si va quindi per prima cosa a calcolare la numerosità di cella attesa sotto ipotesi di indipendenza, dopo di che si va a verificare lo scostamento effettivo rispetto a questa osservazione teorica: se la numerosità è maggiore di quella attesa, il segno del chi-quadrato sarà positivo e quindi correlato positivamente, se la numerosità è minore, allora il segno sarà negativo ed esprimerà una correlazione negativa tra le due variabili. La tabella con i valori sotto condizione di indipendenza è stata calcolata sommando il totale di riga al totale di colonna, dividendolo poi per il numero totale, ovvero 851. Di seguito la tabella del Chi-quadrato. I valori sono calcolati facendo il quadrato della differenza.tra valori effettivi e valoriteorici, il tutto diviso per il numero delle osservazioni teoriche

Estrazione dei fattori

Fatta la stima, è il momento di estrarre le dimensioni. L'output che questa tecnica cifornisce è il grafico a dimensioni ridotte (2 dimensioni)

Il numero massimo però di dimensioni è dato dal minimo numero tra n.riga en.colonna diminuito di una unità [min(n.riga,n.colonna)-1]

Il valore singolare è un valore importante solo a livello algebrico, poco importante (la tabella è posta all'operazione del Singular Value Decomposition), è la radice dell'inerzia

L'inerzia è il chi quadrato/n (è quindi un valore scalato del chi quadrato). È la componente di variabilità complessiva imputabile alle dimensioni. Fondamentalmente, è il corrispettivo dell'autovalore nell'analisi fattoriale.

Posso prendere solo due dimensioni, sempre

Perché una rappresentazione grafica con più di due dimensioni diventa illeggibile. A questo punto si passa alla tabella di interpretazione dei risultati, dove vengono messi in tabella le variabili qualitative e le dimensioni (sia di riga che di colonna, per andare a trovare corrispondenze sia tra caratteristiche del prodotto, sia tra competitor).

Massa: esprime il contributo di ogni cella/riga/colonna alla massa totale (è una sorta di frequenza relativa)

Punteggio nella dimensione: coordinate nella mappa (e quindi quanto quella dimensione spiega) "Di punto a inerzia" mi dice: fatta 1 il contributo della dimensione uno, quali sono le variabili che più concorrono?

"Di dimensione a inerzia" mi dice invece, nella colonna del totale, se la variabile è ben spiegata dalle dimensioni scelte.

Dettagli
Publisher
A.A. 2020-2021
34 pagine
SSD Scienze economiche e statistiche SECS-S/03 Statistica economica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher sessagiordano di informazioni apprese con la frequenza delle lezioni di Big data analytics e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Bologna o del prof Freo Marzia.