Estratto del documento

Manuale di analisi dei dati

Tecniche multivariate e tecniche di assegnazione

Nell'analisi dei dati convivono due scopi generali e quindi due linguaggi diversi. Il punto di partenza di qualsiasi tecnica di analisi dei dati (detto input della tecnica) è una matrice di dati. Nel suo formato più semplice, una matrice cioè a due vie, può essere OxV (oggetti x variabili), VxV, OxO.

Scopo centrale dell'analisi dei dati è scoprire le relazioni tra le variabili e quindi l'input erano matrici VxV o OxV dette anche caso per variabile. Per questo le tecniche di questo tipo sono dette multivariate e la lingua è detta linguaggio delle variabili. Caratteristica essenziale è l'indifferenza alla particolare identità degli oggetti di analisi.

Il nucleo logico della soluzione prodotta da una tecnica multivariata è un insieme di coefficienti di dipendenza/impatto che descrivono in che modo i cambiamenti su una variabile, manifesta o nascosta, sono collegati ai cambiamenti sulle altre. Nel linguaggio delle variabili è possibile distinguere tre famiglie di operazioni di ricerca o canoni di analisi multivariata:

  • Descrizione scomposizioni
  • Spiegazione analisi di dipendenza
  • Interpretazione tecniche di attribuzione

Ciò che distingue i tre continenti è il tipo e la struttura delle relazioni tra variabili. Nelle scomposizioni si rinuncia a qualsiasi distinzione tra variabili dipendenti e indipendenti, l'analisi resta su un piano descrittivo. Nell'analisi di dipendenza le variabili manifeste sono distinte in variabili dipendenti e indipendenti e le relazioni che si studiano coinvolgono solo variabili manifeste. Si cerca quindi di spiegare una fenomenologia individuandone le fonti di variazione.

Nelle tecniche di attribuzione le relazioni rilevate tra variabili manifeste (matrice input) sono attribuite all'azione di variabili latenti. L'osservatore quindi interpreta le relazioni tra variabili manifeste come prodotto dell'azione di variabili latenti.

Le tecniche di assegnazione

A partire dagli anni '50 alle tecniche multivariate si affianca una nuova famiglia di tecniche dette di assegnazione. Lo scopo è costruire variabili a partire da relazioni tra oggetti, dunque il loro input sono le matrici OxO che a loro volta possono essere quadrate o rettangolari. Per questo il linguaggio delle tecniche di assegnazione è il linguaggio degli oggetti.

Una tecnica di assegnazione parte da una matrice che descrive le relazioni tra tot numero di oggetti e cerca di descriverle come risultato degli stati che gli oggetti stessi assumono su un certo numero di proprietà latenti. Il risultato è la costruzione effettiva di una o più variabili latenti relative a una o più famiglie di oggetti.

Nel linguaggio degli oggetti distinguiamo tre famiglie di operazioni di ricerca o canoni di assegnazione:

  • Classificazione: puro clustering
  • Ordinamento: scaling ordinale
  • Misurazione: scaling cardinale

Ciò che distingue tra loro le tre famiglie di operazioni di ricerca è il livello di scala delle variabili costruite. Le tecniche di puro clustering partono da matrici OxO e generano una o più variabili categoriali, classiche o fuzzy (valore di verità tra 0 e 1).

Tecniche di scaling ordinale partono da matrici OxO e permettono di costruire variabili ordinali, quindi si parla di ordinamento. Tecniche di scaling cardinale partono da matrici OxO e costruiscono variabili cardinali, si parla allora di misurazione. Le tecniche di assegnazione precedono logicamente le tecniche multivariate perché mostrano come fabbricare le variabili che poi analizziamo con le tecniche multivariate.

Aspetto interessante è che le tecniche di assegnazione hanno la capacità di far compiere alle strutture dei dati il salto di scala, cioè il passaggio da una struttura dei dati povera (ad esempio una matrice di giudizi binari) a una struttura dei dati in cui il livello di scala è più alto del livello di partenza.

Tecniche ibride

Esistono tecniche di analisi dei dati capaci di combinare i due scopi e quindi produrre soluzioni che contengono sia coefficienti di dipendenza/impatto sia nuove variabili. Queste tecniche operano su matrici input di tipo OxV perché hanno bisogno sia delle variabili che degli oggetti. Si chiamano ibride o multivariate ibride perché si tratta per lo più di estensioni di tecniche multivariate pure.

Tre esempi di tecniche ibride:

  • Tecniche psicometriche e fattoriali a effetti fissi: tecniche nelle quali la stima dei punteggi individuali non avviene in un secondo stadio, facoltativo, ma nell'ambito di un medesimo e unico passo: analisi fattoriale a effetti fissi.
  • Tecniche di regressione: prevedono la stima di valori predetti e residui che sono tipi particolari di variabili latenti descrittive dei casi.
  • Tecniche di clustering basate sui metodi di suddivisione iterativa: partono da una matrice OxV e le aggiungono una variabile categoriale.

A seconda di quello che fanno, le tecniche ibride possono essere qualificate mediante canoni isti.

Il territorio della psicometria

Una tecnica psicometrica misura le proprietà mentali. Alcuni autori per misurazione intendono qualsiasi processo di assegnazione a oggetti di stati su proprietà e includono anche ordinamento e classificazione. Altri autori considerano misurazione solo le tecniche che costruiscono vere e proprie scale cardinali. C'è poi chi adotta il compromesso che le scale debbano almeno essere ordinali.

Per proprietà mentali invece, in analisi dei dati, si intendono:

  • Disposizioni
  • Percezioni
  • Salienze

Misurare proprietà mentali significa assegnare stati su una o più proprietà latenti a due sole famiglie di oggetti: individui e stimoli. Questo processo di assegnazione ha un suo percorso: si parte da una matrice dei dati, detta matrice delle risposte, in cui almeno una via è interpretabile come un insieme di oggetti (matrici OxO o OxV) e gli oggetti stessi rappresentano N individui, S stimoli, o entrambi.

Una delle vie della matrice può rappresentare un insieme di strumenti di misurazione (testi, items, indicatori) che conviene indicare con la lettera m, come misurazione. Dopo questo input si controlla se l'insieme delle risposte rispetta un principio formale di coerenza interna. Se la matrice di risposte supera questo test si mostra che le risposte stesse possano essere riprodotte bene assegnando agli oggetti (individui o stimoli) altrettanti stati su H proprietà latenti cardinali. Possiamo avere quattro tipi di spazi:

  • H=1: Spazi unidimensionali singoli
  • H>1: Spazi multidimensionali singoli
  • Individui e stimoli: Spazi unidimensionali congiunti
  • Spazi multidimensionali congiunti

Se la tecnica lavora su:

  • Differenze individuali: misura disposizioni
  • Differenze tra stimoli: misura percezioni
  • Differenze tra stimoli e sull'importanza relativa degli assi di uno spazio percettivo: misura salienze

Architetture

Qualsiasi tecnica di analisi dei dati può essere vista come un algoritmo che parte da una matrice di input X~ ^ =r(N;S) detta input minimo della tecnica e produce una soluzione <m (X),N> tale per cui: m(X)=y=dove m(X) è un'opportuna trasformazione dell'input detta mappa della tecnica che trasforma l'input minimo x nel bersaglio y, mentre r() è una funzione detta formula di ricostruzione che ha lo scopo di riprodurre il più accuratamente possibile il bersaglio usando come argomenti il nucleo della soluzione N e in alcuni casi anche il supporto della tecnica (S) che è una porzione ben definita e nota a propri dell'input minimo X.

L'input minimo, quando esiste il supporto, può essere diviso in due porzioni: il supporto stesso, irrilevante per ricavare il bersaglio e la contro immagine del bersaglio cioè la porzione di input che la mappa m(x) trasforma nel bersaglio y. Dunque una tecnica di analisi dei dati è un algoritmo che mediante una soluzione <m(x),N> la più parsimoniosa possibile cerca di adattare una matrice a y^ a una matrice y.

Bersaglio:

  • Fisso: la funzione m(x) è uguale alla trasformazione identica o è nota a priori, e quindi è una parte banale della soluzione
  • Mobile: entro limiti ben definiti, la tecnica può operare sull'input per renderlo più facilmente riproducibile. La trasformazione comporta la stima del parametro Ɵ

Chiamiamo architetture classiche quelle a bersaglio fisso e architetture post classiche quelle a bersaglio mobile. Chiamiamo proiezioni le tecniche che prevedono il supporto e autoproiezione le tecniche che non lo prevedono.

Supporto assente Supporto presente
Bersaglio fisso, Ɵ assente II
Bersaglio mobile, Ɵ presente IV

Schemi e modelli

Normalmente la riproduzione del bersaglio avviene mediante la scissione additiva: y= y^+D. D è matrice dei residui cioè deviazioni/scarti tra valori effettivi del bersaglio e valori riprodotti da una soluzione. Y^= bersaglio riprodotto che dipende dalla formula di ricostituzione y^=r(N;S).

Questo tipo di scissione è presente in ogni tipo di analisi dei dati. Tuttavia, accanto a questa scissione ci sono tecniche che ne prevedono anche un’altra di tipo virtuale: y=Ὗ +∆. Questa seconda scissione rappresenta i nostri assunti statistici sul meccanismo che genera dati. La matrice Ὗ dipende dalla matrice o vettore di parametri incogniti ^ che è compito della tecnica stimare, sotto forma di nucleo della soluzione (N) e costituisce la componente sistematica del meccanismo che genera i dati: Ὗ=r(^;S).

La matrice ∆ è una matrice di disturbi; la sua struttura statistica prevede che i disturbi siano indipendenti o almeno incorrelati e abbiano valori attesi nulli: E (∆)= 0. Cioè in una lunga serie di repliche del meccanismo ci aspettiamo che gli errori si elidano. La differenza tra i due casi è che solo nel secondo cioè per le tecniche dotate di assunti specifici sul meccanismo statistico che genera i dati ha senso chiedersi se siamo in grado di riprodurre correttamente i parametri fondamentali del meccanismo stesso. Si usa il termine modelli per le tecniche dotate della doppia scissione: y= y^+D y=Ὗ +∆ e si usa il termine schemi per tecniche che prevedono solo la prima scissione.

Le 3 virtù: parsimonia, adattamento e fedeltà

I criteri universali sono due: parsimonia e adattamento.

  • Parsimonia: assoluta o relativa, è il numero di parametri risparmiati cioè la differenza tra la complessità dell'input (numero dati indipendenti di X usati per generare il bersaglio Y) e la complessità dell'output (numero di parametri liberi presenti nella soluzione). Quando lavoriamo con un modello la parsimonia coincide con i gdl dell'errore che si ricavano come: gdl dei dati - gdl modello = complessità input - complessità output.
  • Adattamento o fit: il grado di corrispondenza tra la matrice riprodotta y^ e la matrice da riprodurre cioè bersaglio y. Il contrario dell'adattamento è lo stress. Tra parsimonia e adattamento c'è una relazione inversa.
  • Fedeltà: è la capacità di y^ di riprodurre Ὗ. Può solo essere stimata e richiede che la tecnica sia un modello e non uno schema.

Capitolo 1: dalle proprietà alle variabili

L'analisi dei dati è una disciplina costituita da due famiglie di tecniche:

  • Le tecniche multivariate, che si occupano di analizzare le relazioni tra una pluralità di variabili già costruite, ovvero persistenti.
  • Le tecniche di assegnazione, che si occupano di costruire ex novo e in modo effettivo una o più variabili.

Una variabile, come vedremo, non è altro che la traduzione o più esattamente la messa in matrice di una determinata proprietà. Mattoni fondamentali: referente, predicati, valori di vita, occasioni. I due ingredienti minimi sono referente e il predicato. Il referente è l'oggetto individuale a cui le affermazioni si riferiscono. Il predicato è il contenuto dell'osservazione. Q () sta per il predicato.

Dunque un predicato può essere visto come una funzione enunciativa, ossia come una funzione che rappresenta una famiglia di enunciati, ed è suscettibile di assumere i valori di verità vero e falso a seconda dell'argomento della funzione stessa. Un referente può essere un'entità singola e ben individuata. Ma può anche essere un'entità aggregata o multipla.

Il referente è ciò di cui si parla, ossia ciò a cui un certo predicato viene applicato. In generale, il referente di un'affermazione non è un'entità isolata, ma un elemento di un insieme più ampio di riferimenti possibili. L'insieme viene chiamato universo del discorso della funzione iniziativa che contiene tutte le entità cui il predicato si applica. Si noti bene che l'universo del discorso del predicato non è formato da tutti i riferimenti che rispettano il predicato ma da tutti i riferimenti che possono rispettarlo, e per i quali ha quindi senso chiederti se lo rispettano oppure no.

Dunque un conto è l'insieme delle entità cui il predicato si applica, universo del discorso, un conto è il sottoinsieme d'identità per cui il predicato risulta vero. Questo secondo insieme si chiama estensione del predicato, e di solito viene d'istinto dalla sua intensione. L'estensione di un predicato è l'insieme dei riferimenti che lo rispetta, la sua intenzione è l'insieme dei suoi costituenti logici, ossia dei requisiti o delle determinazioni che ovviamente deve possedere per rispettare il predicato.

E qui veniamo al terzo mattone fondamentale della teoria dei dati, il concetto di valore di verità. Un predicato non è semplicemente qualcosa che ti può dire riguarda qualcos'altro ma è un'affermazione che:

  • Si applica a un certo insieme di riferimenti possibili o universo del discorso.
  • È suscettibile di risultare vero o falso a seconda del particolare referente a cui viene applicata.

Dato un predicato Q () e un referente ref, che fa parte dell'universo del discorso del predicato, l'enunciato della forma Q(ref) possiede un proprio valore di verità. Ciò significa che dato un predicato siamo sempre in grado di distinguere tre insiemi: nella maggior parte delle applicazioni empiriche, l'impiego di uno o più predicati presuppone due operazioni. La prima è di fissare l'insieme di riferimenti cui andiamo ad applicare il predicato. Lo chiameremo dominio del predicato e lo indicheremo con una lista come ref1, ref2, ...

La seconda operazione è quella di applicare in modo effettivo il predicato a ogni elemento del dominio, verificando se l'elemento rispetto al predicato oppure no. Il risultato di quest'operazione si chiama funzione di appartenenza e si può indicare come una sequenza ordinata di valori di verità o gradi di appartenenza al sottoinsieme individuato dal predicato. µ sta per membership. La lista dei valori di verità è una sequenza di 1 Vero e di 0 falso quando l'enunciato viene valutato in modo categorico, ossia secondo i canoni della logica classica.

µ = 1 espansione del predicato

µ = 0 esclusione del predicato

L'unione dei due sottoinsiemi restituisce il sottoinsieme di partenza, il dominio. La lista dei valori di verità è invece una sequenza di valori inclusi nell'intervallo chiuso 0-1 se l'enunciato viene valutato in modo non categorico, ossia nel quadro di qualche logica polivalente come la logica a tre valori di Russell o una logica fuzzy.

Due sottoinsiemi:

  • Il primo semplicemente riportando la lista completa dei valori della funzione di appartenenza µ
  • Un secondo si indica riportando la lista completa dei valori della funzione di appartenenza complementari 1- µ

Ovviamente le due operazioni precedenti - fissazione del dominio e la costruzione delle funzioni di appartenenza del predicato - richiedono che l'osservatore definisca in modo preciso sia un complesso di regole di inclusione sia un criterio di verificazione del predicato.

In generale, le date, o circostanze temporali, saranno chiamate occasioni e restano sovente implicite nell’enunciato. Le occasioni sono un quarto mattone fondamentale della teoria dei dati. In generale, l'occasione può risultare implicita in quanto incorpora nelle regole di inclusione nel criterio di verificazione o semplicemente perché è irrilevante o non pertinente. Questo accade con enunciati atemporali e con gli enunciati che vertono su caratteristiche individuali costanti nel tempo come nero, femmina, nato in famiglia operaia e così via.

Classico concetto di proprietà. Immaginiamo ora una lista di K predicati che rispettino i due seguenti requisiti:

  • Presi nel loro insieme sono esaustivi: qualsiasi elemento del dominio soddisfa almeno un predicato.
  • Presi a due a due sono incompatibili: nessun elemento del dominio può soddisfare due predicati contemporaneamente.
Anteprima
Vedrai una selezione di 6 pagine su 23
Riassunto esame Analisi dei Dati, prof. Ricolfi, libro consigliato Analisi dei dati, Ricolfi Pag. 1 Riassunto esame Analisi dei Dati, prof. Ricolfi, libro consigliato Analisi dei dati, Ricolfi Pag. 2
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Riassunto esame Analisi dei Dati, prof. Ricolfi, libro consigliato Analisi dei dati, Ricolfi Pag. 6
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Riassunto esame Analisi dei Dati, prof. Ricolfi, libro consigliato Analisi dei dati, Ricolfi Pag. 11
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Riassunto esame Analisi dei Dati, prof. Ricolfi, libro consigliato Analisi dei dati, Ricolfi Pag. 16
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Riassunto esame Analisi dei Dati, prof. Ricolfi, libro consigliato Analisi dei dati, Ricolfi Pag. 21
1 su 23
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher federicaborsi di informazioni apprese con la frequenza delle lezioni di Analisi dei dati e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Ricolfi Luca.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community