Estratto del documento

ANALISI DELLE

CORRISPONDENZE

L’Analisi delle corrispondenze costituisce oggi uno dei più noti ed

efficaci strumenti per il trattamento multidimensionale dei dati

qualitativi. L’ AC è a volte presentata come un caso particolare di

Analisi in Componenti Principali, anche se il dominio di applicazione

è diverso dall’ACP.

Nelle sue prime formulazioni l’AC era rivolta allo studio delle

relazioni esistenti tra gli elementi di due insiemi rappresentati dalle

modalità di due caratteri riportati sulle righe e sulle colonne di una

tabella di contingenza (Analisi delle Corrispondenze Binarie).

Successivamente, il metodo si è dapprima esteso al caso di più

variabili qualitative e quindi ad un approccio di tipo non simmetrico.

L’AC opera su tabelle di contingenza e fornisce delle descrizioni di

tabella che presentano una codifica discontinua.

L’utilizzatore si trova così di fronte a tabelle, chiamate anche di

dipendenza o incrociate, in cui ad ogni coppia di numeri (i,j)

corrisponde un numero positivo n che è, in generale una frequenza.

ij

OBIETTIVI

L’Analisi delle Corrispondenze permette di decomporre una tabella

a due o più entrate in una serie di fattori ciascuno dei quali

rappresenta un aspetto latente del tipo di associazione presente

nei dati. Essa permette di rappresentare graficamente le relazioni

di interdipendenza tra i due caratteri, fornendo al contempo la

possibilità di una lettura analitica di tali relazioni "senza imporre

vincoli di antecedenza e conseguenza logica" tra gli stessi.

TABELLA DI CONTINGENZA let.

donnn giovani adulti (35- anziani ceti intellettua pensionat casalingh capoluog

uomini e res. acquisti (18-24) 44) (+65) superiori ceti medi li operai i e hi

COR_SERA 58,10031,900 35,000 14,200 19,000 12,500 10,000 31,400 20,700 9,500 18,900 9,500 42,200

GAZ_MEZ 70,10029,900 22,400 17,400 18,400 9,000 5,300 32,000 21,500 15,300 17,700 7,700 34,300

IL_GIORN 59,30040,700 37,900 13,900 15,300 19,000 13,700 27,300 19,300 6,800 22,800 10,200 46,200

G_SICIL 65,50034,500 26,100 13,300 21,200 8,800 7,200 31,100 18,900 10,400 21,800 10,600 50,900

GIORNO 59,90040,100 34,300 13,100 22,400 8,000 3,900 30,500 15,700 22,600 18,200 9,100 24,000

INDIPENDENTE 68,40031,600 31,600 14,900 20,700 8,000 10,100 40,300 18,000 9,800 15,400 6,400 37,100

MANIFESTO 56,30043,700 36,600 18,100 20,500 7,100 9,100 37,800 29,500 7,500 11,800 5,100 51,600

MATTINO 64,10035,900 28,100 16,600 18,200 10,100 5,700 29,200 20,900 12,400 20,100 11,900 37,700

MESSAGGERO 59,90040,100 33,800 14,100 20,800 10,800 6,800 31,400 17,900 12,800 18,500 12,400 64,900

NAZIONE 59,00041,000 32,100 13,900 19,000 12,500 5,100 32,800 13,200 17,500 21,200 10,200 36,100

REPUBBLICA 59,50040,500 34,200 13,800 23,100 8,000 11,600 33,800 23,900 8,700 14,400 7,500 51,100

CARLINO 59,40040,600 36,000 12,700 16,900 16,500 6,200 32,900 11,600 16,000 26,100 7,300 38,800

SECOLO XIX 53,60046,400 43,600 12,000 15,600 20,800 3,800 25,600 11,900 12,000 29,800 17,000 61,600

SICILIA 70,00030,000 24,600 16,800 17,400 7,800 6,800 31,600 15,600 16,200 19,000 10,600 36,600

STAMPA 55,70044,300 40,000 12,600 17,600 15,100 5,200 29,900 15,000 14,600 25,800 9,500 35,100

SARDEGNA 58,90041,100 31,100 17,500 16,800 11,200 3,300 24,100 19,300 15,300 22,300 15,300 31,300

UNITA 69,80030,300 32,500 9,300 23,600 13,700 5,700 30,800 14,900 19,600 22,700 6,500 39,900

Obiettivo dell'Analisi Corrispondenze è Studiare la struttura della interdipendenza tra la Variabile X

(Testata Giornalistica) e la Variabile Y (Categoria Lettori) analizzando le corrispondenze tra gli elementi

dei due insiemi. Per il ruolo Simmetrico assegnato alle due variabili, la tabella di contingenza ha la

particolarità di poter essere letta sia per riga che per colonna.

Ad ogni coppia (i,j) corrisponde un numero positivo nij che è una FREQUENZA.

L'AC è anche detta analisi delle "Corrispondenze Binarie", riferendosi l'aggettivo appunto all'incontro dei

due insiemi X e Y, per definizione finiti, i cui ruoli sono Identici, anche se la loro origine può essere

diversa.

Dalla tabella di contingenza è possibile ottenere le "Tabelle dei Profili" per Riga e per Colonna.

Dalla tabella Profili Righe è possibile conoscere come è composta per ciascuna testata la platea dei

lettori, mentre nella tabella profili colonna è possibile conoscere immediatamente, per ogni fascia di

età, la percentuale (se si opera sulle frequenze relative) o il numero (se si opera sui dati originari) di

persone che leggono ciascuna testata (ipotizzando che ciascun individuo scelga UN SOLO giornale). I

marginali di riga e colonna di queste due tabelle riportano rispettivamente i Profili Medi di riga e

colonna, utile per confrontare ed evidenziare le differenze di comportamento delle diverse categorie di

lettori rispetto al comportamento "atteso" rappresentato dal profilo medio.

Il Profilo medio risulta essere una "media Ponderata" dei singoli profili, con pesi definiti dalle

corrispondenti masse.

Operare con le matrici dei profili riga e colonna, cioè dati la cui somma, per riga e per colonna è

vincolata, porta alla perdita di una dimensione nei rispettivi spazi di riferimento: sarà possibile quindi

rappresentare i profili riga e profili colonna in spazi di dimensione (c-1) e (r-1), essendo Rc la nube degli

r profili RIGA generata dalle c modalità della variabile Y ed Rr la nube degli c profili colonna generata

dalle r modalità dell'insieme X.

DIFFERENZE CON L’ANALISI IN COMPONENTI PRINCIPALI

A differenza dell' ACP, dove ogni punto-individuo è caratterizzato da un peso

costante =1/n, nell' AC, ciascun punto è munito di una massa pari al rapporto

tra il rispettivo marginale ed il totale generale della tabella: in tal modo,

l'informazione relativa delle singole righe e colonne è CONSERVATA.

In ACP, l'operazione di centratura ed eventualmente di standardizzazione

viene effettuata sulle COLONNE della matrice originaria: in questo modo le

coordinate in Rp possono essere ottenute dalla trasposta della tabella delle

coordinate in Rn, ovvero, trasformazioni diverse dei dati iniziali portano ad

una stessa formulazione analitica; in AC, le variabili giocano ruoli simmetrici

poiché sono messe in corrispondenza , le stesse trasformazioni nei due spazi

conducono a formulazioni analitiche diverse: le coordinate nei due spazi sono

contenute in due matrici diverse.

TEST D’INDIPENDENZA

Chi-quadro (Valore osservato) 198,106

Chi-quadro (Valore critico) 225,329

GDL 192

p-value 0,366

alfa 0,05

Interpretazione del

testo:

H0: Le righe e le colonne della tabella sono

indipendenti.

Ha: C'è un legame tra le righe e le colonne della

tabella.

Considerando che il p-value calcolato è superiore al livello di significazione della soglia alfa=0,05, non è possibile rifiutare l'ipotesi nulla H0.

Il rischio di rifiutare l'ipotesi nulla H0 mentre è vera è 36,61%.

Poiché operiamo su tabelle dei profili, occorre utilizzare una metrica diversa da quella

classica (euclidea) poiché la DISTANZA, ad esempio tra due profili riga risulterebbe

alterata dall'eccessiva importanza delle modalità con un forte campo di variazione e,

viceversa dal minor peso delle modalità per le quali le variazioni sono minori.

Per superare questo problema occorre PONDERARE ciascuna colonna dando maggior

peso alle modalità che si presentano con minore frequenza.

La metrica del chi-quadrato è adeguata a questo scopo.

2

f f

 

c ij i j

  Metrica euclidea

 

d i , i  

 

 

f f

j 1  

 i . i .

 2

f f

c  

1 ij i j

   

d i , i  

  Metrica del chi-quadro

 

f f f

 

j 1

 . j i . i .

PROPRIETA’ DELLA METRICA DEL CHI-QUADRO

La metrica del chi-quadrato gode della proprietà dell' EQUIVALENZA

DISTRIBUTIVA, per cui, se due profili riga uguali o proporzionali vengono aggregati

in un unico profilo riga con massa pari alla somma delle masse, la configurazione

dei punti in Rc non cambia, né si modificano le distanze tra i profili colonna in Rr.

(La stessa proprietà vale se vogliamo calcolare distanza fra due profili colonna: in

tal caso andranno ponderate le righe).

L'utilità di questa proprietà è che permette di raggruppare più RIGHE (COLONNE)

senza perdita o modifica di informazione iniziale, riducendo le dimensioni dello

spazio di riferimento.

"INVARIABILITA' DEI RISULTATI INDIPENDENTEMENTE DA COME

LE VARIABILI SONO ORIGINARIAMENTE CODIFICATE":

non si ha alcuna perdita di informazione se si aggregano

modalità né alcun guadagno dal suddividerle in categorie

omogenee.

Tuttavia, modalità con frequenze molto basse tendono a

condizionare pesantemente le distanze, giacché il reciproco di un

numero (il peso) molto piccolo tende ad "esplodere".

TEST DEL CHI-QUADRO

Il test del chi-quadro serve a stabilire il grado di interdipendenza che esiste tra i

caratteri considerati. E' basato sulla distribuzione della variabile casuale

definita dalla "somma dei quadrati delle differenze tra i valori osservati e i

valori teorici rapportati ai valori teorici, avendo posto come IPOTESI NULLA H0

l' INDIPENDENZA tra i caratteri. (I valori teorici sono ottenuti dal prodotto dei

marginali rigaxcolonna di ciascun punto fratto il totale generale).

L'Ipotesi nulla sarà rifiutata o meno sulla base del "confronto tra il valore

Ottenuto e il valore Teorico riportato sulle tavole in corrispondenza ad un

fissato livello di Confidenza e dei gradi di libertà g=(r-1)(c-1).

Nel nostro caso, se rifiutassimo l'ipotesi Nulla H0 , avremmo il 36,61% di

possibilità di sbagliare. Non è , infatti, possibile dire che righe e colonne non

sono indipendenti. Il chi-quadro non è significativo,ma ricordiamo che

l

Anteprima
Vedrai una selezione di 9 pagine su 36
Data mining-analisi delle corrispondenze Pag. 1 Data mining-analisi delle corrispondenze Pag. 2
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Data mining-analisi delle corrispondenze Pag. 6
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Data mining-analisi delle corrispondenze Pag. 11
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Data mining-analisi delle corrispondenze Pag. 16
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Data mining-analisi delle corrispondenze Pag. 21
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Data mining-analisi delle corrispondenze Pag. 26
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Data mining-analisi delle corrispondenze Pag. 31
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Data mining-analisi delle corrispondenze Pag. 36
1 su 36
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher paolomaz di informazioni apprese con la frequenza delle lezioni di Data mining e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Napoli Federico II o del prof Davino Cristina.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community