ANALISI DELLE
CORRISPONDENZE
L’Analisi delle corrispondenze costituisce oggi uno dei più noti ed
efficaci strumenti per il trattamento multidimensionale dei dati
qualitativi. L’ AC è a volte presentata come un caso particolare di
Analisi in Componenti Principali, anche se il dominio di applicazione
è diverso dall’ACP.
Nelle sue prime formulazioni l’AC era rivolta allo studio delle
relazioni esistenti tra gli elementi di due insiemi rappresentati dalle
modalità di due caratteri riportati sulle righe e sulle colonne di una
tabella di contingenza (Analisi delle Corrispondenze Binarie).
Successivamente, il metodo si è dapprima esteso al caso di più
variabili qualitative e quindi ad un approccio di tipo non simmetrico.
L’AC opera su tabelle di contingenza e fornisce delle descrizioni di
tabella che presentano una codifica discontinua.
L’utilizzatore si trova così di fronte a tabelle, chiamate anche di
dipendenza o incrociate, in cui ad ogni coppia di numeri (i,j)
corrisponde un numero positivo n che è, in generale una frequenza.
ij
OBIETTIVI
L’Analisi delle Corrispondenze permette di decomporre una tabella
a due o più entrate in una serie di fattori ciascuno dei quali
rappresenta un aspetto latente del tipo di associazione presente
nei dati. Essa permette di rappresentare graficamente le relazioni
di interdipendenza tra i due caratteri, fornendo al contempo la
possibilità di una lettura analitica di tali relazioni "senza imporre
vincoli di antecedenza e conseguenza logica" tra gli stessi.
TABELLA DI CONTINGENZA let.
donnn giovani adulti (35- anziani ceti intellettua pensionat casalingh capoluog
uomini e res. acquisti (18-24) 44) (+65) superiori ceti medi li operai i e hi
COR_SERA 58,10031,900 35,000 14,200 19,000 12,500 10,000 31,400 20,700 9,500 18,900 9,500 42,200
GAZ_MEZ 70,10029,900 22,400 17,400 18,400 9,000 5,300 32,000 21,500 15,300 17,700 7,700 34,300
IL_GIORN 59,30040,700 37,900 13,900 15,300 19,000 13,700 27,300 19,300 6,800 22,800 10,200 46,200
G_SICIL 65,50034,500 26,100 13,300 21,200 8,800 7,200 31,100 18,900 10,400 21,800 10,600 50,900
GIORNO 59,90040,100 34,300 13,100 22,400 8,000 3,900 30,500 15,700 22,600 18,200 9,100 24,000
INDIPENDENTE 68,40031,600 31,600 14,900 20,700 8,000 10,100 40,300 18,000 9,800 15,400 6,400 37,100
MANIFESTO 56,30043,700 36,600 18,100 20,500 7,100 9,100 37,800 29,500 7,500 11,800 5,100 51,600
MATTINO 64,10035,900 28,100 16,600 18,200 10,100 5,700 29,200 20,900 12,400 20,100 11,900 37,700
MESSAGGERO 59,90040,100 33,800 14,100 20,800 10,800 6,800 31,400 17,900 12,800 18,500 12,400 64,900
NAZIONE 59,00041,000 32,100 13,900 19,000 12,500 5,100 32,800 13,200 17,500 21,200 10,200 36,100
REPUBBLICA 59,50040,500 34,200 13,800 23,100 8,000 11,600 33,800 23,900 8,700 14,400 7,500 51,100
CARLINO 59,40040,600 36,000 12,700 16,900 16,500 6,200 32,900 11,600 16,000 26,100 7,300 38,800
SECOLO XIX 53,60046,400 43,600 12,000 15,600 20,800 3,800 25,600 11,900 12,000 29,800 17,000 61,600
SICILIA 70,00030,000 24,600 16,800 17,400 7,800 6,800 31,600 15,600 16,200 19,000 10,600 36,600
STAMPA 55,70044,300 40,000 12,600 17,600 15,100 5,200 29,900 15,000 14,600 25,800 9,500 35,100
SARDEGNA 58,90041,100 31,100 17,500 16,800 11,200 3,300 24,100 19,300 15,300 22,300 15,300 31,300
UNITA 69,80030,300 32,500 9,300 23,600 13,700 5,700 30,800 14,900 19,600 22,700 6,500 39,900
Obiettivo dell'Analisi Corrispondenze è Studiare la struttura della interdipendenza tra la Variabile X
(Testata Giornalistica) e la Variabile Y (Categoria Lettori) analizzando le corrispondenze tra gli elementi
dei due insiemi. Per il ruolo Simmetrico assegnato alle due variabili, la tabella di contingenza ha la
particolarità di poter essere letta sia per riga che per colonna.
Ad ogni coppia (i,j) corrisponde un numero positivo nij che è una FREQUENZA.
L'AC è anche detta analisi delle "Corrispondenze Binarie", riferendosi l'aggettivo appunto all'incontro dei
due insiemi X e Y, per definizione finiti, i cui ruoli sono Identici, anche se la loro origine può essere
diversa.
Dalla tabella di contingenza è possibile ottenere le "Tabelle dei Profili" per Riga e per Colonna.
Dalla tabella Profili Righe è possibile conoscere come è composta per ciascuna testata la platea dei
lettori, mentre nella tabella profili colonna è possibile conoscere immediatamente, per ogni fascia di
età, la percentuale (se si opera sulle frequenze relative) o il numero (se si opera sui dati originari) di
persone che leggono ciascuna testata (ipotizzando che ciascun individuo scelga UN SOLO giornale). I
marginali di riga e colonna di queste due tabelle riportano rispettivamente i Profili Medi di riga e
colonna, utile per confrontare ed evidenziare le differenze di comportamento delle diverse categorie di
lettori rispetto al comportamento "atteso" rappresentato dal profilo medio.
Il Profilo medio risulta essere una "media Ponderata" dei singoli profili, con pesi definiti dalle
corrispondenti masse.
Operare con le matrici dei profili riga e colonna, cioè dati la cui somma, per riga e per colonna è
vincolata, porta alla perdita di una dimensione nei rispettivi spazi di riferimento: sarà possibile quindi
rappresentare i profili riga e profili colonna in spazi di dimensione (c-1) e (r-1), essendo Rc la nube degli
r profili RIGA generata dalle c modalità della variabile Y ed Rr la nube degli c profili colonna generata
dalle r modalità dell'insieme X.
DIFFERENZE CON L’ANALISI IN COMPONENTI PRINCIPALI
A differenza dell' ACP, dove ogni punto-individuo è caratterizzato da un peso
costante =1/n, nell' AC, ciascun punto è munito di una massa pari al rapporto
tra il rispettivo marginale ed il totale generale della tabella: in tal modo,
l'informazione relativa delle singole righe e colonne è CONSERVATA.
In ACP, l'operazione di centratura ed eventualmente di standardizzazione
viene effettuata sulle COLONNE della matrice originaria: in questo modo le
coordinate in Rp possono essere ottenute dalla trasposta della tabella delle
coordinate in Rn, ovvero, trasformazioni diverse dei dati iniziali portano ad
una stessa formulazione analitica; in AC, le variabili giocano ruoli simmetrici
poiché sono messe in corrispondenza , le stesse trasformazioni nei due spazi
conducono a formulazioni analitiche diverse: le coordinate nei due spazi sono
contenute in due matrici diverse.
TEST D’INDIPENDENZA
Chi-quadro (Valore osservato) 198,106
Chi-quadro (Valore critico) 225,329
GDL 192
p-value 0,366
alfa 0,05
Interpretazione del
testo:
H0: Le righe e le colonne della tabella sono
indipendenti.
Ha: C'è un legame tra le righe e le colonne della
tabella.
Considerando che il p-value calcolato è superiore al livello di significazione della soglia alfa=0,05, non è possibile rifiutare l'ipotesi nulla H0.
Il rischio di rifiutare l'ipotesi nulla H0 mentre è vera è 36,61%.
Poiché operiamo su tabelle dei profili, occorre utilizzare una metrica diversa da quella
classica (euclidea) poiché la DISTANZA, ad esempio tra due profili riga risulterebbe
alterata dall'eccessiva importanza delle modalità con un forte campo di variazione e,
viceversa dal minor peso delle modalità per le quali le variazioni sono minori.
Per superare questo problema occorre PONDERARE ciascuna colonna dando maggior
peso alle modalità che si presentano con minore frequenza.
La metrica del chi-quadrato è adeguata a questo scopo.
2
f f
c ij i j
Metrica euclidea
d i , i
f f
j 1
i . i .
2
f f
c
1 ij i j
d i , i
Metrica del chi-quadro
f f f
j 1
. j i . i .
PROPRIETA’ DELLA METRICA DEL CHI-QUADRO
La metrica del chi-quadrato gode della proprietà dell' EQUIVALENZA
DISTRIBUTIVA, per cui, se due profili riga uguali o proporzionali vengono aggregati
in un unico profilo riga con massa pari alla somma delle masse, la configurazione
dei punti in Rc non cambia, né si modificano le distanze tra i profili colonna in Rr.
(La stessa proprietà vale se vogliamo calcolare distanza fra due profili colonna: in
tal caso andranno ponderate le righe).
L'utilità di questa proprietà è che permette di raggruppare più RIGHE (COLONNE)
senza perdita o modifica di informazione iniziale, riducendo le dimensioni dello
spazio di riferimento.
"INVARIABILITA' DEI RISULTATI INDIPENDENTEMENTE DA COME
LE VARIABILI SONO ORIGINARIAMENTE CODIFICATE":
non si ha alcuna perdita di informazione se si aggregano
modalità né alcun guadagno dal suddividerle in categorie
omogenee.
Tuttavia, modalità con frequenze molto basse tendono a
condizionare pesantemente le distanze, giacché il reciproco di un
numero (il peso) molto piccolo tende ad "esplodere".
TEST DEL CHI-QUADRO
Il test del chi-quadro serve a stabilire il grado di interdipendenza che esiste tra i
caratteri considerati. E' basato sulla distribuzione della variabile casuale
definita dalla "somma dei quadrati delle differenze tra i valori osservati e i
valori teorici rapportati ai valori teorici, avendo posto come IPOTESI NULLA H0
l' INDIPENDENZA tra i caratteri. (I valori teorici sono ottenuti dal prodotto dei
marginali rigaxcolonna di ciascun punto fratto il totale generale).
L'Ipotesi nulla sarà rifiutata o meno sulla base del "confronto tra il valore
Ottenuto e il valore Teorico riportato sulle tavole in corrispondenza ad un
fissato livello di Confidenza e dei gradi di libertà g=(r-1)(c-1).
Nel nostro caso, se rifiutassimo l'ipotesi Nulla H0 , avremmo il 36,61% di
possibilità di sbagliare. Non è , infatti, possibile dire che righe e colonne non
sono indipendenti. Il chi-quadro non è significativo,ma ricordiamo che
l
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Data mining- Analisi delle Corrispondenze Multiple
-
Appunti completi - Data Science
-
Quiz data mining
-
Data mining - domande aperte