ACM
ANALISI DELLE CORRISPONDENZE
MULTIPLE
INTRODUZIONE
L’ACM è una procedura introdotta negli anni ’70 ad opera della scuola francese di analisi
dei dati (Benzecrì), inizialmente, rivolta allo studio di relazioni esistenti tra gli elementi di
due insiemi rappresentati dalle modalità di due caratteri (riportate sulle righe e sulle
colonne di una tabella di contingenza). Successivamente, è stata applicata a tabelle
contenenti informazioni relative ad un numero elevato di variabili e, quindi, ad un
approccio di tipo non simmetrico. L’ ACM è uno dei metodi per l’analisi di variabili
qualitative o miste e ha un vastissimo campo di applicazione essendo adatto all’analisi dei
dati d’ inchiesta e alla descrizione di tabelle di grandi dimensioni. Di solito, la matrice di
partenza è una matrice individui-variabili, dove le righe rappresentano gli individui o le
osservazioni e le colonne rappresentano le modalità delle variabili. L’Analisi delle
Corrispondenze Multiple rappresenta uno strumento per lo studio delle relazioni tra p
caratteri statistici qualitativi o misti, ognuno caratterizzato da m modalità (j=1,. . . ,p).
Un’applicazione molto comune per l’ACM è la visualizzazione dei risultati di un’indagine via
questionario (domande in forma chiusa).
OBIETTIVI
L’ obiettivo dell’ACM è quello d’ individuare le associazioni che
• possono sussistere tra più variabili qualitative osservate su un
collettivo di unità statistiche.
L’insieme di dati che utilizzeremo per presentare un’applicazione
• ACM è costituito da 40 laureati della facoltà di economia
dell’università di Napoli che hanno risposto ad un questionario da
cui sono state estratte 8 variabili. L’ACM, come l’ACP, è una tecnica
fattoriale e ha lo scopo di sintetizzare le relazioni che intercorrono
fra numerose variabili sottoposte ad analisi simultanea, allo scopo
di riprodurne il patrimonio informativo in uno spazio “ottimale”, in
un numero minore di variabili sintetiche (fattori), che siano sintesi
dell’informazione strutturale contenuta nei dati originari. Tramite
l’ACM è possibile riassumere l’intreccio delle relazioni di
“interdipendenza” tra le variabili in un ristretto numero di variabili.
MATRICE DEI DATI
Osservazione voto.di.laurea genere residenza età.attuale diploma frequenza.ai.corsi mat.della.tesi.di.laurea durante.gli.studi
13 voti tra 96 e 105 maschio napoli tra 26 e 30 anni maturità classica oltre il 50% altre materie lavoro part-time
27 voti tra 96 e 105 femmina napoli oltre 30 anni diploma tecnico solo per esami materie giuridiche lavoro part-time
34 voti tra 96 e 105 maschio altre province tra 26 e 30 anni maturità scientifica meno del 30% materie giuridiche studente
38 voti tra 96 e 105 maschio napoli tra 26 e 30 anni maturità classica tra il 30% ed il 50% materie aziendali lavoro part-time
43 voto 110 e lode maschio napoli tra 26 e 30 anni maturità scientifica tra il 30% ed il 50% materie aziendali lavoro part-time
42 voti minori di 96 maschio napoli tra 26 e 30 anni maturità classica tra il 30% ed il 50% altre materie lavoro stabile
47 voti minori di 96 maschio altre province oltre 30 anni maturità scientifica meno del 30% materie economiche lavoro part-time
18 voti tra 96 e 105 maschio napoli tra 26 e 30 anni maturità classica tra il 30% ed il 50% materie giuridiche studente
37 voti tra 96 e 105 femmina napoli tra 26 e 30 anni diploma tecnico solo per esami materie giuridiche studente
30 voti tra 96 e 105 femmina altre province tra 26 e 30 anni maturità scientifica tra il 30% ed il 50% materie economiche studente
22 voti tra 106 e 110 femmina altre province tra 26 e 30 anni maturità classica meno del 30% altre materie studente
7 voto 110 e lode maschio napoli tra 26 e 30 anni maturità classica meno del 30% materie aziendali studente
8 voti minori di 96 maschio altre province tra 26 e 30 anni maturità scientifica tra il 30% ed il 50% materie giuridiche studente
24 voti tra 96 e 105 maschio altre province tra 26 e 30 anni maturità scientifica meno del 30% materie economiche studente
28 voti minori di 96 femmina altre province tra 26 e 30 anni maturità scientifica solo per esami materie aziendali studente
40 voti tra 96 e 105 femmina napoli tra 26 e 30 anni altri diplomi tra il 30% ed il 50% materie economiche studente
20 voti tra 96 e 105 maschio napoli tra 26 e 30 anni diploma tecnico meno del 30% materie economiche studente
33 voto 110 e lode maschio napoli tra 26 e 30 anni diploma tecnico oltre il 50% materie economiche studente
29 voti tra 96 e 105 maschio napoli tra 26 e 30 anni maturità scientifica solo per esami altre materie lavoro stabile
6 voti tra 96 e 105 maschio napoli tra 26 e 30 anni maturità scientifica meno del 30% altre materie lavoro stabile
1 voti minori di 96 femmina provincia di napoli oltre 30 anni maturità scientifica meno del 30% materie giuridiche lavoro part-time
25 voti tra 96 e 105 maschio provincia di napoli tra 26 e 30 anni diploma tecnico oltre il 50% materie quantitative studente
14 voti minori di 96 maschio provincia di napoli tra 26 e 30 anni maturità scientifica tra il 30% ed il 50% materie economiche studente
50 voti tra 96 e 105 maschio napoli oltre 30 anni maturità scientifica tra il 30% ed il 50% materie aziendali lavoro stabile
17 voti tra 96 e 105 maschio napoli oltre 30 anni diploma tecnico tra il 30% ed il 50% materie giuridiche lavoro stabile
45 voto 110 e lode femmina napoli minore di 26 anni maturità classica meno del 30% materie aziendali lavoro part-time
41 voti tra 96 e 105 maschio napoli oltre 30 anni maturità classica tra il 30% ed il 50% altre materie lavoro part-time
5 voti tra 96 e 105 femmina napoli tra 26 e 30 anni altri diplomi oltre il 50% materie economiche studente
4 voto 110 e lode femmina provincia di napoli minore di 26 anni maturità scientifica oltre il 50% materie quantitative lavoro part-time
32 voti tra 96 e 105 maschio napoli tra 26 e 30 anni maturità scientifica tra il 30% ed il 50% materie giuridiche lavoro part-time
23 voti tra 96 e 105 maschio napoli tra 26 e 30 anni maturità scientifica tra il 30% ed il 50% materie giuridiche studente
16 voti tra 106 e 110 maschio napoli tra 26 e 30 anni maturità scientifica solo per esami materie giuridiche lavoro part-time
11 voti minori di 96 maschio napoli oltre 30 anni diploma tecnico meno del 30% materie giuridiche lavoro stabile
35 voti tra 96 e 105 maschio provincia di napoli tra 26 e 30 anni maturità scientifica tra il 30% ed il 50% materie giuridiche studente
31 voti tra 96 e 105 femmina altre province tra 26 e 30 anni maturità scientifica meno del 30% materie economiche studente
44 voti tra 96 e 105 maschio napoli tra 26 e 30 anni maturità classica tra il 30% ed il 50% materie economiche studente
2 voti tra 106 e 110 femmina altre province minore di 26 anni maturità scientifica tra il 30% ed il 50% materie quantitative studente
39 voti tra 96 e 105 maschio napoli oltre 30 anni diploma tecnico meno del 30% materie aziendali lavoro stabile
36 voti tra 96 e 105 femmina provincia di napoli tra 26 e 30 anni altri diplomi tra il 30% ed il 50% materie aziendali studente
3 voti minori di 96 maschio provincia di napoli oltre 30 anni maturità scientifica meno del 30% materie giuridiche lavoro stabile
STATISTICHE DESCRITTIVE
Variabile Modalità Frequenze %
voto.di.laurea voti minori di 96 8 20,000
voti tra 106 e 110 3 7,500
voti tra 96 e 105 24 60,000
voto 110 e lode 5 12,500
genere femmina 13 32,500
maschio 27 67,500
residenza altre province 9 22,500
napoli 24 60,000
provincia di napoli 7 17,500
età.attuale minore di 26 anni 3 7,500
oltre 30 anni 9 22,500
tra 26 e 30 anni 28 70,000
diploma altri diplomi 3 7,500
diploma tecnico 8 20,000
maturità classica 9 22,500
maturità scientifica 20 50,000
frequenza.ai.corsi meno del 30% 13 32,500
oltre il 50% 5 12,500
solo per esami 5 12,500
tra il 30% ed il 50% 17 42,500
mat.della.tesi.di.laurea materie giuridiche 1 2,500
altre materie 6 15,000
materie aziendali 8 20,000
materie economiche 10 25,000
materie giuridiche 12 30,000
materie quantitative 3 7,500
durante.gli.studi lavoro part-time 11 27,500
lavoro stabile 8 20,000
studente 21 52,500
Nelle statistiche descrittive abbiamo le variabili prese in esame tra cui: voto di
laurea, genere, residenza, diploma.
Successivamente vengono descritte le diverse modalità che ciascuna variabile può
assumere e con le relative frequenze.
Si intende per frequenza il numero delle unità statistiche con cui una modalità si
presenta.
Nel nostro caso abbiamo per esempio che dei 40 laureati, 24 hanno conseguito
un voto compreso fra 96 e 105 con una incidenza sul totale (rispetto agli altri voti)
del 60 %.
Lo stesso ragionamento vale per "il genere", infatti, dei 40 laureati ben 27 sono
maschi che rappresentano quindi il 67,5 % degli studenti analizzati, la restante
percentuale invece sono femmine.
Dall’osservazione delle statistiche descrittive si può immediatamente osservare,
essendo un campione sufficientemente numeroso, che la popolazione degli
iscritti ad E&C alla F II sono in gran parte di sesso maschile, superando le donne di
un rapporto di 2:1; la grande maggioranza di essi si laurea con voti mediamente
alti ma solo un’esigua percentuale di essi (7,5%) riesce a stare al passo con gli
esami e a laurearsi prima del compimento del 26esimo anno; inoltre, sebbene più
della metà degli iscritti risieda a Napoli e circa la metà non svolga alcun lavoro
durante il corso di studi, la frequenza ai corsi è generalmente bassa: solo il 12,5 %
degli studenti frequenta assiduamente le lezioni.
La matrice di partenza è una matrice individui-variabili (X) ed il
primo passo consiste nella trasformazione della stessa in una
matrice Z più grande di quella dei dati iniziali (nxp), che prende il
nome di disgiuntiva completa: una matrice con tante righe quante
sono le osservazioni e tante colonne quante sono le modalità di
tutte le variabili. Ogni colonna rappresenterà, quindi, una “nuova
variabile indicatrice’’. Ovvero, ogni variabile dà origine a tante
variabili dicotomiche quante sono le modalità previste.
La variabile assumerà valore 1 se la modalità è presente, avrà un
valore pari a 0 se la modalità è assente.
Tale codifica è detta disgiuntiva completa perché prevede i soli
valori uno e zero (disgiuntiva) e perché per ogni variabile una e una
sola delle modalità deve assumere valore uno, non essendo previste
modalità diverse da quelle considerate (completa).
Geometricamente ogni colonna di Z può essere
• rappresentata come un punto nello spazio di
dimensione n delle unità ed ogni riga come un punto
nello spazio di dimensione p delle modalità. La somma
di ogni riga è pari al numero originario di variabili, la
somma di una generica colonna è pari alla frequenza
della corrispondente modalità, la somma di tutti gli
elementi di Z è pari al prodotto del numero di
osservazioni n con il numero delle variabili originarie p
(nxp). Queste informazioni si desumono dalla lettura
della tabella e dalla presenza del numero 0 e 1 nelle
celle della matrice.
TABELLA DISGIUNTIVA mat.d mat.d mat.d mat.d mat.d
freque ella.te mat.d ella.te ella.te ella.te ella.te
voto.d diplo diplo diplo freque freque nza.ai. si.di.la ella.te si.di.la si.di.la si.di.la si.di.la durant
voto.d i.laure voto.d voto.d reside reside età.att età.att età.att diplo ma- ma- ma- nza.ai. freque nza.ai. corsi- urea- si.di.la urea- urea- urea- urea- e.gli.st durant durant
i.laure a-voti i.laure i.laure genere genere nza- nza- uale- uale- uale- ma- diplo maturi maturi corsi- nza.ai. corsi- tra il materi urea- materi materi materi materi udi- e.gli.st e.gli.st
a-voti tra a-voti a-voto - - altre reside provin minor oltre tra 26 altri ma tà tà meno corsi- solo 30% e altre e e e e lavoro udi- udi-
minori 106 e tra 96 110 e femmi masch provin nza- cia di e di 26 30 e 30 diplo tecnic classic scienti del oltre il per ed il giuridi materi aziend econo giuridi quanti part- lavoro studen
di 96 110 e 105 lode na io ce napoli napoli anni anni anni mi o a fica 30% 50% esami 50% che e ali miche che tative time stabile te
13 0 0 1 0 0 1 0 1 0 0 0 1 0 0 1 0 0 1 0 0 0 1 0 0 0 0 1 0 0
27 0 0 1 0 1 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0
34 0 0 1 0 0 1 1 0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 1
38 0 0 1 0 0 1 0 1 0 0 0 1 0 0 1 0 0 0 0 1 0 0 1 0 0 0 1 0 0
43 0 0 0 1 0 1 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 1 0 0 0 1 0 0
42 1 0 0 0 0 1 0 1 0 0 0 1 0 0 1 0 0 0 0 1 0 1 0 0 0 0 0 1 0
47 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 1 0 0
18 0 0 1 0 0 1 0 1 0 0 0 1 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 1
37 0 0 1 0 1 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 1
30 0 0 1 0 1 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 1
22 0 1 0 0 1 0 1 0 0 0 0 1 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 1
7 0 0 0 1 0 1 0 1 0 0 0 1 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 1
8 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1
24 0 0 1 0 0 1 1 0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 1
28 1 0 0 0 1 0 1 0 0 0 0 1 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 0 1
40 0 0 1 0 1 0 0 1 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1
20 0 0 1 0 0 1 0 1 0 0 0 1 0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1
33 0 0 0 1 0 1 0 1 0 0 0 1 0 1 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1
29 0 0 1 0 0 1 0 1 0 0 0 1 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 1 0
6 0 0 1 0 0 1 0 1 0 0 0 1 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 0
1 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 1 0 0
25 0 0 1 0 0 1 0 0 1 0 0 1 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 1
14 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 1
50 0 0 1 0 0 1 0 1 0 0 1 0 0 0 0 1 0 0 0 1 0 0 1 0 0 0 0 1 0
17 0 0 1 0 0 1 0 1 0 0 1 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0
45 0 0 0 1 1 0 0 1 0 1 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 1 0 0
41 0 0 1 0 0 1 0 1 0 0 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 0 1 0 0
5 0 0 1 0 1 0 0 1 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1
4 0 0 0 1 1 0 0 0 1 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 1 1 0 0
32 0 0 1 0 0 1 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 1 0 1 0 0
23 0 0 1 0 0 1 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1
16 0 1 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 0 1 0 0 0 0 0 1 0 1 0 0
11 1 0 0 0 0 1 0 1 0 0 1 0 0 1 0
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Data mining-analisi delle corrispondenze
-
Appunti completi - Data Science
-
Paniere multiple Data Mining
-
Data Mining- Analisi in Componenti Principali