Anteprima
Vedrai una selezione di 9 pagine su 36
Data mining-analisi delle corrispondenze Pag. 1 Data mining-analisi delle corrispondenze Pag. 2
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Data mining-analisi delle corrispondenze Pag. 6
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Data mining-analisi delle corrispondenze Pag. 11
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Data mining-analisi delle corrispondenze Pag. 16
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Data mining-analisi delle corrispondenze Pag. 21
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Data mining-analisi delle corrispondenze Pag. 26
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Data mining-analisi delle corrispondenze Pag. 31
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Data mining-analisi delle corrispondenze Pag. 36
1 su 36
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

DIFFERENZE CON L’ANALISI IN COMPONENTI PRINCIPALI

A differenza dell' ACP, dove ogni punto-individuo è caratterizzato da un peso

costante =1/n, nell' AC, ciascun punto è munito di una massa pari al rapporto

tra il rispettivo marginale ed il totale generale della tabella: in tal modo,

l'informazione relativa delle singole righe e colonne è CONSERVATA.

In ACP, l'operazione di centratura ed eventualmente di standardizzazione

viene effettuata sulle COLONNE della matrice originaria: in questo modo le

coordinate in Rp possono essere ottenute dalla trasposta della tabella delle

coordinate in Rn, ovvero, trasformazioni diverse dei dati iniziali portano ad

una stessa formulazione analitica; in AC, le variabili giocano ruoli simmetrici

poiché sono messe in corrispondenza , le stesse trasformazioni nei due spazi

conducono a formulazioni analitiche diverse: le coordinate nei due spazi sono

contenute in due matrici diverse.

TEST D’INDIPENDENZA

Chi-quadro (Valore osservato) 198,106

Chi-quadro (Valore critico) 225,329

GDL 192

p-value 0,366

alfa 0,05

Interpretazione del

testo:

H0: Le righe e le colonne della tabella sono

indipendenti.

Ha: C'è un legame tra le righe e le colonne della

tabella.

Considerando che il p-value calcolato è superiore al livello di significazione della soglia alfa=0,05, non è possibile rifiutare l'ipotesi nulla H0.

Il rischio di rifiutare l'ipotesi nulla H0 mentre è vera è 36,61%.

Poiché operiamo su tabelle dei profili, occorre utilizzare una metrica diversa da quella

classica (euclidea) poiché la DISTANZA, ad esempio tra due profili riga risulterebbe

alterata dall'eccessiva importanza delle modalità con un forte campo di variazione e,

viceversa dal minor peso delle modalità per le quali le variazioni sono minori.

Per superare questo problema occorre PONDERARE ciascuna colonna dando maggior

peso alle modalità che si presentano con minore frequenza.

La metrica del chi-quadrato è adeguata a questo scopo.

2

f f

 

c ij i j

  Metrica euclidea

 

d i , i  

 

 

f f

j 1  

 i . i .

 2

f f

c  

1 ij i j

   

d i , i  

  Metrica del chi-quadro

 

f f f

 

j 1

 . j i . i .

PROPRIETA’ DELLA METRICA DEL CHI-QUADRO

La metrica del chi-quadrato gode della proprietà dell' EQUIVALENZA

DISTRIBUTIVA, per cui, se due profili riga uguali o proporzionali vengono aggregati

in un unico profilo riga con massa pari alla somma delle masse, la configurazione

dei punti in Rc non cambia, né si modificano le distanze tra i profili colonna in Rr.

(La stessa proprietà vale se vogliamo calcolare distanza fra due profili colonna: in

tal caso andranno ponderate le righe).

L'utilità di questa proprietà è che permette di raggruppare più RIGHE (COLONNE)

senza perdita o modifica di informazione iniziale, riducendo le dimensioni dello

spazio di riferimento.

"INVARIABILITA' DEI RISULTATI INDIPENDENTEMENTE DA COME

LE VARIABILI SONO ORIGINARIAMENTE CODIFICATE":

non si ha alcuna perdita di informazione se si aggregano

modalità né alcun guadagno dal suddividerle in categorie

omogenee.

Tuttavia, modalità con frequenze molto basse tendono a

condizionare pesantemente le distanze, giacché il reciproco di un

numero (il peso) molto piccolo tende ad "esplodere".

TEST DEL CHI-QUADRO

Il test del chi-quadro serve a stabilire il grado di interdipendenza che esiste tra i

caratteri considerati. E' basato sulla distribuzione della variabile casuale

definita dalla "somma dei quadrati delle differenze tra i valori osservati e i

valori teorici rapportati ai valori teorici, avendo posto come IPOTESI NULLA H0

l' INDIPENDENZA tra i caratteri. (I valori teorici sono ottenuti dal prodotto dei

marginali rigaxcolonna di ciascun punto fratto il totale generale).

L'Ipotesi nulla sarà rifiutata o meno sulla base del "confronto tra il valore

Ottenuto e il valore Teorico riportato sulle tavole in corrispondenza ad un

fissato livello di Confidenza e dei gradi di libertà g=(r-1)(c-1).

Nel nostro caso, se rifiutassimo l'ipotesi Nulla H0 , avremmo il 36,61% di

possibilità di sbagliare. Non è , infatti, possibile dire che righe e colonne non

sono indipendenti. Il chi-quadro non è significativo,ma ricordiamo che

l’obiettivo dell’AC è quello di individuare fattori(assi) che spiegano la variabilità

della nuvola dei profili. Formule

Formula del chi-quadro

 

2

ˆ

n n

ij ij 2

 

     

r 1 c 1

 

ˆ

n

i j ij n n

i . . j

ˆ

n 

ij n Generico valore teorico

AUTOVALORI E PERCENTUALI D’INERZIA

F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12

Autovalore 0,013 0,011 0,004 0,003 0,003 0,001 0,001 0,000 0,000 0,000 0,000 0,000

Inerzia (%) 35,069 30,759 10,781 9,248 7,602 2,275 2,010 1,028 0,860 0,201 0,160 0,007

% cumulata 35,069 65,828 76,608 85,856 93,459 95,734 97,743 98,772 99,632 99,833 99,993 100,000

Selezioniamo i primi due autovalori, nonostante la percentuale di inerzia cumulata spiegata da questi due

sia non altissima (66%).

un autovalore rappresenta una misura di variabilità del k-esimo asse fattoriale sul quale si proiettano i

punti. Tutti gli autovalori che non siano l' "autovalore banale" sono minori di 1 poiché ciascuno indica l'

INERZIA dei punti proiettati sugli assi principali, sugli iperpiani e gli assi passanti per l'origine. L'inerzia

assume valore MASSIMO=1 solo per l'Autovalore Banale, cioè quello corrispondente al Vettore Og di

lunghezza unitaria, ortogonale al piano di supporto: l'inerzia della nube di punti, infatti, rispetto all'origine

è uguale a 1, poiché tutti i punti proiettati coincidono con il baricentro g.

Il numero massimo, quindi, di autovalori significativi è pari a (c-1) e la loro somma riproduce l' Inerzia della

nube di punti. Nel nostro caso,sono 13 categorie,colonne. Sono 12 autovalori significativi che

spiegheranno l’inerzia totale della nube

Condurre l'analisi sugli c profili colonna nello spazio Rr porta agli stessi risultati dell'analisi in Rc sui profili

riga. L'inerzia assume valore massimo unitario solo per

• l'autovalore banale, che può essere trascurato, poiché

non apporta informazione al tipo di associazione

Sapendo che l’inerzia è pari a:

• =∑ = ( ) − 1 = 2/

• Avremo che: ( ) = 1 + 2/N²

• Rappresentando 1 l’autovalore banale (non preso in

• considerazione) ed essendo 2 / pari a φ 2 (quantità

compresa fra 0 ed 1) ciò che facciamo è proprio

decomporre una quantità compresa nell’intervallo

[0,1]. Per tale motivo, quindi, gli autovalori saranno

tutti minori di 1. Scree plot

0,014 100

0,012 80

0,01 60

0,008

Autovalore (%)

Inerzia

0,006 40

0,004 20

0,002

0 0

F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12

asse

RISULTATI PER LE RIGHE

Peso (relativo) Distanza Distanza² Inerzia Inerzia relativa

COR_SERA 0,058 0,114 0,013 0,00075 0,021

GAZ_MEZ 0,055 0,188 0,035 0,00196 0,054

IL_GIORN 0,061 0,220 0,048 0,00296 0,081

G_SICIL 0,059 0,132 0,017 0,00102 0,028

GIORNO 0,055 0,247 0,061 0,00339 0,093

INDIPENDENTE 0,057 0,189 0,036 0,00204 0,056

MANIFESTO 0,062 0,259 0,067 0,00414 0,114

MATTINO 0,057 0,102 0,010 0,00059 0,016

MESSAGGERO 0,063 0,176 0,031 0,00197 0,054

NAZIONE 0,058 0,121 0,015 0,00085 0,023

REPUBBLICA 0,061 0,193 0,037 0,00227 0,062

CARLINO 0,059 0,163 0,027 0,00157 0,043

SECOLO XIX 0,065 0,296 0,088 0,00569 0,156

SICILIA 0,056 0,164 0,027 0,00150 0,041

STAMPA 0,059 0,162 0,026 0,00154 0,042

SARDEGNA 0,057 0,194 0,038 0,00213 0,059

UNITA 0,059 0,186 0,034 0,00202 0,056

La tabella analizza i pesi, le distanze e le distanze quadrate all’origine, inerzie e inerzie

relative.

Il Resto del Carlino e la Stampa hanno i profili riga molto simili tra di loro.

Osservando il grafico è possibile notare quanto i loro rispettivi punti siano

vicini. E' possibile considerare le due osservazioni come fenomeno di

EQUIVALENZA DISTRIBUTIVA, ovvero, è possibile aggregarli in un unico profilo

che ha come PESO la somma dei pesi, senza che la configurazione dei punti in

Rc cambi, né si modifichino le distanze tra i profili colonna in Rr. E' questa una

proprietà della metrica del chi-quadrato, che permette di ridurre le dimensioni

dello spazio di riferimento senza modificare l'informazione contenuta nei dati

di partenza.

Carlino e Stampa, infatti, sono due quotidiani che presentano una platea di

lettori molto simile: letti soprattutto da persone adulte, son due dei tre

quotidiani più letti dai pensionati, molto poco preferiti dagli appartenenti ai

ceti superiori. In queste tre categorie i valori del profilo riga sono identici.

PROFILI RIGA let.

res. giovani adulti (35- anziani ceti intellettu pensiona casaling capoluog

uomini donnne acquisti (18-24) 44) (+65) superiori ceti medi ali operai ti he hi Somma

COR_SERA 0,186 0,102 0,112 0,045 0,061 0,040 0,032 0,100 0,066 0,030 0,060 0,030 0,135 1

GAZ_MEZ 0,233 0,099 0,074 0,058 0,061 0,030 0,018 0,106 0,071 0,051 0,059 0,026 0,114 1

IL_GIORN 0,178 0,122 0,114 0,042 0,046 0,057 0,041 0,082 0,058 0,020 0,069 0,031 0,139 1

G_SICIL 0,204 0,108 0,081 0,042 0,066 0,027 0,022 0,097 0,059 0,032 0,068 0,033 0,159 1

GIORNO 0,198 0,133 0,114 0,043 0,074 0,027 0,013 0,101 0,052 0,075 0,060 0,030 0,080 1

INDIPENDENTE 0,219 0,101 0,101 0,048 0,066 0,026 0,032 0,129 0,058 0,031 0,049 0,020 0,119 1

MANIFESTO 0,168 0,131 0,109 0,054 0,061 0,021 0,027 0,113 0,088 0,022 0,035 0,015 0,154 1

MATTINO 0,206 0,115 0,090 0,053 0,059 0,032 0,018 0,094 0,067 0,040 0,065 0,038 0,121 1

MESSAGGERO 0,174 0,117 0,098 0,041 0,060 0,031 0,020 0,091 0,052 0,037 0,054 0,036 0,189 1

NAZIONE 0,188 0,131 0,102 0,044 0,061 0,040 0,016 0,105 0,042 0,056 0,068 0,033 0,115 1

REPUBBLICA 0,180 0,123 0,104 0,042 0,070 0,024 0,035 0,102 0,072 0,026 0,044 0,023 0,155 1

CARLINO 0,185 0,126 0,112 0,040 0,053 0,051 0,019 0,102 0,036 0,050 0,081 0,023 0,121 1

SECOLO XIX 0,152 0,131 0,123 0,034 0,044 0,059 0,011 0,072 0,034 0,034 0,084 0,048 0,174 1

SICILIA 0,231 0,099 0,081 0,055 0,057 0,026 0,022 0,104 0,051 0,053 0,063 0,035 0,121 1

STAMPA 0,174 0,138 0,125 0,039 0,055 0,047 0,016 0,093 0,047 0,046 0,081 0,030 0,110 1

SARDEGNA 0,192 0,134 0,101 0,057 0,055 0,036 0,011 0,078 0,063 0,050 0,073 0,050 0,102 1

UNITA 0

Dettagli
Publisher
A.A. 2017-2018
36 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher paolomaz di informazioni apprese con la frequenza delle lezioni di Data mining e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Napoli Federico II o del prof Davino Cristina.