Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
DIFFERENZE CON L’ANALISI IN COMPONENTI PRINCIPALI
A differenza dell' ACP, dove ogni punto-individuo è caratterizzato da un peso
costante =1/n, nell' AC, ciascun punto è munito di una massa pari al rapporto
tra il rispettivo marginale ed il totale generale della tabella: in tal modo,
l'informazione relativa delle singole righe e colonne è CONSERVATA.
In ACP, l'operazione di centratura ed eventualmente di standardizzazione
viene effettuata sulle COLONNE della matrice originaria: in questo modo le
coordinate in Rp possono essere ottenute dalla trasposta della tabella delle
coordinate in Rn, ovvero, trasformazioni diverse dei dati iniziali portano ad
una stessa formulazione analitica; in AC, le variabili giocano ruoli simmetrici
poiché sono messe in corrispondenza , le stesse trasformazioni nei due spazi
conducono a formulazioni analitiche diverse: le coordinate nei due spazi sono
contenute in due matrici diverse.
TEST D’INDIPENDENZA
Chi-quadro (Valore osservato) 198,106
Chi-quadro (Valore critico) 225,329
GDL 192
p-value 0,366
alfa 0,05
Interpretazione del
testo:
H0: Le righe e le colonne della tabella sono
indipendenti.
Ha: C'è un legame tra le righe e le colonne della
tabella.
Considerando che il p-value calcolato è superiore al livello di significazione della soglia alfa=0,05, non è possibile rifiutare l'ipotesi nulla H0.
Il rischio di rifiutare l'ipotesi nulla H0 mentre è vera è 36,61%.
Poiché operiamo su tabelle dei profili, occorre utilizzare una metrica diversa da quella
classica (euclidea) poiché la DISTANZA, ad esempio tra due profili riga risulterebbe
alterata dall'eccessiva importanza delle modalità con un forte campo di variazione e,
viceversa dal minor peso delle modalità per le quali le variazioni sono minori.
Per superare questo problema occorre PONDERARE ciascuna colonna dando maggior
peso alle modalità che si presentano con minore frequenza.
La metrica del chi-quadrato è adeguata a questo scopo.
2
f f
c ij i j
Metrica euclidea
d i , i
f f
j 1
i . i .
2
f f
c
1 ij i j
d i , i
Metrica del chi-quadro
f f f
j 1
. j i . i .
PROPRIETA’ DELLA METRICA DEL CHI-QUADRO
La metrica del chi-quadrato gode della proprietà dell' EQUIVALENZA
DISTRIBUTIVA, per cui, se due profili riga uguali o proporzionali vengono aggregati
in un unico profilo riga con massa pari alla somma delle masse, la configurazione
dei punti in Rc non cambia, né si modificano le distanze tra i profili colonna in Rr.
(La stessa proprietà vale se vogliamo calcolare distanza fra due profili colonna: in
tal caso andranno ponderate le righe).
L'utilità di questa proprietà è che permette di raggruppare più RIGHE (COLONNE)
senza perdita o modifica di informazione iniziale, riducendo le dimensioni dello
spazio di riferimento.
"INVARIABILITA' DEI RISULTATI INDIPENDENTEMENTE DA COME
LE VARIABILI SONO ORIGINARIAMENTE CODIFICATE":
non si ha alcuna perdita di informazione se si aggregano
modalità né alcun guadagno dal suddividerle in categorie
omogenee.
Tuttavia, modalità con frequenze molto basse tendono a
condizionare pesantemente le distanze, giacché il reciproco di un
numero (il peso) molto piccolo tende ad "esplodere".
TEST DEL CHI-QUADRO
Il test del chi-quadro serve a stabilire il grado di interdipendenza che esiste tra i
caratteri considerati. E' basato sulla distribuzione della variabile casuale
definita dalla "somma dei quadrati delle differenze tra i valori osservati e i
valori teorici rapportati ai valori teorici, avendo posto come IPOTESI NULLA H0
l' INDIPENDENZA tra i caratteri. (I valori teorici sono ottenuti dal prodotto dei
marginali rigaxcolonna di ciascun punto fratto il totale generale).
L'Ipotesi nulla sarà rifiutata o meno sulla base del "confronto tra il valore
Ottenuto e il valore Teorico riportato sulle tavole in corrispondenza ad un
fissato livello di Confidenza e dei gradi di libertà g=(r-1)(c-1).
Nel nostro caso, se rifiutassimo l'ipotesi Nulla H0 , avremmo il 36,61% di
possibilità di sbagliare. Non è , infatti, possibile dire che righe e colonne non
sono indipendenti. Il chi-quadro non è significativo,ma ricordiamo che
l’obiettivo dell’AC è quello di individuare fattori(assi) che spiegano la variabilità
della nuvola dei profili. Formule
Formula del chi-quadro
2
ˆ
n n
ij ij 2
r 1 c 1
ˆ
n
i j ij n n
i . . j
ˆ
n
ij n Generico valore teorico
AUTOVALORI E PERCENTUALI D’INERZIA
F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12
Autovalore 0,013 0,011 0,004 0,003 0,003 0,001 0,001 0,000 0,000 0,000 0,000 0,000
Inerzia (%) 35,069 30,759 10,781 9,248 7,602 2,275 2,010 1,028 0,860 0,201 0,160 0,007
% cumulata 35,069 65,828 76,608 85,856 93,459 95,734 97,743 98,772 99,632 99,833 99,993 100,000
Selezioniamo i primi due autovalori, nonostante la percentuale di inerzia cumulata spiegata da questi due
sia non altissima (66%).
un autovalore rappresenta una misura di variabilità del k-esimo asse fattoriale sul quale si proiettano i
punti. Tutti gli autovalori che non siano l' "autovalore banale" sono minori di 1 poiché ciascuno indica l'
INERZIA dei punti proiettati sugli assi principali, sugli iperpiani e gli assi passanti per l'origine. L'inerzia
assume valore MASSIMO=1 solo per l'Autovalore Banale, cioè quello corrispondente al Vettore Og di
lunghezza unitaria, ortogonale al piano di supporto: l'inerzia della nube di punti, infatti, rispetto all'origine
è uguale a 1, poiché tutti i punti proiettati coincidono con il baricentro g.
Il numero massimo, quindi, di autovalori significativi è pari a (c-1) e la loro somma riproduce l' Inerzia della
nube di punti. Nel nostro caso,sono 13 categorie,colonne. Sono 12 autovalori significativi che
spiegheranno l’inerzia totale della nube
Condurre l'analisi sugli c profili colonna nello spazio Rr porta agli stessi risultati dell'analisi in Rc sui profili
riga. L'inerzia assume valore massimo unitario solo per
• l'autovalore banale, che può essere trascurato, poiché
non apporta informazione al tipo di associazione
Sapendo che l’inerzia è pari a:
• =∑ = ( ) − 1 = 2/
• Avremo che: ( ) = 1 + 2/N²
• Rappresentando 1 l’autovalore banale (non preso in
• considerazione) ed essendo 2 / pari a φ 2 (quantità
compresa fra 0 ed 1) ciò che facciamo è proprio
decomporre una quantità compresa nell’intervallo
[0,1]. Per tale motivo, quindi, gli autovalori saranno
tutti minori di 1. Scree plot
0,014 100
0,012 80
0,01 60
0,008
Autovalore (%)
Inerzia
0,006 40
0,004 20
0,002
0 0
F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12
asse
RISULTATI PER LE RIGHE
Peso (relativo) Distanza Distanza² Inerzia Inerzia relativa
COR_SERA 0,058 0,114 0,013 0,00075 0,021
GAZ_MEZ 0,055 0,188 0,035 0,00196 0,054
IL_GIORN 0,061 0,220 0,048 0,00296 0,081
G_SICIL 0,059 0,132 0,017 0,00102 0,028
GIORNO 0,055 0,247 0,061 0,00339 0,093
INDIPENDENTE 0,057 0,189 0,036 0,00204 0,056
MANIFESTO 0,062 0,259 0,067 0,00414 0,114
MATTINO 0,057 0,102 0,010 0,00059 0,016
MESSAGGERO 0,063 0,176 0,031 0,00197 0,054
NAZIONE 0,058 0,121 0,015 0,00085 0,023
REPUBBLICA 0,061 0,193 0,037 0,00227 0,062
CARLINO 0,059 0,163 0,027 0,00157 0,043
SECOLO XIX 0,065 0,296 0,088 0,00569 0,156
SICILIA 0,056 0,164 0,027 0,00150 0,041
STAMPA 0,059 0,162 0,026 0,00154 0,042
SARDEGNA 0,057 0,194 0,038 0,00213 0,059
UNITA 0,059 0,186 0,034 0,00202 0,056
La tabella analizza i pesi, le distanze e le distanze quadrate all’origine, inerzie e inerzie
relative.
Il Resto del Carlino e la Stampa hanno i profili riga molto simili tra di loro.
Osservando il grafico è possibile notare quanto i loro rispettivi punti siano
vicini. E' possibile considerare le due osservazioni come fenomeno di
EQUIVALENZA DISTRIBUTIVA, ovvero, è possibile aggregarli in un unico profilo
che ha come PESO la somma dei pesi, senza che la configurazione dei punti in
Rc cambi, né si modifichino le distanze tra i profili colonna in Rr. E' questa una
proprietà della metrica del chi-quadrato, che permette di ridurre le dimensioni
dello spazio di riferimento senza modificare l'informazione contenuta nei dati
di partenza.
Carlino e Stampa, infatti, sono due quotidiani che presentano una platea di
lettori molto simile: letti soprattutto da persone adulte, son due dei tre
quotidiani più letti dai pensionati, molto poco preferiti dagli appartenenti ai
ceti superiori. In queste tre categorie i valori del profilo riga sono identici.
PROFILI RIGA let.
res. giovani adulti (35- anziani ceti intellettu pensiona casaling capoluog
uomini donnne acquisti (18-24) 44) (+65) superiori ceti medi ali operai ti he hi Somma
COR_SERA 0,186 0,102 0,112 0,045 0,061 0,040 0,032 0,100 0,066 0,030 0,060 0,030 0,135 1
GAZ_MEZ 0,233 0,099 0,074 0,058 0,061 0,030 0,018 0,106 0,071 0,051 0,059 0,026 0,114 1
IL_GIORN 0,178 0,122 0,114 0,042 0,046 0,057 0,041 0,082 0,058 0,020 0,069 0,031 0,139 1
G_SICIL 0,204 0,108 0,081 0,042 0,066 0,027 0,022 0,097 0,059 0,032 0,068 0,033 0,159 1
GIORNO 0,198 0,133 0,114 0,043 0,074 0,027 0,013 0,101 0,052 0,075 0,060 0,030 0,080 1
INDIPENDENTE 0,219 0,101 0,101 0,048 0,066 0,026 0,032 0,129 0,058 0,031 0,049 0,020 0,119 1
MANIFESTO 0,168 0,131 0,109 0,054 0,061 0,021 0,027 0,113 0,088 0,022 0,035 0,015 0,154 1
MATTINO 0,206 0,115 0,090 0,053 0,059 0,032 0,018 0,094 0,067 0,040 0,065 0,038 0,121 1
MESSAGGERO 0,174 0,117 0,098 0,041 0,060 0,031 0,020 0,091 0,052 0,037 0,054 0,036 0,189 1
NAZIONE 0,188 0,131 0,102 0,044 0,061 0,040 0,016 0,105 0,042 0,056 0,068 0,033 0,115 1
REPUBBLICA 0,180 0,123 0,104 0,042 0,070 0,024 0,035 0,102 0,072 0,026 0,044 0,023 0,155 1
CARLINO 0,185 0,126 0,112 0,040 0,053 0,051 0,019 0,102 0,036 0,050 0,081 0,023 0,121 1
SECOLO XIX 0,152 0,131 0,123 0,034 0,044 0,059 0,011 0,072 0,034 0,034 0,084 0,048 0,174 1
SICILIA 0,231 0,099 0,081 0,055 0,057 0,026 0,022 0,104 0,051 0,053 0,063 0,035 0,121 1
STAMPA 0,174 0,138 0,125 0,039 0,055 0,047 0,016 0,093 0,047 0,046 0,081 0,030 0,110 1
SARDEGNA 0,192 0,134 0,101 0,057 0,055 0,036 0,011 0,078 0,063 0,050 0,073 0,050 0,102 1
UNITA 0