Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
MISURE DI VALIDAZIONE DI CLUSTER
Misura silhouette: questa misura è definita per ogni unità ed è tanto migliore quanto più si avvicina ad 1.
Per definirla è necessario introdurre le seguenti misure per ciascuna unità i nel cluster Ci:
- distanza media di <<i>> dagli elementi del gruppo. |Ci| è la numerosità del gruppo, ovvero nb(i)
- distanza in media minima di <<i>> dagli elementi degli altri cluster. |Ck| è la numerosità di ogni cluster
La misura silhouette è la differenza tra la distanza in media minima di i dagli elementi degli altri cluster e la distanza media di i dagli elementi del proprio gruppo diviso il massimo tra le due. Questo se la numerosità del gruppo è > 1. Se la numerosità del gruppo è 1, allora la silhouette è 0.
La silhouette è compresa tra -1 e 1 quando a(i) e b(i) sono quantità positive e quindi non nulle. Se b(i) = 0 e a(i) != 0, allora la silhouette è
silhouette vale -1- se a(i)=0 e b(i)!=0 allora la silhouette vale 1-se s(i) è vicina a 1 vuol dire che a(i) è vicina a 0, ovvero l'unità i ha distanza quasinulla da tutte le unità del suo gruppo (quindi è ben inserita nel cluster)- se s(i) è vicina a -1 allora è b(i) ad essere vicina a zero cioè l'unità "i" dovrebbe essere inserita nel gruppo vicino quello per il quale Si raggiunge il minimo.
ANALISI DELLE COMPONENTI PRINCIPALI- PCA
Partiamo da una matrice di dati X in cui abbiamo n unità e k variabili, k è grande e può anche essere > n, devo quindi ridurre le variabili.
Il problema consiste nel voler ridurre il nr delle variabili e comprendere quali delle variabili giocano un ruolo dominante. Nello specifico si cerca di capire quali variabili sono di maggiore importanza nella ricostruzione della varianza totale delle variabili. Lo scopo è quindi passare da k variabili a 2-3
variabili che siano combinazione lineare delle precedenti cioè la PCA permette di individuare delle variabili che non sono misurabili direttamente ma esprimibili come combinazione lineare delle variabili misurabili. Sono cioè una sintesi di altre k variabili.
#parte tecnica:
Sia X la matrice dei dati
Allora è la media della variabile j-ora considero la matrice centrata: oss: la media dei vettori colonna di Xbarrato è 0 per costruzione, perché abbiamo centrato la matrice.
Dimostrazione: io so che allora Bisogna trovare una combinazione lineare di queste colonne, tale che la variabile che ne uscirà fuori preservi la media e abbia la varianza la + alta possibile, cioè che mi permetta di vedere il max dello scostamento dalla media (ovvero la varianza).
Quindi ora cerchiamo di definire una nuova variabile che abbia sempre media 0 perché è la media del nostro sistema (la variabile deve rimanere centrata nell'origine).
e varianza la più grande possibile. Come? Attraverso la seguente espressione: abbiamo cioè combinato linearmente le k colonne della matrice centrata dei dati devono essere vincolati in modo che il vettore u (ovvero il vettore che mi ha permesso di combinare linearmente la matrice dei dati) abbia norma 1, cioè:<math>||u|| = 1</math>
perché la norma del vettore è la radice quadrata della somma dei quadrati dei termini.
Oss: Y si può riscrivere come il prodotto righe per colonne di uX. Infatti:
<math>Y = uX</math>
Devo ora controllare se Y ha media 0. Introduco la sommatoria con k perché k si riferisce alle variabili, ovvero alle colonne ed io devo calcolare la media per ogni variabile, ovvero per ogni colonna.
Ho scambiato le sommatorie, ovvero ho ordinato gli addendi. Il secondo pezzo è esattamente mij, ovvero la media della colonna xj e quindi è 0.
Oss: questo risultato potevo ottenerlo usando le proprietà di linearità della media: ho verificato che Y ha media 0.
ora devoanalizzare la devianza (quando parliamo di dev o var è praticamente la stessa cosa, la seconda è la prima ma diviso per n se ragioniamo sulla popolazione intera mentre se ragioniamo su un campione, statistica inferenziale, allora è la var=(dev)/(n-1)) devianza di Y.
Nel nostro caso però la media è 0, di conseguenza la devianza di Y si ridurrà a:
lambda questa funzione che si chiama lagrangiana quando io mi trovo sopra al vincolo, ovvero u^tu=1, è uguale a quella sopra senzalamda, ovvero la f originale, questo perché il secondo pezzo non c'è più. Io però devo trovarlo.
La derivata della lagrangiana, rispetto a lambda, posta = 0 mi da il vincolo.
Dimostrazione: se la pongo = 0, ho trovato il vincolo -> Per trovare il punto di max dobbiamo porre anche l'altra derivata = 0, quella rispetto ad u.
Premessa: , quindi riscrivo l'equazione:
Questa equazione è un'equazione agli autovalori e autovettori, ma di autovalori ce ne sono k, quale devo scegliere? Se io posso scegliere un solo autovalore sarà quello più grande, perché massimizza la mia devianza. Sceglierò poi anche l'autovettore corrispondente. Perché: La somma degli elementi diag della matrice X^tX è la somma di tutte le dev e coincide anche con la somma degli autoval, dunque,
la somma degli autovalori è la somma di tutte le deviazioni. Quest'ultima uguaglia perché la matrice è centrata. Riassumendo: la somma di tutti gli autovalori produce la devianza totale delle variabili. Dunque, ogni autovalore è una porzione della devianza il prodotto della matrice centrata. La prima componente principale è per l'autovettore relativo al più grande autovalore il prodotto della matrice. La seconda componente principale è centrata per u2 ovvero l'autovettore corrispondente al secondo più grande autovalore. Oss: per trovare la 2^ comp principale, devo trovare il 2^ autovalore max che sia incorrelato al prec, ma se la matrice che abbiamo di fronte è simmetrica, allora tutti gli autovettori sono ortogonali ed essere ortogonali vuol dire anche essere incorrelati. Quindi le componenti principali sono incorrelate perché gli autovettori che scegliamo sono ortonormali. Non lo scriviamo come un vincolo però, perchéè proprio intrinseco alle prop della matriceDim: →#il numero di componenti principali che servono per rappresentare il fenomeno èquello che garantisce la ricostruzione di almeno l’80% della varianza/devianza.
N.B: nei software la matrice + usata per il calcolo è la matrice dicorrelazione:
#oss: ogni componente principale, è una nuova variabile che identifica le singoleunità: i numeri cerchiatisono i pesi chehanno le var nelricostruire i valori che noi assoceremo alle unità, + sono alti, vuol dire che tra tuttequella che pesa di + è quella.
Se io mi dimentico di tutte le variabili di prima ed uso solo queste 2, la matrice dicorrelazione, cambia? Si, perché questa tecnica di riduzione delle variabili preserva lavarianza tot del sistema ma perde le correlazioni. L’analisi fattoriale, invece, è unatecnica simile che invece preserva le correlazioni.
Sintesi finale:
Lo scopo della pca è trovare 1 o 2 direzioni,
Lungo le quali io possa preservare la media e massimizzare la varianza.
ANALISI DISCRIMINANTE
Abbiamo un insieme di elementi che possono venire da due o più popolazioni. In ogni elemento abbiamo una variabile casuale p-dimensionale X, la cui distribuzione è nota nelle popolazioni considerate, è osservata. Noi vogliamo classificare un nuovo elemento, con valori noti delle variabili, in una delle popolazioni.
L'idea dietro l'analisi discriminante lineare: Guardando i nr che rappresentano lo score, posso determinare una soglia che mi permette di capire di che gruppo fanno parte le unità. Tecniche di classificazione.
Le tecniche dell'analisi discriminante sono anche dette supervisionata: perché conosciamo un campione di elementi correttamente classificati che servono da modello per la classificazione degli elementi successivi. L'analisi discriminante è solo uno dei possibili approcci al problema della classificazione supervisionata.
La validità degli algoritmi di apprendimento supervisionato è legata all'utilità delle informazioni che riescono ad estrarre dalla base di dati. Dal lato opposto ci sono le tecniche di classificazione non supervisionata che cercano strutture nascoste a partire da dati non modellati. Le tecniche di apprendimento non supervisionato lavorano confrontando i dati e ricercando similarità o differenze. Queste tecniche sono poco efficienti con dati non numerici, il clustering è un tipico esempio di apprendimento non supervisionato.
Tutti i metodi di apprendimento automatico hanno una fase di training per testare la mia metodologia, e poi c'è una fase di testing. Nella fase di training si studia l'analisi pregressa per tirar fuori le caratteristiche del modello, ad esempio in una regressione: i coefficienti, gli errori ecc.. Mentre testing vuol dire che prendo 10 righe ad esempio e vado a calcolarmi con i beta il valore previsto di beta e poi vado a calcolarmi il vero valore.
Nel cluster il parametro che vado a selezionare è il nrdi gruppi. Nel caso della pca sono i coefficienti e poi la loro rappresentativi, ovvero quanta porzione di varianza sono in grado di rappresentare.) Entrando più nel dettaglio, l'analisi discriminante può essere vista come un algoritmo di apprendimento supervisionato, parliamo quindi di Machine learning supervisionato, perché noi vogliamo ridurre le variabili, ma nel contempo vogliamo fare questa riduzione con una tecnica esplicativa, cioè che mi spiega le altre variabili. Quindi uniamo la teoria esplicativa al cluster, per creare una nuova variabile latente su cui stabiliamo delle soglie che ci permettono di dire a che gruppo faccio parte. L'obiettivo finale è quello di ottenere una migliore comprensione dei dati e una maggiore capacità di classificazione.