In questo corso ci si occuperà di modelli mistura, in inglese mixture models, tutta
l’idea di base è che noi abbiamo una popolazione di unità statistiche, su questa
andiamo a rilevare un certo numero di fenomeni, in particolare da 1,...,d fenomeni
(con d N )
∈
ESEMPIO:
si prende le aziende europee e si rileva il settore di appartenenza (siderurgico,
manifatturiero …), il fatturato e il numero di dipendenti , per un totale di d = 3
Quindi si sceglie uno o più fenomeni, da 1 … d , e l’esito di questa rilevazione verrà
chiamato Y
d x 1
PICCOLA PRECISAZIONE…
- Si indica con il trattino sotto un vettore, quindi se viene sottolineato è
perché che sulla singola unità statistica questo vettore sia un vettore d x 1,
- quindi per ogni elemento della popolazione si sceglie un certo numero di
fenomeni da rilevare
—------------------------------------------------------------------------
CHE TIPICAMENTE ACCADE è CHE ALL’INTERNO DELLA POPOLAZIONE CI SONO IN
VIA NATURALE DEI GRUPPI / CLUSTER / SOTTOPOPOLAZIONE
per numerare questi gruppi si usa l’indice k = # cluster e si utilizzerà un iteratore
j = 1 , … , k per indicizzare i gruppi
—------------------------------------------------------------------------
DOMANDA ?
Che cosa succede quando si ha a che fare con i modelli misura ?
RISPOSTA:
Quando abbiamo a che fare con dei modelli mistura accade che i fenomeni y1, … , yd
hanno un comportano eterogeneo tra gruppi/cluster ma omogeneo all’interno dei
cluster
esempio: quindi fin tanto che si guarda u.s che stanno nel medesimo gruppo si
scopre magari che al suo interno il numero di dipendenti è simile, poi però in un altro
gruppo dove magari si hanno aziende più grandi con di conseguenza un numero di
dipendenti più elevato rispetto al gruppo precedente
Quello che succede tipicamente è quindi che CAMBIANDO GRUPPO CAMBIANO
MOLTO LE COSE !!!
Qual è quindi il problema?
Il problema fondamentale è che l'esistenza di questi gruppi, spesso, non si è in grado
di rilevarla o meglio i problemi si pongono nel momento in cui non si è in grado di
assegnare un'etichetta (labels in inglese) che ci indichi il gruppo di appartenenza
Per quale motivo non si è in grado?
In realtà ci possono essere più motivi :
1. spesso l’elemento che caratterizza il gruppo, quindi l’etichetta, non è
osservata e di conseguenza non si è in grado di indicarne il gruppo di
appartenenza.
Quindi se io non osservo il fatto che l’ i -esima u.s sta nel primo nel secondo o
nel k-esimo gruppo, non riesco di conseguenza a definire il gruppo di
appartenenza
2. l’etichetta non è osservabile (questo è il caso delle VARIABILI LATENTI)
Quindi non sono io che per qualche motivo non ho osservato il gruppo di
appartenenza ma ci sono delle variabili che si chiamano latenti, che non sono
osservabili
ESEMPIO:
Si rilevano un gruppo di pesci dove in particolare la misura è legata all’età, tuttavia
come ben si sa non si può chiedere ad un pesce la sua età , di conseguenza l’età di
una specie animale generalmente è una variabile latente.
…allora che cosa si può fare?
Una volta che si sa di stare nel j-esimo gruppo, allora l’idea di omogeneità dentro ai
gruppi e eterogeneità tra gruppi diversi viene formalizzata con una legge di
distribuzione :
f (y) = legge di distribuzione | f (y) = legge di distribuzione con più fenomeni (y)
j j
Caso generale. . .
In questo caso si ha un solo fenomeno quindi si considera f (y) , che è legge di
j
distribuzione dei fenomeni sulle unità della popolazione è indicizzata rispetto ai gruppi,
quindi se si cambia gruppo ( cambiando quindi j = 1 , … , k ) cambia anche la legge di
distribuzione .
La legge di distribuzione può essere:
- la f. di densità nel continuo
- la f. di probabilità nel discreto
—-----------------------------------------------------------------------
esempio : si potrebbe avere quindi che nel gruppo 1 l’andamento del fatturato segue
una distribuzione Gamma, e che nel secondo gruppo è una log-normale.
—------------------------------