Algoritmi gerarchici
I metodi gerarchici si contraddistinguono per una gerarchia di raggruppamento, in cui il prodotto finale viene inteso come il risultato di una serie di passaggi successivi. Il metodo aggregativo viene così denominato poiché procede per aggregazioni successive delle unità statistiche. Ad ogni fase ritroviamo un’aggregazione maggiormente omogenea fra gli elementi in base alla distanza prescelta.
Metodi gerarchici aggregativi
Le differenze tra i vari metodi gerarchici consistono nel criterio utilizzato per calcolare la distanza tra 2 gruppi di unità (uno dei quali eventualmente formato da una sola unità). I più diffusi metodi di clustering gerarchici aggregativi sono:
- Metodo del legame singolo: Si basa su un criterio di distanza minima, ovvero la distanza tra gruppi è misurata dalla distanza più piccola esistente tra gli elementi appartenenti ad un gruppo e quelli appartenenti ad un altro. Si caratterizza per la semplicità di calcolo e per il vantaggio di una poca sensibilità verso i valori anomali. L’aspetto negativo principale è costituito dal fatto che tende a generare gruppi eccessivamente numerosi.
- Metodo del legame completo: In base a questo metodo la distanza tra i gruppi viene intesa come la massima distanza esistente tra gli individui componenti. Di solito viene utilizzata quando sono presenti caratteri di tipo qualitativi e a differenza del metodo precedente viene molto influenzato dai valori anomali, inoltre tende di solito a generare gruppi di simili dimensioni.
- Metodo del legame medio: La distanza tra gruppi è calcolata come media aritmetica delle distanze tra tutte le unità che compongono i due gruppi. Si contraddistingue per il fatto che tende ad unire gruppi di bassa varianza interna e produce allo stesso tempo gruppi con varianze simili.
- Metodo del centroide: Per ogni gruppo si calcola il baricentro dei dati (il punto con coordinate pari alla media delle coordinate dei punti) e si usa come distanza tra due gruppi la distanza tra i due baricentri. Anche in questo caso vengono uniti i gruppi che presentano distanza minima, tuttavia rispetto agli altri metodi gerarchici appare maggiormente solida verso l’influenza dei valori anomali.
- Metodo di Ward: Si contraddistingue rispetto ai precedenti poiché si fonda sulla scomposizione della devianza totale in devianza tra i gruppi e varianza entro i gruppi (o cluster). Viene utilizzato come indice di somiglianza la distanza euclidea. Fra gli aspetti negativi abbiamo la produzione di gruppi di uguali dimensioni e risulta influenzabile dai valori anomali.
Metodi gerarchici divisivi
Esaminando invece i metodi gerarchici divisivi, è importante sottolineare che seguono un percorso contrario rispetto a quello dei metodi aggregativi. Il metodo disgiuntivo parte assumendo un solo cluster iniziale che contiene tutti i dati: a ogni passo ogni cluster verrà suddiviso in due o più nuovi cluster, in base alle differenze tra i dati contenuti. Il metodo più utilizzato è quello basato sui punti nodali e viene sviluppato a partire dalla matrice delle distanze. Le matrici a cui fa riferimento possono racchiudere variabili di qualsiasi tipologia e a differenza di altri metodi divisivi risulta meno costoso.
Campionamenti probabilistici
Sono probabilistici quei campioni le cui unità vengono estratte dalla popolazione in modo tale che ogni elemento abbia una probabilità nota di entrare a far parte del campione stesso. L’utilizzo di campioni probabilistici avviene anche allo scopo di escludere la possibilità che la scelta del campione risulti “influenzata” in qualche modo dal ricercatore stesso. Una scelta distorta potrebbe portare ad analizzare un campione affetto da “errore sistematico”.
Il grande vantaggio del campionamento probabilistico è che i risultati sono statisticamente significativi in quanto è possibile calcolare l’errore standard della media, di fatto risulta ampiamente utilizzato dai principali istituti di ricerca. Fra i limiti invece sottolineiamo che raramente si dispone di liste complete ed aggiornate della popolazione da studiare ed inoltre gli stessi campioni possono essere distribuiti su di un territorio molto ampio, cosicché i tempi e i costi di realizzazione sono decisamente elevati. Lo svantaggio principale è quello di dover ritentare l’intervista se la prima non ha avuto successo, perché per mantenere significativa la statistica, è importante che vengano contattate le unità campionarie previste in fase di impostazione con criterio casuale.
I metodi di selezione di campioni probabilistici possono essere diversi, si distinguono: campione casuale semplice, campione stratificato, campione a grappoli, campione sistematico, campione a più stadi ecc. a seconda del modo con il quale vengono selezionate le unità campionarie. Il primo, (casuale semplice) risulta decisamente importante per 2 motivi:
- La tecnica di estrazione utilizzata viene poi riproposta anche per gli altri campionamenti maggiormente complessi.
- I risultati che vengono ottenuti con questo tipo di campionamento vengono poi confrontati con le stime ottenute dagli altri campionamenti più complessi.
A loro volta le metodologie più complesse vengono confrontate rispetto al campionamento casuale semplice e da questo raffronto ne scaturisce una differenza in termini di efficienza statistica fra i 2 campionamenti. Generalmente per guadagno di efficienza di una tecnica campionaria, si intende l’ottenimento, a parità di condizioni, di misure di stima più precise, ovvero un errore campionario inferiore rispetto ad un’altra metodologia di campionamento. L’efficienza inoltre può derivare a parità di condizioni e stabilito l’errore campionario, da quella tecnica campionaria che utilizza una minore numerosità campionaria, che a sua volta poi si traduce in un costo inferiore rispetto ad un'altra tipologia di campionamento.
Il campionamento casuale semplice (CCS)
Per campionamento casuale semplice si intende la forma di campionamento più elementare all’interno dei metodi probabilistici. Caratteristica essenziale è che per ogni unità della popolazione abbiamo la stessa probabilità di essere incluso all’interno del campione. Nella selezione di un campione casuale è possibile scegliere se ogni unità possa entrare più di una volta nel campione. Se questa possibilità non è ammessa il campionamento è detto senza ripetizione, altrimenti con ripetizione.
L’assenza di ripetizione significa che un’unità non può entrare a far parte dello stesso campione più di una volta. Mentre, si ha un campionamento casuale semplice con ripetizione quando vengono effettuate estrazioni indipendenti fra loro, tali che ogni unità della popolazione ha la stessa probabilità di essere estratta. Nella pratica, l'estrazione con ripetizione viene adottata raramente. Punto di forza di questa tipologia di campionamento risulta proprio la facilità di esecuzione, mentre fra i lati negativi possiamo riscontrare: la possibilità di estrazione di campioni poco rappresentativi a causa della stessa probabilità con cui possono essere estratti; secondo, un elevato costo a livello organizzativo.
Il campionamento sistematico
Per campionamento sistematico si intende, invece, una metodologia alternativa ma allo stesso tempo associabile al campionamento casuale semplice. Nel campionamento sistematico infatti solo la prima unità è scelta casualmente, mentre le altre sono determinate in modo automatico secondo un criterio prefissato.
Rispetto al CCS infatti si riscontrano aspetti positivi e negativi diversi, fra quelli positivi abbiamo: l’estrazione del campione avviene attraverso un'unica estrazione in modo casuale individuando l’unità di partenza. Se l'ordinamento delle unità della popolazione è casuale, tale tecnica fornisce gli stessi risultati del campionamento casuale semplice senza ripetizione. Se invece le unità sono elencate in modo da rispettare l’ordine crescente o decrescente della variabile di interesse il campionamento sistematico è da preferire a quello casuale semplice perché più rappresentativo.
Fra gli svantaggi invece ritroviamo: nel caso in cui la lista, caratterizzata da periodicità, presenti determinati ordinamenti possono essere prodotti dei campioni non adatti poiché va ad escludere a priori certi segmenti della popolazione. Perciò per cercare di prevenire il problema risulta necessario assicurarsi, prima di effettuare l’operazione di selezione, che la lista si presenti in modo casuale; sé così non fosse bisognerebbe eliminare le periodicità che si dovessero presentare.
Il campionamento stratificato
Il campionamento stratificato è una procedura di campionamento probabilistico. Analizzandolo notiamo che la popolazione target viene suddivisa in sottopopolazioni omogenee al loro interno ed eterogenee fra loro, denominate Strati; da ognuno di questi viene poi estratto un campione casuale semplice, ed all’insieme dei campioni individuati si ottiene il campione globale detto appunto campione stratificato.
Generalmente si ha la possibilità di stratificare la popolazione obiettivo in base a una o più variabili che però compaiano nella lista di campionamento, come ad esempio: la collocazione geografica, il genere, l’età, la professione e il reddito, il fatturato e il numero di addetti. Ciò a cui si mira attraverso questo tipo di campionamento è una maggiore efficienza e accuratezza rispetto al campionamento casuale semplice, ovvero ottenere delle stime più precise e con un errore campionario inferiore. In aggiunta grazie al campionamento stratificato è possibile ridurre la numerosità campionaria ottenendo allo stesso tempo un risparmio di risorse, sempre in contrapposizione al campionamento casuale semplice.
Per poter puntare a un grado di efficienza superiore appare indispensabile che le sottopopolazioni distinte in precedenza attraverso le variabili di stratificazione risultino omogenee al loro interno ed eterogenee fra di loro. Riguardo invece alla numerosità campionaria dei vari strati è possibile riconoscere 3 criteri di allocazione differenti:
- Proporzionale: Si basa sulla riproduzione della stessa composizione degli strati della popolazione.
- Allocazione ottimale: Caratterizzata dall’utilizzo di rapporti di campionamento diversi per i differenti strati.
- Allocazione non proporzionale/ne ottimale: Si verifica nel caso in cui si voglia fornire delle stime anche a livello dei singoli strati.
Focalizzando ora l’attenzione riguardo invece all’aspetto dei vantaggi e degli svantaggi nell’utilizzo del campionamento stratificato è possibile rilevare fra gli aspetti positivi: - la maggiore efficienza rispetto al campionamento casuale semplice; - la diminuzione della probabilità di estrazione dei campioni meno determinanti della popolazione obiettivo; - l’opportunità di poter stimare le variabili nelle sottopopolazioni di maggior interesse per scopi di ricerca. Invece, fra gli aspetti negativi, ritroviamo innanzitutto la necessità di avere a disposizione variabili ausiliarie per ogni unità appartenenti alla lista di campionamento, questo perché, si possono verificare casi in cui alcune di esse (unità) non risultino sufficientemente correlate con le variabili di stratificazione generando a loro volta un campionamento stratificato meno efficiente.
Il campionamento a grappoli
Il campionamento a grappoli fa riferimento ad una popolazione oggetto di studio, la quale risulta costituita da sottoinsiemi di unità elementari, individuati mediante un apposito criterio, chiamati appunto grappoli. Lo schema per il campionamento in esame si basa per primo sull’estrazione senza un ordine preciso di alcuni grappoli, segue poi l’analisi di questi e delle loro rispettive unità presenti. Ricapitolando possiamo distinguere 2 momenti essenziali: 1) l’individuazione dei grappoli e la rispettiva lista di campionamento; 2) l’estrazione casuale di un certo numero di grappoli e l’analisi delle rispettive unità interne.
Questa tipologia di campionamento appare decisamente vantaggiosa in alcune situazioni; ovvero viene preferita rispetto al campionamento casuale semplice perché meno dispendioso nel caso in cui le unità in esame si contraddistinguono per dispersione sul territorio e risulta necessario un contatto diretto con queste per raccogliere delle informazioni; oppure nel caso in cui gli stessi grappoli vadano a costituire una aggregazione naturale delle unità finali analizzate, per le quali non vi è una lista. Il campionamento a grappoli per essere maggiormente efficiente rispetto a quello casuale semplice necessita che i grappoli risultino eterogenei al loro interno e ed omogenei fra di loro, in modo così da rappresentare al meglio la popolazione.
Il campionamento a più stadi
È una tecnica di campionamento che risulta molto vantaggiosa quando la popolazione in esame è molto numerosa e gli elementi possono essere raggruppati in diversi sottoinsiemi; si tende a preferire solamente l’analisi di alcune unità: metodologia che prende il nome di campionamento a due stadi. Nel caso in cui invece risultino più di 2 livelli gerarchici di sottopopolazioni abbiamo la possibilità di ipotizzare anche più di 2 stadi.
Difficilmente tuttavia nella realtà ritroviamo campionamenti a stadi in proporzione ai livelli gerarchici (ovvero più di 2), questo perché le indagini disegnate su due o più stadi aumentano notevolmente la difficoltà e la complessità organizzativa e produttiva delle stime. Analizzando il campionamento a 2 stadi ritroviamo le unità del primo stadio che vengono denominate UPS mentre quelle del secondo stadio prendono il nome di USS.
Teoricamente il campionamento a più stadi risulterebbe maggiormente efficiente rispetto al campionamento ad uno stadio, ancor di più nel caso in cui le UPS siano omogenee fra di loro e eterogenee internamente, andando così a diminuire la numerosità campionaria e di conseguenza l’errore campionario ammissibile. Nella realtà invece succede il contrario, ovvero il campionamento a grappoli e a più stadi risulta meno efficiente rispetto a quello casuale semplice. Di solito accade che venga utilizzato il campionamento a due o più stadi nei casi in cui abbiamo una rilevazione diretta dei dati attraverso la figura dell’intervistatore poiché da la possibilità di ridurne la dispersione territoriale e la complessità e di conseguenza i costi.
Campionamenti non-probabilistici
Quando il costo o il tempo richiesti dal campionamento probabilistico sono troppo alti, i ricercatori utilizzano campioni non probabilistici. Le tecniche di campionamento non probabilistico di solito sono utilizzate in diversi settori, come nelle ricerche di mercato. I vantaggi principali sono: la velocità d’esecuzione, la semplicità organizzativa, i bassi costi per la realizzazione.
Tuttavia i campionamenti non probabilistici non possono essere considerati sostituiti di quelli probabilistici poiché: non vi è possibilità di effettuare una stima della precisione dei dati, i risultati campionari non possono essere estesi a tutta la popolazione, la decisione di chi raccoglie i dati e impone la scelta delle unità di rilevazione è soggettiva e determina un certo grado di distorsione riferito alla selezione del campione.
I metodi di selezione di campioni non probabilistici possono essere diversi. Possiamo distinguere: il campionamento per quote, a scelta ragionata, volontario, e a valanga.
Il campionamento per quote
Considerato come un caso particolare fra il campionamento ragionato e quello di comodo poiché non presenta una lista predeterminata, gli intervistatori...
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Riassunto esame Statistica aziendale, prof. Gonano, libro consigliato Statistica per le decisioni aziendali, Bigger…
-
Riassunto esame Economia Aziendale, Prof. Mazzola, libro consigliato Economia Aziendale 1, McGraw-Hill
-
Riassunto esame Finanza Aziendale, prof Sandri, libro consigliato Principi di finanza aziendale, McGraw Hill
-
Riassunto esame Organizzazione aziendale, Prof. Sardi Alberto, libro consigliato Modelli di business e forme organi…