Se vi ricordate avevamo una variabile che si chiamava Attendance event nel nostro data set, questa variabile
forniva un’informazione circa la partecipazione assumendo il valore 1 o “no” assumendo valore 0 di ognuno
degli ex studenti a un particolare evento di raccolta fondi che si è verificato nel passato. In particolare, quindi
vogliamo capire se l’aver partecipato a quell’evento di raccolta fondi ha determinato una distribuzione del
totale delle somme donate che è diversa.
Quindi anticipiamo la risposta, nel senso che: Se salterà fuori che la distribuzione del totale donato è la stessa
all’interno dei due gruppi, significherà che non ci sarà evidenza che arriva dai dati per concludere che il fatto
di aver partecipato all’evento di raccolta fondi induce ad un certo tipo di comportamenti di ex alunni in
termini di totale delle donazioni.
Se invece osserveremo differenze nella distribuzione del totale donato nei due gruppi di ex studenti, allora
questo indicherà invece evidenze per concludere che vi è una relazione, un’associazione tra il fatto di aver
partecipato o meno all’evento e la distribuzione del totale delle somme donate.
Abbiamo già anticipato che in questo contesto variabile Y numerica e variabile X categorica, gli strumenti da
utilizzare sono in prima battuta un grafico rappresentato dai box plot affiancati che adesso andiamo a vedere
con riferimento ai nostri dati e prima di farlo però teniamo conto del fatto che (abbiamo già visto nelle analisi
univariate delle analisi precedenti) che c’è una grossa quota di individui che non ha mai donato nulla in 5
anni. Ci concentriamo quindi ora solo sul sottogruppo di ex alunni che hanno donato qualcosa di positivo in
questi 5 anni, tralasciando almeno per il momento il gruppo di individui che non hanno mai donato nulla.
Questo perché questo focus sugli individui che hanno donato qualcosa di strettamente positivo ci permetterà
di evitare di trovarsi nei grafici e nelle analisi, un gran numero di individui, si dice una massa di oss ervazioni
tutte uguali a 0 che possono influenzare in maniera molto massiccia il risultato finale all’analisi.
Vediamo ora questi box plot affiancati: i Box plot affiancati sono riportati in questo grafico.
Vedete che sull’asse orizzontale sono stati riportati i
due gruppi a cui corrisponde la variabile Attendance
event.
“0” vuol dire il gruppo di individui, quindi questi sulla
sinistra sono gli individui che non hanno partecipato
all’evento di raccolta fondi e questo che si vede molto
schiacciato (cerchiato in rosso) è il box plot relativo al
tot donato (totgiving), quindi alla somma totale donata
sui 5 anni complessivamente da questi individui
Sulla destra abbiamo la stessa informazione cioè lo
stesso box plot ma per gli individui, relativamente
sempre al totale delle somme donate sui 5 anni, ma per
gli individui che hanno partecipato all’evento di raccolta fondi.
I box plot sia nel gruppo a sx che nel groppo a dx risultano essere molto schiacciati per il semplice motivo che
sono presenti nel gruppo di coloro che hanno partecipato all’evento molti outlier, ricordate che questi puntini
(che si vedono sopra al numero 1) in un box plot identificano dei potenziali outlier. Dunque, per cercare di
zoomare un po’ questa porzione del grafico, quello che vediamo da questo grafico (in basso), cioè gli outlier,
ma sappiamo però che gli outlier sono pochi rispetto alla massa totale di osservazioni. Cerchiamo di zoomare
sulla scala verticale, quindi nella slide successiva riproduciamo lo stesso grafico ma limitando la scala
verticale fino a 2000 euro, in questo modo riusciamo a vedere un po’ meglio nel dettaglio cosa succede
all’interno dei due box plot che qui non sono visibili. Ecco qui rappresentati i box plot zoommati sulla
scala verticale fino a 2000 euro. Che cosa si vede?
Si vede che in primis l’obbiettivo di questo grafico
è quello di confrontare questi box plot attraverso
le categorie che abbiamo sull’asse orizzontale.
Quindi andiamo a confrontare il box plot a sx con
il box plot a dx ed evidenziamo quali sono le
caratteristiche principali che li differenziano se ce
ne sono.
Vediamo subito che in termini di valore minimo
osservato è lo stesso valore, anche se non si
capisce benissimo ma è molto simile, anche in
termine del primo quartile (vi ricordo che il primo
quartile è la linea in basso a sx del quadrato per il gruppo che non ha partecipato alla raccolta fondi, e il
primo quartile per quelli che hanno partecipato alla raccolta fondi è la linea in basso a dx del quadrato)
(vedete che il primo 25% delle due distribuzioni è un po’ più grande nel gruppo di chi ha partecipato rispetto
al gruppo di chi non ha partecipato). Una differenza ancora più grande la si vede per le mediane che sono le
due linee più marcate al centro dei quadrati (quelle rappresentano le mediane), e una differenza ancora più
grande la si nota per il terzo quartile che per il gruppo di chi ha partecipato alla raccolta fondi è all’incirca di
800 dollari complessivamente donati sui 5 anni, il terzo quartile invece per chi non ha partecipato alla
raccolta fondi è sotto i 500 dollari complessivamente (il terzo quartile è rappresentato dalla linea superiore
del rettangolo).
Quindi abbiamo una differenza marcata in termini del terzo quartile, un po’ meno visibile in termini della
mediana, in particolare la mediana del totale donato per chi ha partecipato all’evento è un pochino più
grande della mediana per chi non ha partecipato all’evento.
In aggiunta possiamo dire che come ulteriore differenza abbiamo una maggiore eterogeneità dei dati
all’interno del gruppo di chi ha partecipato all’evento. La maggiore eterogeneità la si vede chiaramente
perché i valori dell’ammontare totale donato sono molto più diversi tra di loro (eterogenei in questo gruppo)
che non nel gruppo a sinistra. Lo si capisce sia semplicemente guardando il box plot, ma più nel dettaglio una
misura della variabilità che non abbiamo citato ma che possiamo aggiungere adesso, è la differenza
interquartile. Cioè: la differenza tra terzo e primo quartile è una misura di variabilità che è migliore del range
ma è ancora un po’ grezza perché utilizza solo chiaramente il 50% centrale dei dati, quindi scarta il primo
25% e l’ultimo 25%, ma in prima battuta può essere usata come misura della variabilità. Vedete che questo
range o interferenza interquartile è abbastanza più grande per il gruppo di chi ha partecipato all’evento
rispetto al gruppo di chi non ha partecipato.
Infine, il gruppo di chi ha partecipato presenta molti più outlier e sono outlier abba stanza estremi.
Lo abbiamo visto dal grafico precedente, ci sono più individui che hanno donato somme complessivamente
molto generose nel gruppo di chi ha partecipato all’evento di racconta fondi rispetto a chi non ha partecipato.
Questo tipo di informazioni di grafico che è molto semplice, però fornisce delle informazioni interessanti per
ad esempio le associazioni che gestiscono gli ex alunni delle università anche in Italia, in alcune università
queste associazioni sono molto attive e mantengono nel tempo rapporti molto stretti con gli ex alunni e si
capisce molto bene che evidentemente c’è una relazione tra il fatto che gli ex alunni partecipino o no ad un
evento di raccolta fondi e poi l’ammontare che viene donato successivamente e da questa prima semplice
analisi preliminare sicuramente emerge che chi partecipa ad eventi di raccolta fondi tende a donare
mediamente (in termini di mediana in questo caso) di più rispetto a chi invece non partecipa a questi eventi.
Tutti questi commenti li trovate raccolti nella slide
successiva. Nelle slide successive avete altri 3
esempi di analisi bivariate di una
risposta numerica contro un
predittore categorico dove la risposta
numerica è sempre quella: il totale
donato sui 5 anni; e la variabile
categorica varia da grafico a grafico.
In questo grafico abbiamo i box plot
affiancati per il totale donato rispetto
all’anno di immatricolazione (dal 57
al 97), che cosa si vede abbastanza
chiaramente? Che più ci spostiamo
verso le classi più recenti, quindi
verso gli anni più recenti e più basso è
il valore della mediana del totale
donato così come diventano più omogenei tra di loro, cioè i range interquartili e le differenze interquartili si
riducono spostandosi verso gli anni più recenti, e quindi significa che c’è una variabilità inferiore all’interno
delle diverse distribuzioni.
Quindi, anche in questo caso si conclude che: poiché i box plot non sono uguali rispetto alle categorie
sull’asse orizzontale, si conclude che c’è evidenza di una certa relazione che lega il totale donato all’anno di
immatricolazione. Si può dire anche che in termini di mediana c’è una riduzione, anche se lieve ma evidente
nella mediana del totale donato negli anni considerati in questo grafico, così come c’è una relazione che
riguarda anche la eterogeneità, via via che ci spostiamo verso gli anni più recenti l’eterogeneità diminuisce.
Un ulteriore esempio che vi lascio commentare un po’ per
conto vostro è questa situazione in cui abbiamo sempre il
totale donato, contro però il genere femmina/maschio e
vedete che in questo caso c’è poca evidenza di un
differenza tra la distribuzione del totale donato nei due
gruppi dei maschi e delle femmine. Quindi stanno
emergendo delle informazioni importanti e utili:
- Chi partecipa ad una raccolta fondi tende a donare di più
in media
- Chi è più anziano tende a donare di più rispetto a chi è
più giovane (slide precedente)
- Sembra che non ci sia una differenza sostanziale tra maschi e femmine
Nel grafico successivo abbiamo l’ultimo esempio in cui il
totale donato è incrociato con le informazioni che
riguardano lo stato civile di:
- D: divorziato
- M: spostato
- S: single
- W: vedovo
Cosa si vede? Anche qui c’è una evidenza di una relazione tra le due variabili, perché in funzione dello stato
civile abbiamo una distribuzione, un comportamento della variabile Y, distribuzione della variabile Y che è
diversa. Si vede chiaramente che la mediana del totale donato, relativa al gruppo degli ex-alunni che sono
vedovi è molto più grande, siamo sull’ordine dei 1500 dollari circa complessivamente sui 5 anni, alta rispetto
a quella degli altri gruppi e
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.