Estratto del documento

Se vi ricordate avevamo una variabile che si chiamava Attendance event nel nostro data set, questa variabile

forniva un’informazione circa la partecipazione assumendo il valore 1 o “no” assumendo valore 0 di ognuno

degli ex studenti a un particolare evento di raccolta fondi che si è verificato nel passato. In particolare, quindi

vogliamo capire se l’aver partecipato a quell’evento di raccolta fondi ha determinato una distribuzione del

totale delle somme donate che è diversa.

Quindi anticipiamo la risposta, nel senso che: Se salterà fuori che la distribuzione del totale donato è la stessa

all’interno dei due gruppi, significherà che non ci sarà evidenza che arriva dai dati per concludere che il fatto

di aver partecipato all’evento di raccolta fondi induce ad un certo tipo di comportamenti di ex alunni in

termini di totale delle donazioni.

Se invece osserveremo differenze nella distribuzione del totale donato nei due gruppi di ex studenti, allora

questo indicherà invece evidenze per concludere che vi è una relazione, un’associazione tra il fatto di aver

partecipato o meno all’evento e la distribuzione del totale delle somme donate.

Abbiamo già anticipato che in questo contesto variabile Y numerica e variabile X categorica, gli strumenti da

utilizzare sono in prima battuta un grafico rappresentato dai box plot affiancati che adesso andiamo a vedere

con riferimento ai nostri dati e prima di farlo però teniamo conto del fatto che (abbiamo già visto nelle analisi

univariate delle analisi precedenti) che c’è una grossa quota di individui che non ha mai donato nulla in 5

anni. Ci concentriamo quindi ora solo sul sottogruppo di ex alunni che hanno donato qualcosa di positivo in

questi 5 anni, tralasciando almeno per il momento il gruppo di individui che non hanno mai donato nulla.

Questo perché questo focus sugli individui che hanno donato qualcosa di strettamente positivo ci permetterà

di evitare di trovarsi nei grafici e nelle analisi, un gran numero di individui, si dice una massa di oss ervazioni

tutte uguali a 0 che possono influenzare in maniera molto massiccia il risultato finale all’analisi.

Vediamo ora questi box plot affiancati: i Box plot affiancati sono riportati in questo grafico.

Vedete che sull’asse orizzontale sono stati riportati i

due gruppi a cui corrisponde la variabile Attendance

event.

“0” vuol dire il gruppo di individui, quindi questi sulla

sinistra sono gli individui che non hanno partecipato

all’evento di raccolta fondi e questo che si vede molto

schiacciato (cerchiato in rosso) è il box plot relativo al

tot donato (totgiving), quindi alla somma totale donata

sui 5 anni complessivamente da questi individui

Sulla destra abbiamo la stessa informazione cioè lo

stesso box plot ma per gli individui, relativamente

sempre al totale delle somme donate sui 5 anni, ma per

gli individui che hanno partecipato all’evento di raccolta fondi.

I box plot sia nel gruppo a sx che nel groppo a dx risultano essere molto schiacciati per il semplice motivo che

sono presenti nel gruppo di coloro che hanno partecipato all’evento molti outlier, ricordate che questi puntini

(che si vedono sopra al numero 1) in un box plot identificano dei potenziali outlier. Dunque, per cercare di

zoomare un po’ questa porzione del grafico, quello che vediamo da questo grafico (in basso), cioè gli outlier,

ma sappiamo però che gli outlier sono pochi rispetto alla massa totale di osservazioni. Cerchiamo di zoomare

sulla scala verticale, quindi nella slide successiva riproduciamo lo stesso grafico ma limitando la scala

verticale fino a 2000 euro, in questo modo riusciamo a vedere un po’ meglio nel dettaglio cosa succede

all’interno dei due box plot che qui non sono visibili. Ecco qui rappresentati i box plot zoommati sulla

scala verticale fino a 2000 euro. Che cosa si vede?

Si vede che in primis l’obbiettivo di questo grafico

è quello di confrontare questi box plot attraverso

le categorie che abbiamo sull’asse orizzontale.

Quindi andiamo a confrontare il box plot a sx con

il box plot a dx ed evidenziamo quali sono le

caratteristiche principali che li differenziano se ce

ne sono.

Vediamo subito che in termini di valore minimo

osservato è lo stesso valore, anche se non si

capisce benissimo ma è molto simile, anche in

termine del primo quartile (vi ricordo che il primo

quartile è la linea in basso a sx del quadrato per il gruppo che non ha partecipato alla raccolta fondi, e il

primo quartile per quelli che hanno partecipato alla raccolta fondi è la linea in basso a dx del quadrato)

(vedete che il primo 25% delle due distribuzioni è un po’ più grande nel gruppo di chi ha partecipato rispetto

al gruppo di chi non ha partecipato). Una differenza ancora più grande la si vede per le mediane che sono le

due linee più marcate al centro dei quadrati (quelle rappresentano le mediane), e una differenza ancora più

grande la si nota per il terzo quartile che per il gruppo di chi ha partecipato alla raccolta fondi è all’incirca di

800 dollari complessivamente donati sui 5 anni, il terzo quartile invece per chi non ha partecipato alla

raccolta fondi è sotto i 500 dollari complessivamente (il terzo quartile è rappresentato dalla linea superiore

del rettangolo).

Quindi abbiamo una differenza marcata in termini del terzo quartile, un po’ meno visibile in termini della

mediana, in particolare la mediana del totale donato per chi ha partecipato all’evento è un pochino più

grande della mediana per chi non ha partecipato all’evento.

In aggiunta possiamo dire che come ulteriore differenza abbiamo una maggiore eterogeneità dei dati

all’interno del gruppo di chi ha partecipato all’evento. La maggiore eterogeneità la si vede chiaramente

perché i valori dell’ammontare totale donato sono molto più diversi tra di loro (eterogenei in questo gruppo)

che non nel gruppo a sinistra. Lo si capisce sia semplicemente guardando il box plot, ma più nel dettaglio una

misura della variabilità che non abbiamo citato ma che possiamo aggiungere adesso, è la differenza

interquartile. Cioè: la differenza tra terzo e primo quartile è una misura di variabilità che è migliore del range

ma è ancora un po’ grezza perché utilizza solo chiaramente il 50% centrale dei dati, quindi scarta il primo

25% e l’ultimo 25%, ma in prima battuta può essere usata come misura della variabilità. Vedete che questo

range o interferenza interquartile è abbastanza più grande per il gruppo di chi ha partecipato all’evento

rispetto al gruppo di chi non ha partecipato.

Infine, il gruppo di chi ha partecipato presenta molti più outlier e sono outlier abba stanza estremi.

Lo abbiamo visto dal grafico precedente, ci sono più individui che hanno donato somme complessivamente

molto generose nel gruppo di chi ha partecipato all’evento di racconta fondi rispetto a chi non ha partecipato.

Questo tipo di informazioni di grafico che è molto semplice, però fornisce delle informazioni interessanti per

ad esempio le associazioni che gestiscono gli ex alunni delle università anche in Italia, in alcune università

queste associazioni sono molto attive e mantengono nel tempo rapporti molto stretti con gli ex alunni e si

capisce molto bene che evidentemente c’è una relazione tra il fatto che gli ex alunni partecipino o no ad un

evento di raccolta fondi e poi l’ammontare che viene donato successivamente e da questa prima semplice

analisi preliminare sicuramente emerge che chi partecipa ad eventi di raccolta fondi tende a donare

mediamente (in termini di mediana in questo caso) di più rispetto a chi invece non partecipa a questi eventi.

Tutti questi commenti li trovate raccolti nella slide

successiva. Nelle slide successive avete altri 3

esempi di analisi bivariate di una

risposta numerica contro un

predittore categorico dove la risposta

numerica è sempre quella: il totale

donato sui 5 anni; e la variabile

categorica varia da grafico a grafico.

In questo grafico abbiamo i box plot

affiancati per il totale donato rispetto

all’anno di immatricolazione (dal 57

al 97), che cosa si vede abbastanza

chiaramente? Che più ci spostiamo

verso le classi più recenti, quindi

verso gli anni più recenti e più basso è

il valore della mediana del totale

donato così come diventano più omogenei tra di loro, cioè i range interquartili e le differenze interquartili si

riducono spostandosi verso gli anni più recenti, e quindi significa che c’è una variabilità inferiore all’interno

delle diverse distribuzioni.

Quindi, anche in questo caso si conclude che: poiché i box plot non sono uguali rispetto alle categorie

sull’asse orizzontale, si conclude che c’è evidenza di una certa relazione che lega il totale donato all’anno di

immatricolazione. Si può dire anche che in termini di mediana c’è una riduzione, anche se lieve ma evidente

nella mediana del totale donato negli anni considerati in questo grafico, così come c’è una relazione che

riguarda anche la eterogeneità, via via che ci spostiamo verso gli anni più recenti l’eterogeneità diminuisce.

Un ulteriore esempio che vi lascio commentare un po’ per

conto vostro è questa situazione in cui abbiamo sempre il

totale donato, contro però il genere femmina/maschio e

vedete che in questo caso c’è poca evidenza di un

differenza tra la distribuzione del totale donato nei due

gruppi dei maschi e delle femmine. Quindi stanno

emergendo delle informazioni importanti e utili:

- Chi partecipa ad una raccolta fondi tende a donare di più

in media

- Chi è più anziano tende a donare di più rispetto a chi è

più giovane (slide precedente)

- Sembra che non ci sia una differenza sostanziale tra maschi e femmine

Nel grafico successivo abbiamo l’ultimo esempio in cui il

totale donato è incrociato con le informazioni che

riguardano lo stato civile di:

- D: divorziato

- M: spostato

- S: single

- W: vedovo

Cosa si vede? Anche qui c’è una evidenza di una relazione tra le due variabili, perché in funzione dello stato

civile abbiamo una distribuzione, un comportamento della variabile Y, distribuzione della variabile Y che è

diversa. Si vede chiaramente che la mediana del totale donato, relativa al gruppo degli ex-alunni che sono

vedovi è molto più grande, siamo sull’ordine dei 1500 dollari circa complessivamente sui 5 anni, alta rispetto

a quella degli altri gruppi e

Anteprima
Vedrai una selezione di 10 pagine su 44
Business data science Pag. 1 Business data science Pag. 2
Anteprima di 10 pagg. su 44.
Scarica il documento per vederlo tutto.
Business data science Pag. 6
Anteprima di 10 pagg. su 44.
Scarica il documento per vederlo tutto.
Business data science Pag. 11
Anteprima di 10 pagg. su 44.
Scarica il documento per vederlo tutto.
Business data science Pag. 16
Anteprima di 10 pagg. su 44.
Scarica il documento per vederlo tutto.
Business data science Pag. 21
Anteprima di 10 pagg. su 44.
Scarica il documento per vederlo tutto.
Business data science Pag. 26
Anteprima di 10 pagg. su 44.
Scarica il documento per vederlo tutto.
Business data science Pag. 31
Anteprima di 10 pagg. su 44.
Scarica il documento per vederlo tutto.
Business data science Pag. 36
Anteprima di 10 pagg. su 44.
Scarica il documento per vederlo tutto.
Business data science Pag. 41
1 su 44
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher ely98love di informazioni apprese con la frequenza delle lezioni di Business data science e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Comba Rinaldo.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community