Big data analytics

Appunti che sono stati presi durante il corso di Big data analytics integrati con spiegazione di grafici e risultati. Unito - Big data analytics - Direzione d'impresa, Marketing e strategia, …

Esame Big data analytics

Facoltà Economia

Dal corso del Prof. Venturini Sergio

Università Università degli studi di Torino

Publisher appuntiPA

A.A. 2019-2020

130 pagine

3 download

Appunto

Vota 4,0 / 5 (1)

Scarica

Estratto del documento

Statistica test e interpretazione dei risultati

La statistica test può assumere solo valori non-negativi poiché abbiamo già visto che SSR ridotto > SSR completo. Quanto più grande è il valore della statistica, tanto più forte è l'evidenza empirica fornita dai dati contro l'ipotesi nulla.

Come sempre in un test, decidiamo se rifiutare o meno l'ipotesi nulla in base al corrispondente p-value fornito dal software. Se il p-value è sufficientemente piccolo, allora rifiutiamo l'ipotesi nulla.

L'interpretazione della decisione finale è dunque la seguente: il rifiuto dell'ipotesi nulla in favore dell'alternativa (ovvero, quando il p-value è minore di a) indica che almeno uno dei predittori aggiuntivi nel modello completo sembra fornire informazioni rilevanti sulla risposta rispetto a quanto fornito dai q predittori del modello ridotto. Più concretamente, questo risultato può essere visto come una...

conferma del fatto che il modello completo sia «migliore» (da un punto di vista statistico) di quello ridotto. Il mancato rifiuto dell’ipotesi nulla in favore dell’alternativa (ovvero, quando p-value non è minore di a) indica che non possiamo escludere la possibilità che nessuno dei predittori aggiuntivi nel modello completo sembra fornire informazioni rilevanti sulla risposta rispetto a quanto fornito dai predittori del modello ridotto). Più concretamente, questo risultato può essere visto come il fatto che il modello completo «non sia migliore» (da un punto di vista statistico) del modello ridotto. Riprendiamo i risultati dell’ultimo modello che avevamo stimato, quello che includeva tutte ilot.size, bedrooms, bathrooms, age, fireplaces, predittori numerici, ovvero che rappresenta il modello completo. Supponiamo ora che un market specialist suggerisca di rimuovere dal modello sia l’età della casa sia il numero di caminetti.poiché è convinta che queste caratteristiche non siano rilevanti per prevedere il prezzo di una casa in questo mercato. Per sottoporre a verifica questa affermazione, dobbiamo confrontare il modello completo, dato da p con il modello ridotto, che esclude le variabili age e fireplaces. Quindi, in questo esempio abbiamo p e q cosicché il numero di coefficienti = 5 = 3, congiuntamente sottoposti a test è p-q = 2. Il test da eseguire quindi corrisponde a: Ora riportiamo la stima del modello ridotto: Ed infine i risultati del test F:

I due modelli sono riportati nel precedente output come Model 1 (modello ridotto) e Model 2 (modello completo) rispettivamente.
La statistica test è pari a 19.328.
Il corrispondente p-value, 5.052e-09, è molto inferiore all'usuale livello di significatività a = 0.05, cosicché possiamo senz'altro rifiutare l'ipotesi nulla.
Possiamo quindi affermare che i dati supportano la

conclusione che il modello completo, che include fireplaces, include anche le variabili e fornisce una spiegazione del prezzo delle case significativamente migliore rispetto al modello ridotto, il quale invece esclude queste due variabili. • La stessa conclusione può essere espressa dicendo che esiste evidenza nei dati che almeno uno dei coefficienti di e sia non nullo nella popolazione. Sottolineiamo come questa conclusione riguardi solo la rilevanza congiunta delle due variabili. Per avere un'idea anche della loro rilevanza possiamo confrontare i corrispondenti valori dell'R-quadro. Questi sono 0.406 per il modello completo e 0.392 per quello ridotto, perciò concludiamo che queste due variabili effettivamente non sono decisive nella previsione dei prezzi di mercato delle case in questo mercato. Infine, sottolineiamo che l'R-quadro corretto potrebbe dare delle indicazioni opposte rispetto al F-test ovvero potrebbe risultare maggiore.

Il tuo compito è formattare il testo fornito utilizzando tag html.

ATTENZIONE: non modificare il testo in altro modo, NON aggiungere commenti, NON utilizzare tag h1;

o minore nel modello ridotto rispetto al modelloF.completo indipendentemente dal risultato del testCiò dipende dal fatto che l’R-quadro corretto non prende in considerazione l’incertezza dovuta alfatto che le stime sono basate su dati campionari e non su tutta la popolazione.F,Ora esaminiamo due casi particolari del test il secondo dei quali può essere utile in alcuni casi.

Il primo dei due casi particolari riguarda la situazione in cui ovvero quando i modellip-q = 1,completo e ridotto diﬀeriscono solo per un predittore.FIl test in questo caso si riduce a tche chiaramente coincide con il test sul singolo coeﬃciente Bpt FIn questo caso i p-value del test e del test sarebbero identici, conducendo quindi allamedesima conclusione.
Il secondo caso particolare corrisponde invece alla situazione in cui ovvero quando sip-q= p,tuttivuole testare la significatività congiunta di i coeﬃcienti del modello completo.FIl test in questo caso corrisponde

Questo test è spesso chiamato e in è riportato nell'ultima riga dell'output di Rqualsiasi regressione lineare. Facciamo notare che l'ipotesi nulla include tutti i coeﬃcienti tranne l'intercetta test globale! nel il modello ridotto è molto elementare poiché include solo l'intercetta B0. Con riferimento al nostro esempio sul mercato immobiliare, il test globale: che, come detto, corrisponde agli stessi risultati riportati nell'ultima riga dell'output visto in precedenza. Notiamo che la conclusione del test F globale in questo esempio non è inattesa -> i dati forniscono evidenza per concludere che almeno uno dei predittori considerati permette di prevedere una quota significativa della variabilità dei prezzi di vendita.

Predittori categorici nella regressione lineare Fino ad oggi abbiamo considerato solo casi in cui i predittori erano solo di tipo numerico. In questa lezione, al fine di introdurre

più flessibilità nei modelli di regressioni, includiamo anche delle informazioni categoriche. E’ possibile fare ciò attraverso due strumenti:

variabili dummy: è una variabile categorica binaria, ovvero può assumere solo due valori 0 o 1.
Interazioni: è una variabile ottenuta moltiplicando tra loro altri due predittori.

Consideriamo alcuni esempi che coinvolgono delle variabili categoriche:

E’ plausibile ritenere che la spesa dei consumatori aumenti con il loro stipendio indipendentemente dalla posizione geografica? Oppure si ritiene più ragionevole che la spesa aumenti più velocemente per coloro che vivono in prossimità di un negozio o di un centro commerciale?
Possiamo pensare che i consumatori siano tutti ugualmente price sensitive indipendentemente dal canale di vendita? Oppure si ritiene più ragionevole che la sensibilità al prezzo sia più alta per le vendite online?

Predittori categorici

nella regressione lineare - dummy Come abbiamo detto, una variabile dummy assume solo due possibili valori, tipicamente codificati come 0 e 1. Il valore 1 usualmente identifica la presenza di una specifica caratteristica qualitativa, mentre il 0 identifica l'assenza. In questo modo la variabile dummy esprime l'informazione relativa al genere convertendola in una variabile numerica che può essere inclusa come predittore in un modello di regressione. Consideriamo nuovamente i dati sul mercato immobiliare e includiamo nel modello anche l'informazione relativa alla presenza o meno nella casa di un sistema di condizionamento dell'aria. Central.air assumerà quindi valore 1 nel caso abbia un sistema centralizzato di aria condizionata e 0 viceversa. Prima di tutto esploriamo i dati confrontando la distribuzione del prezzo di vendita nei due sotto-campioni delle case con e senza il sistema di aria condizionata. Si vede come la presenza di aria condizionata aumenta.

Per illustrare come si utilizzano e come si interpretano le variabili dummy in un modello di regressione lineare, procediamo ora a stimare un primo modello in cui per il momento useremo come predittori solo le variabili "lot.size" e "central.air".

Nell'output il software indica a fianco del nome della variabile dummy inserita, la categoria in corrispondenza della quale la dummy assume valore 1, in questo esempio l'etichetta si chiama "central.air1".

L'equazione stimata per il modello è:

Entrambi i coefficienti sono ancora altamente significativi (ovvero, hanno p-value bassi) - "central.air" e "lot.size" sono contraddistinti da coefficienti positivi (ovvero, hanno un'associazione positiva con i prezzi di vendita).

L'equazione può aiutarci a caratterizzare le case che non hanno aria condizionata. Fissando "central.air" pari a zero, il secondo termine nell'equazione precedente scompare ottenendo:

Questa equazione descrive la relazione

Stimata sulla base dei dati che lega a per le sole case senza aria condizionata. Di conseguenza, per questo gruppo di case l'intercetta è pari a $150,167 e l'inclinazione $2.1 per ogni piede quadrato Central.air Per le case con sistema di condizionamento invece, è pari a 1, quindi l'equazione del modello restituisce:

Questa nuova equazione descrive la relazione stimata sulla base dei dati che lega a per le sole case con aria condizionata. Per questo gruppo l'intercetta è pari a $215,777 e l'inclinazione è ancora $2.1 per ogni piede quadrato.

Dal confronto di queste due equazioni possiamo concludere che le case con aria condizionata hanno un prezzo medio di vendita più elevato di $65,610 rispetto a quelle che ne sono sprovviste, indipendentemente dalle dimensioni della casa. Abbiamo quindi stimato due rette separate che differiscono solo per il valore dell'intercetta.

Predittori categorici nella

regressione lineare - Interazioni

Abbiamo visto che l'inclusione di una variabile dummy in un modello di regressione permette di renderlo più flessibile, poiché ciò permette di stimare rette con intercetta differente, ma con la stessa inclinazione.

Possiamo rendere il modello ancora più flessibile consentendo che anche il coefficiente angolare possa essere diverso.

Un'interazione è definita come il prodotto di due predittori, solitamente anch'essi presenti nel modello. In questo corso considereremo solo il caso di una variabile numerica moltiplicata per una dummy, chiamata lot.size central.air.

Prima di stimare il modello, notiamo che l'interazione tra lot.size e central.air assumerà un valore uguale a quello di pe

Anteprima

Vedrai una selezione di 20 pagine su 130