Anteprima
Vedrai una selezione di 5 pagine su 16
Schemi di Business Data Science Pag. 1 Schemi di Business Data Science Pag. 2
Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.
Schemi di Business Data Science Pag. 6
Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.
Schemi di Business Data Science Pag. 11
Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.
Schemi di Business Data Science Pag. 16
1 su 16
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Variabile X Numerica e Y Numerica

Per rappresentare il rapporto tra due variabili numeriche possiamo usare il grafico a

barre impilate:

Così facendo otteniamo il seguente grafico che distingue sempre, le classi di corso con

il totale (corretto) delle donazioni.

Possiamo utilizzare anche i diagrammi di dispersione per capire il tipo di relazione tra

le variabili:

Analizzando la nuvola di punti possiamo estrapolare numerose informazioni riguardo la

distribuzione, come il tipo di relazione presente, la sua forza, la presenza di outlier e

molto altro.

Inoltre se vogliamo analizzare più di due variabili per volta possiamo utilizzare il

comando pair:

Ottenendo così:

Infine, per valutare la relazione possiamo usare l’indice di covarianza, che può avere

un valore che va da -1 a +1, se si avvicina a zero significa che la relazione va ad

essere sempre più debole, fino a scomparire (o ad indicare che non si tratta di una

relazione lineare).

Regressione Lineare Semplice

Il primo passo per eseguire questa analisi è creare il modello lineare, per mezzo del

comando lm:

Dopo di che introduciamo il comando summary per ottenere informazioni riguardanti il

modello e i suoi coefficienti: Al suo interno troviamo i residuals, i

quali danno info sulla distribuzione

delle osservazioni.

I coefficienti, che con i relativi p-value,

saranno i principali protagonisti della

nostra analisi.

Infine, l’R-Squared che indica il grado

di bontà del modello. Se volessimo

comparare questo modello con altri

potremmo usare l’R-Squared Adjusted,

che tiene conto del numero di

predittori aggiunti nel modello, quindi non aumenterà necessariamente al loro

aumentare, ma terrà conto di un coefficiente di penalizzazione.

Con il comando coefficients possiamo vedere i dati del summary senza troppe

sbavature:

Il comando confint, invece, ci permette di calcolare l’intervallo di confidenza del

modello creato sopra. In base alla percentuale indicata il modello sarà più o meno

preciso.

Se invece volessimo provare a prevedere quale potrebbe essere la variabile di risposta

nel caso in cui la x assumesse determinati valori dovremmo fare una specifica

previsione, creando dapprima un nuovo data.frame e poi utilizzando il comando

predict.

In questo modo otteniamo il valore medio, il minimo ed il massimo dell’intervallo di

confidenza considerando le vendite online del valore di 70.

Regressione Lineare Multipla

Nel momento in cui dovessimo analizzare una distribuzione con più di un predittore,

dovremmo creare un modello particolare:

Con questo tipo di modelli dovremo inserire per prima la variabile di risposta: la Y; il

separatore è la tilde [inserita con il comando Alt + 126] e dopo di che inseriremo le

variabili X (predittori).

Dobbiamo ricordare che, se tra i predittori inseriamo il simbolo + otterremo un’analisi

solo sulle loro variabili dummy, mentre se vi inseriremo la * considereremo anche le

loro rispettive interazioni. Da questo summary possiamo capire che

tutte le variabili sono altamente

significative per il modello, siccome tutti e

tre i p-value sono piccoli.

L’R-Squared ci dice quanto la parte

strutturale del modello è in grado di

spiegare delle info della variabilità dei

prezzi di vendita.

In questo summary notiamo che viene

analizzata l’interazione tra le due

variabili. L’intercetta

rappresenterà la baseline, quindi il

prezzo, e rispettivamente dovremo

aggiungere o togliere il valore delle

intercette delle altre osservazioni per

ottenere il coefficiente dummy. Mentre la

differenza tra le inclinazioni delle rette

rappresenterà il coefficiente di

interazione.

Possiamo poi calcolare l’intervallo di confidenza per il modello con variabili dummy

mediante il comando confint: Notiamo che l’intervallo riguarda tutti i valori,

anche l’interazione

Anche in questo caso è possibile fare delle previsioni sul modello precedentemente

creato assegnando alla x determinati valori:

Dobbiamo valutare anche l’ampiezza dell’intervallo riportato da predict. Ci potrebbe

piacere un intervallo piuttosto ridotto, ma quello soprastante, per esempio, è poco

accurato.

Test F per Modelli Annidati

Per confrontare tra loro due modelli che condividono gran parte dei predittori

dobbiamo usare il test f per modelli annidati, non l’R-Squared Adjusted. Quest’ultimo

lo utilizziamo per confrontare tra loro modelli di diverso tipo.

Per confrontare i modelli annidati dobbiamo creare un modello completo e uno

ridotto, infine con il comando anova li mettiamo a confronto.

(prima inseriamo il modello

ridotto)

L’ipotesi nulla è che sia

meglio il modello ridotto. Se

il p-value è inferiore a 0.05

rifiutiamo l’ipotesi nulla e

riteniamo migliore il modello completo.

In questo caso notiamo che il p-value è molto piccolo, per cui dobbiamo considerare il

modello completo come il modello migliore.

teoria da sapere:

Diagnostiche per RLM

Alcuni modelli vanno modificati per rendere le assunzioni trovate adeguate al tipo di

relazione analizzata. Dobbiamo dividere le diagnostiche in quattro categorie:

1) Ipotesi di linearità ==> non sempre la relazione è lineare

Dopo aver creato il modello di regressione andiamo ad analizzare il plot con abline, in

modo tale da capire se la distribuzione segue un andamento lineare o meno.

Dal grafico notiamo che l’andamento è lineare:

Ma nel caso in cui non lo fosse dovremmo fornire alla distribuzione il termine

quadratico per rendere il modello adatto. Per esempio:

In questo caso specifico notiamo già che la distribuzione segue un modello parabolico,

per cui per mezzo del grafico che confronta i residui con i valori previsti lo andiamo a

testare:

Per cui andiamo ad inserire l’elemento quadratico all’interno del modello per mezzo

dell’oggetto “poly”:

All’interno del summary il poly..1 indicherà l’inclinazione (b1) e il poly..2 il verso della

parabola.

2) Ipotesi di influenza delle informazioni

Dopo aver creato il modello lineare e analizzato il grafico ipotizziamo che potrebbero

essere presenti dei valori anomali nella distribuzione.

Gli outlier sono da considerare come osservazioni con valori anomali per quanto

riguarda i residui, ovvero la variabile Y. Per cui dobbiamo analizzare i valori critici

attraverso i residui studentizzati, per cui applicando il comando influencePlot.

Analizzando gli StudRes che non rimangono nel

range -2 e +2 possiamo notare la presenza degli

eventuali valori anomali. E poi, attraverso la

colonna CookD, possiamo capire quali di questi

valori sono maggiormente influenti per la

distribuzione.

La soglia per valutare la significatività dei CookD è 1.

Questo grafico invece mostra ciò che abbiamo

appena analizzato mediante la tabella. I cerchi

colorati rappresentano le osservazioni anomale e

il colore aumenta di intensità all’aumentare della

loro “anomalia” e significatività per la

distribuzione.

3) Osservazioni ad alto leverage

Le osservazioni ad elevato leverage non sono altro che i valori estremi rispetto alla X.

Un’osservazione molto distanziata dalle altre non p necessariamente un outlier, se il

suo residuo è uguale a zero è sulla retta Vi sarà quindi un valore inatteso rispetto alla

coordinata orizzontale del punto.

Dal grafico notiamo subito un’osservazione che segue l’andamento della retta, per cui

ha residuo pari a zero, ma che è molto distante rispetto al resto delle osservazioni.

Anche questa volta dovremo applicare l’influencePlot, ma lo analizzeremo in un modo

diverso. Anche in questo caso osserviamo i CookD > 1.

Questa volta valutiamo gli HatValues e per

farlo utilizziamo la seconda linea del grafico a

fianco.

Questa linea rappresenta tre volte la media

degli HatValues, sono considerate osservazioni

al alto leverage quelle che si trovano alla sua

destra.

4) Ipotesi di variabilità degli errori

Una delle assunzioni del modello di regressione lineare è che la varianza degli errori

sia assunta come COSTANTE. Spoiler: non sempre è così.

Nel caso in cui la varianza fosse costante ci troveremmo in una situazione detta ==>

IPOTESI DI OMOSCHEDASTICITA’.

La violazione di questa assunzione, ovvero la varianza non costante, è detta IPOTESI

DI ETEROSCHEDASTICITA’. Le conseguenze ottenute in questo caso sarebbero:

minimi quadrati

Stime dei meno efficienti

 P-value, intervalli di confidenza di previsione

e intervalli non più affidabili.

Per eseguire questa analisi abbiamo tre strumenti a nostra disposizione:

Controlliamo che la distribuzione segua la linea rossa, se non la segue ma aumenta o

diminuisce lungo essa noteremo una varianza crescente o decrescente dei residui.

Questo grafico è complementare al primo, semplicemente riporta i residui in valore

assoluto. Anche qui analizzeremo la distribuzione delle osservazioni rispetto alla linea.

Infine, con il Test di Breush-Pagan andiamo a comprovare, per mezzo del p-value

quanto dedotto dai grafici originati in precedenza. Con questo test però ragioniamo in

modo opposto rispetto al solito. Vogliamo un p-value molto grande per non rifiutare

l’ipotesi nulla. Infatti: H0: ipotesi di omoschedasticità

H1: ipotesi di eteroschedasticità

Nel caso in cui però il p-value fosse inferiore a 0.05, dovremmo rifiutare l’ipotesi nulla.

Questo ci porterebbe a dover modificare la distribuzione per mezzo dei modelli

logaritmici.

Conosciamo due tipi di modelli logaritmici:

Modello semi-log: in cui solo la variabile di risposta viene trasformata in un

 logaritmo

Modello log-log: trasforma entrambe le variabili in logaritmo, ovvero su scala

 logaritmica. Elasticità: attraverso il

summary posso

andare ad interpretare

il valore di “log” per

capire che incremento

percentuale ci sarà

rispetto alla variabile

price.

Riapplichiamo i tre

strumenti visti

precedentemente per

capire se log-log ha

risolto.

Ipotesi di Multicollinearità

Dobbiamo capire se sono state incluse troppe informazioni all’interno dell’analisi. Per

esempio, ci possono essere predittori che congiuntamente catturano più di due terzi di

tutta la variabilità, ma individualmente possono essere inutili. Per valutarlo

inizialmente possiamo creare un modello con entrambi e uno con ciascuna

singolarmente.

Conseguenze:

- La correlazione tra più predittori indica che non è possibile separare il loro

effetto individuale, siccome sono legati

Dettagli
Publisher
A.A. 2023-2024
16 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher MatildeMineri di informazioni apprese con la frequenza delle lezioni di Business data science e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Cattolica del "Sacro Cuore" o del prof Venturini Sergio.