Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
REGRESSIONE LINEARE MULTIPLA
PROVA D'ESAME 1
Risposte:
Domanda 1-
B1 cappello: 3.11, è un valore espresso in euro, stimiamo un incremento nel valore atteso della variabile dipendente, nel valore atteso della spesa in prodotti di marca commerciale, di 3 euro e 11 centesimi per ogni visita al punto vendita in più, tenendo ferme le variabili X2 e X3, ossia spesa in bevande alcoliche e numero di categorie merceologiche acquistate.
Intervallo di confidenza B1: l'intervallo di confidenza va da 2.44 a 3.78 euro a parità di spesa di bevande alcoliche e di numero di categorie acquistate, questo intervallo sta a rappresentare che una visita in più al pdv determinerà un incremento nel valore atteso della spesa in prodotti di marca commerciale compreso tra un intervallo di valori che vanno da 2.44 a 3.78 euro, con una probabilità del 95%, con probabilità di errore di solo il 5%.
Domanda 2-
La formula generale che consente di calcolare il valore
La formula che ci consente di ottenere il valore della statistica test per la variabile x3 è:
Stat T = Beta cappello/Errore standard
Nel seguente esempio, la statistica test per la variabile x3 è data da: -0.228/3.279 = -0.70
Il p-value è la probabilità di osservare un valore della statistica test più estremo di quello osservato nel campione quando l'ipotesi nulla è vera. Quando B3 è uguale a zero, abbiamo una probabilità alta che la statistica test assuma un valore più estremo di +0.70. Osserviamo che il p-value è grande, quindi un p-value molto grande sta a significare che non c'è evidenza campionaria contro l'ipotesi nulla, non abbiamo prove per rifiutare che B3 = 0.
La distribuzione T di Student con N - K gradi di libertà è stata utilizzata nella domanda. Qui N = 82, con 3 variabili esplicative, quindi 4 parametri, N - K = 78 gradi di libertà.
Domanda
Non abbiamo prove sufficienti per rifiutare l'ipotesi B3 = 0, allo stesso tempo non abbiamo sufficienti prove per rifiutare l'ipotesi B2 = 0. C'è una forte evidenza campionaria nell'ipotesi B1 = 0, possiamo rifiutare questa ipotesi con una piccola probabilità di errore. L'evidenza campionaria molto forte contro l'ipotesi B1=0 suggerisce che il numero di visite abbia un effetto significativo sulla spesa in prodotti di marca commerciale. Viceversa gli altri due pvalue che non portano a rifiutare né B2=0 né B3=0, ci portano a concludere che non c'è evidenza che queste due variabili abbiano una relazione con la spesa in prodotti di marca commerciale.
Domanda 5
R2 = devianza di regressione/devianza totale = 633612.213/1095392.813 = 0.58
Nel seguente esempio l'R2 = 58%, parliamo della devianza della spesa in prodotti di marca commerciale, circa il 58% di questa devianza della spesa di prodotti di marca commerciale
èspiegata dalla relazione con le 3 variabili esplicative (X1, X2, X3).Domanda 6
Ipotesi nulla verificata attraverso il Test F: è l'ipotesi nulla che afferma che nessuna delle 3 variabili esplicative prese in considerazione abbia effetto sulla variabile dipendente. L'ipotesi nulla è B1 = B2 = B3 = 0, che i tre coefficienti delle variabili esplicative siano tutti uguali a zero.
Test F: rapporto tra le devianze e i rispettivi gradi di libertà. Nella tabella ANOVA Il p-value associato a tale test ci permette di affermare che almeno uno dei tre coefficienti ha effetto sulla variabile dipendente e quindi è diverso da zero, l'unico coefficiente per cui rifiutiamo l'ipotesi uguale a zero è X1.
Domanda 7
La differenza tra Beta cappello1 che è 3.11 e il beta cappello del numero di visite che si può ottenere da un modello di regressione semplice differisce poco per motivi di variabilità campionaria. Dato che B2 e B3
“stimiamo” siano uguali a zero, non potendo rifiutare l’ipotesi che B2 e B3siano uguali a zero, quindi non avendo questa evidenza possiamo escludere le variabili dalmodello stimandone uno più semplice, il modello ha solo X1 e quindi è semplificato.
PROVA D’ESAME 2
Risposte
Domanda 1
Volendo adattare un modello di regressione ai dati, indicherei come variabile dipendente Y gliacquisti nel semestre 3 senza promozione, mentre indicherei come variabile esplicative X: x1acquisti nel semestre 1 senza promozione, x2 acquisti nel semestre 2 con promozione.
Motivazione della scelta: il semestre 3 è l’ultimo semestre, questo ci permette di avere unavisione sui semestri passati
Domanda 2
Valore stimato dell’intercetta: 9.58
L’intercetta rappresenta il valore atteso di Y stimato quando le variabili esplicative sono tutteuguali a zero (significato generico).9.58 è il valore atteso stimato di Y, ovvero degli acquisti nel semestre 3.Gli
acquisti nel semestre 3 sono espressi in euro, parliamo di 9 euro e 58 cent, essorappresenta la stima degli acquisti del 3 semestre per un cliente che ha acquisti 0 nel semestre1 e acquisti 0 nel semestre 2. Questa stima non è utile all'insegna, dare un significato oltre che geometrico anche operativo all'intercetta per questo esempio sarebbe molto pericoloso, inquanto utilizzare questa interpretazione operativa perché farebbe una stima per un cliente molto diverso da quelli osservati nel campione.
Domanda 3
La variabile dipendente (Y) è funzione di x1 e x2, nel modello avrò valore atteso di Y = B0 + B1x1 + B2 x2, ho l'info aggiuntiva che la promozione era presente nel semestre 2.
Dato che so che nel semestre 2 c'è la promozione, se B2 è positivo, vuol dire che se sono stato in grado di aumentare gli acquisti nel semestre 2 grazie alla promozione, questo si tradurrà in un aumento degli acquisti anche nel semestre 3.
valori di B2 positivo vuol dire che passando da promozione a senza promozione (B2 > 0) un euro in più speso nel semestre 2 si tradurrà in un maggiore acquisto stimato anche nel semestre 3, la promozione ha un effetto positivo. Se B2 fosse negativo, questo vorrebbe dire che a parità di acquisti nel semestre 1, ogni euro acquistato in più nel semestre 2, si traduce in una riduzione degli acquisti nel semestre 3, a seguito della promozione i clienti hanno fatto scorta di prodotti e quindi nei mesi successivi comprano di meno. Domanda 4 Assunzioni del modello di regressione che non risultano soddisfatte: - Assunzione di linearità, non c'è evidenza per dire che la relazione non è lineare attraverso i pochi dati a disposizione. - Assunzione sul termine di errore (omoschedasticità, normalità, incorrelazione), queste tre assunzioni sono ragionevoli nel problema? Il termine di errore ha distribuzione normale quando anche tenuto conto ivalori delle variabiliesplicative (tenuti fissi i valori degli acquisti nel semestre 1 e nel semestre 2) la variabilitàresidua ha natura accidentale, e questo genera la distribuzione gaussiana, qui (in problemi ditipo aziendale) l’assunzione risulta forzata (soluzione un po’ forte, difficile che due consumatoriabbiano lo stesso comportamento nei primi due semestri)
Rimane dubbia anche l’ipotesi di omoschedasticità, la variabilità che rimane anche tenutifissi/costanti i valori degli acquisti nel semestre 1 e nel semestre 2, che la variabilità siacostante e non dipenda dal livello degli acquisti nel semestre 1 e 2 appare difficile, ciaspettiamo che per chi ha comprato poco nei primi due semestri la variabilità sia minore dicoloro che invece hanno comprato tanto.
-Ipotesi sulla variabile esplicativa, su di essa abbiamo due assunzioni, la prima è che la MatriceX sia non stocastica (o non casuali), ipotesi che ci lascia qualche dubbio.
Il valore degli acquisti nel semestre 1 e 2 hanno la stessa natura di incertezza che hanno gli acquisti nel semestre 3, la seconda ipotesi sulla quale non abbiamo osservazioni è relativa al fatto che la matrice X ha rango pieno, anche su questo abbiamo alcuni dubbi (dovremmo verificare se le due colonne della matrice x sono tra loro collineari o collineari con intercetta) non ci sono motivi a priori per pensarlo, ipotesi che non può essere scartata a priori. Ci sono diverse assunzioni che nel modello non risultano soddisfatte: normalità, eteroschedasticità, variabili esplicative non stocastiche, almeno tre assunzioni del modello sono dubbie. Su alcune di queste assunzioni è possibile intervenire trasformando i dati.
PROVA D’ESAME Settembre 2018 – ESERCIZIO 1
Risposte
Domanda 1
Modello stimato: Y cappello = -0.064X1 + 119.28X2 + 11506.5X3 + 5430.7X4 + 7212.9X5
Domanda 2
Tale modello non include l’intercetta in quanto si andrebbe ad avere un problema
dimulticollinearità. Se inserissimo anche l'intercetta violeremmo la condizione che la matrice X deve avere sempre rango pieno, l'inclusione dell'intercetta porterebbe ad un problema di calcolo numerico, per la quale la matrice X non sarebbe più invertibile.
Oppure: Il modello non include l'intercetta per evitare collinearità tra la prima colonna della matrice X e le variabili dummy X1, X2, X3, X4, X5
Domanda 3
Statistica Test = Beta cappello/Errore standard = 119.28/7.131 = 16.73
Domanda 4
H0: B2 = 0. Trattandosi di un grande campione, la statistica test ha distribuzione N (0;1) e il valore osservato t = 16.73 è estremo nella coda di destra di tale distribuzione. Si può quindi concludere che il p-value associato alla stat t è estremamente piccolo, con una probabilità di errore quasi nulla, la variabile X2 ha effetto su Y.
Domanda 5
L'uso dell'indice R2 non è appropriato in tale modello in quanto non
è inclusa l’intercetta.
Domanda 6
Nel modello che include l’intercetta ed esclude la variabile X5, Beta cappello X3 = 11506.5 –7212.9 = 4293.6
PROVA D’ESAME Gennaio 2019 – ESERCIZIO 1
Risultati
Domanda 1
Assenza di promozioni (X2=0): Y cappello = 39.482+4.712X1;
Presenza di promozioni (X2=1): Y cappello= 39.482+4.712X1+14.984= 54.466+4.712X1
Domanda 2
Tenendo costante il valore della spesa pubblicitaria a 4712€, la presenza di promozioni determina un aumento delle confezioni vendute per un certo prodotto di 14984 unità.
Domanda 3
Pr (Z > 1.604) + Pr (Z < -1.604) con Z N (0,1).
Domanda 4
Possiamo concludere che la spesa pubblicitaria (B1) non impatta sul numero delle confezioni vendute (B1=0), mentre la presenza di promozioni (B2) impatta sul numero delle confezioni vendute (B2 diverso da 0).
La presenza di promozioni ha un effetto su Y (B2≠0), la spesa pubblicitaria no (B1=0).