Anteprima
Vedrai una selezione di 10 pagine su 91
Data Scienze for marketing - Appunti di Statistica Pag. 1 Data Scienze for marketing - Appunti di Statistica Pag. 2
Anteprima di 10 pagg. su 91.
Scarica il documento per vederlo tutto.
Data Scienze for marketing - Appunti di Statistica Pag. 6
Anteprima di 10 pagg. su 91.
Scarica il documento per vederlo tutto.
Data Scienze for marketing - Appunti di Statistica Pag. 11
Anteprima di 10 pagg. su 91.
Scarica il documento per vederlo tutto.
Data Scienze for marketing - Appunti di Statistica Pag. 16
Anteprima di 10 pagg. su 91.
Scarica il documento per vederlo tutto.
Data Scienze for marketing - Appunti di Statistica Pag. 21
Anteprima di 10 pagg. su 91.
Scarica il documento per vederlo tutto.
Data Scienze for marketing - Appunti di Statistica Pag. 26
Anteprima di 10 pagg. su 91.
Scarica il documento per vederlo tutto.
Data Scienze for marketing - Appunti di Statistica Pag. 31
Anteprima di 10 pagg. su 91.
Scarica il documento per vederlo tutto.
Data Scienze for marketing - Appunti di Statistica Pag. 36
Anteprima di 10 pagg. su 91.
Scarica il documento per vederlo tutto.
Data Scienze for marketing - Appunti di Statistica Pag. 41
1 su 91
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

VARIABILE DUMMY

Questa nuova variabile esplicativa viene chiamata "variabile indicatrice" che assume due soli valori:

  • valore 1 quando la condizione che interessa è soddisfatta (condizione di guerra in questo caso)
  • valore 0 quando la condizione che interessa non è soddisfatta (condizione di pace in questo caso)

In questo caso il modello diventerà un modello di regressione multipla in cui la variabile dipendente "consumo" dipende dal reddito e da una variabile dummy.

ATTENZIONE! Una variabile qualitativa deve rimanere tale, non ha senso quantificare le modalità di una variabile qualitativa nominale.

In questo caso "guerra" e "pace" che sono due parole le stiamo quantificando, perché? La motivazione è molto utilitaristica, "guerra" e "pace" è vero che sono due parole e non ha senso quantificarle, lo facciamo con 0 e 1, scegliamo questa specifica quantificazione per un motivo utilitaristico, con questo tipo di quantificazione ciò che noi

otteniamo stimando il modello ha un senso operativo preciso. La somma dei valori della variabile dummy in questo caso mi permette di ottenere il numero di anni in cui vale la condizione guerra, questo è il motivo utilitaristico per cui violiamo la regola generale secondo cui una variabile qualitativa non dovrebbe mai essere quantificata. La matrice X è una matrice che avrà 11 righe, perché abbiamo 11 anni che prendiamo in considerazione, e 3 colonne (intercetta, reddito, variabile dummy).

Questo è il modello stimato

X2 è la variabile dummy che rappresenta i periodi di guerra, assume valore 1 negli anni di guerra e valore 0 negli anni di pace. Y cappello è il consumo stimato, mentre X1 rappresenta il reddito. 0,96 X1 = 960 milioni di dollari, questi rappresento l'effetto di X1, cioè il reddito su Y quindi sui consumi, essi rappresentano di quanto aumentano i consumi stimati quando X1 aumenta di una unità. L'effettodel reddito sui consumi è lo stesso sia negli anni di pace che negli anni di guerra, fissiamo X2. Consideriamo la relazione tra Y e X1 a parità di X2 (0; 1) e limitiamo il confronto ad anni che hanno la stessa caratteristica. In questo modo, la relazione tra X1 e Y è stimata allo stesso modo. Il coefficiente Beta1 cappello (0,96) è lo stesso sia negli anni di guerra che di pace. Interpretazione: -55.46. Siamo nella regressione multipla e stiamo considerando la relazione tra X2 e Y a parità di X1, ipotizzando di tenere fisso il livello di reddito. A parità di reddito costante, -55.46 rappresenta l'incremento nella stima di Y che si ottiene a seguito di un incremento unitario nella variabile esplicativa X2. Un aumento unitario di X2 corrisponde al confronto tra una situazione di pace in cui X2=0 e una situazione di guerra dove X2=1. -55.46 è la stima di una variazione nei consumi, parliamo di una variazione negativa, ed è la stima di una.diminuire nei consumi. Passando dalla condizione di pace alla condizione di guerra l'unica che si modifica è l'intercetta (-10.1; -65.56). GENERALIZZAZIONE AL CASO DI VARIABILI QUALITATIVE CON PIÙ DI DUE MODALITÀ - esempio: destagionalizzazione di una serie storica Parliamo di un bene di largo consumo, notiamo che questa serie storica oltre ad avere una tendenza crescente dal 2001 alla fine del 2005, parliamo quindi di un trend di fondo della serie storica crescente nelle vendite. Si nota una forte componente stagionale, il primo trimestre del 2001 registra il valore più basso della serie storica, ma anche il più basso dei quattro trimestri del 2001, lo stesso comportamento si ripete anche in tutti i trimestri degli altri anni. Mentre notiamo come l'ultimo trimestre sia sempre quello con il trend più alto in tutti i trimestri dei vari anni individuati. Quindi, si parla di stagionale si evidenzia la tendenza del fenomeno a diminuire nei consumi.ripetere quando comportamenti simili nella stessa stagione "trimestre" in tutti gli anni individuati. Come rappresentiamo la STAGIONALITA' nel modello? Abbiamo visto ieri come le variabili qualitative vengono rappresentate, ci servono 4 variabili dummy, essa rappresenta il trimestre di riferimento (ci serve una variabile dummy per il trimestre 1, una per il trimestre 2, una per il trimestre 3, e un'altra ancora per il trimestre 4). La Matrice dei dati vede nella prima colonna l'intercetta con valori tutti uguali a 1, nella seconda colonna abbiamo il trend (progressione lineare che aumenta di un'unità da un trimestre all'altro, abbiamo una progressione da 1 a 20), nella terza colonna abbiamo la dummy primavera (primo trimestre), nella quarta colonna abbiamo la dummy estate (secondo trimestre), la quinta colonna è rappresentata dalla dummy autunno (terzo trimestre), per la quarta osservazione invece non abbiamo la colonna dummy inverno, questo.

Perché avremmo quattro dummy e avremmo che in ogni riga, ossia in ogni trimestre, avremmo un valore pari a 1 e tutti gli altri valori pari a 0. Questo implica che se facciamo la somma delle dummy, con quattro dummy, sarebbe sempre uguale. Questo crea un problema di multicollinearità. Se inserissimo anche la quarta dummy, questo creerebbe un dummy inverno e violeremmo la condizione che la matrice X deve avere sempre rango pieno. L'inclusione della quarta dummy porterebbe a un problema di calcolo numerico, per il quale la matrice X non sarebbe più invertibile. Escludiamo quindi una delle dummy, quale non è importante. Il modello che adottiamo è sempre lo stesso indipendentemente dalla dummy che escludiamo. Si può includere la quarta dummy ed escludere però l'intercetta, è possibile fare anche questo.

Devo interpretare correttamente i risultati:

Variabile quantitativa Trend (t) - stima del coefficiente 5.1 migliaia di euro (5.100 euro) variazione positiva nella stima

delle vendite del prodotto a parità di stagione passando da un trimestre al trimestre successivo, quindi variazione trimestrale. (*trend: tendenza di lungo periodo)

Coefficienti delle variabili dummy – parliamo di coefficienti parziali, stiamo stimando la variazione delle vendite a parità di trend, questi coefficienti -56.60, -19.38, -22.57 sempre espressi in migliaia di euro, le dummy sono simultaneamente tutte 0 nel trimestre invernale, ossia il 4 trimestre, l’unica scelta che ha il trimestre escluso è quella di rappresentare una sorta di punto di riferimento per la stima delle variazioni, il coefficiente stimato per la primavera -56 rappresenta la variazione stimata nelle vendite tra primavera e inverno, stimiamo che le vendite del bene a parità di trend siano -56 mila euro più basse del valore ottenuto nel trimestre invernale.

Parametrizzazione: è la trasformazione lineare dell’altra

L’assunzione che ora consideriamo è

un'assunzione comune ai due modelli, vale sia nella regressione semplice che nella regressione multipla, è l'assunzione che abbiamo chiamato di omoschedasticità, l'assunzione che richiede che i termini di errore inseriti nel modello, quindi la variabilità, il termine di errore che rappresenta la variabilità intrinseca della variabile dipendente abbia varianza costante. L'assunzione di omoschedasticità è un'assunzione ragionevole oppure no? Per verificare questa ipotesi esistono alcuni metodi formali (che non vedremo), ci limitiamo quindi a una soluzione del problema puramente empirica. Problema dell'eventuale violazione dell'ipotesi di omoschedasticità: eteroschedasticità, è la violazione dell'assunzione del modello che le varianze dei termini di errore siano costanti. Vedi esempio: dati Trade- IL CASO DELLO SPACE SHUTTLE CHALLENGER - Il disastro dello Space Shuttle Challenger avvenne la

mattina del 28 gennaio 1986, quando la navicella esplose dopo 73 secondi dal suo decollo dal Kennedy Space Center di Cape Canaveral (Florida). Nell'esplosione morirono tutti e 7 membri dell'equipaggio. Il problema fu in uno dei razzi a propellente solido che uscì e date le temperature molto alte il propellente si incendiò e provocò quella che sembrava un'esplosione.

Possiamo utilizzare regressione lineare o regressione logistica (molto meglio la regressione logistica) nel caso seguente.

R2: 0.35 non è molto alto, non è uno strumento di sintesi così utile quando la variabile dipendente non è continua. Trascuriamo la parte relativa all'R2 e alla tabella ANOVA in questo caso.

P-value: 0.13 (vicino all'1%)

B1 = B2 = 0

Ipotesi nulla viene rifiutata, questo vuole dire che è probabile che almeno uno dei due coefficienti è diverso da zero.

P-value piccolo (0.009 - 0.9%) porta a rifiutare l'ipotesi che B1 =

0P-value alto (0.105 – 10.5%) non c’è evidenzia campionaria relativa al rifiuto diB2 = 0

La temperatura di lancio effettivamente influenza la variabile dipendente,rifiutiamo B1 = 0 con probabilità di errore piccola. Modellosemplice conTEMPERATURAcome unicavariabile

La stima del coefficiente della temperatura, la T statistica e il P-value sonoleggermente diversi ma non tanto diversi da quelli calcolati nel primo Output.Non cambiano molto i dati perché la variabile esclusa è una variabile pocorilevante come già affermato.

Esclusione del lancio 21 – valore anomalo – l’adattamento del modello migliorasensibilmente senza il lancio anomalo, l’R2 migliora, il p-value e lail coefficiente della temperatura è più alto, questo stasignificatività del test F,a significare che la temperatura ha un effetto più alto sulle guarnizionidanneggiate.

- 0.058 valore espresso nella stessa unità di misura

della variabile dipendente (NON È UNA PERCENTUALE QUESTO VALORE) è una diminuzione stimata nellavariabile dipendente. Quando la temperatura di lancio aumenta di 1 grado fahrenheit stimiamo unariduzione di 0.058 nella variabile dipendente. La temperatura ha un effetto sulnumero di guarnizioni danneggiate. Aumentando la temperatura si riduce il valore atteso del numero di guarnizionidanneggiate, diminuendo la temperatura aumenta invece il numero diguarnizioni danneggiate (relazione inversa). ERRORE 1: mancanza nella non osservazione dei dati nella loro completezza,ma limitandosi ad osservare solo una parte di questi ERRORE 2: in nessun lancio precedente la temperatura era stata così bassacome nella mattina del lancio dello Space Shuttle Challenger, venne fattaun’assunzione molto forte non considerando i dati ch
Dettagli
A.A. 2020-2021
91 pagine
1 download
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher melissaAskuolanet di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Parma o del prof Cerioli Andrea.