Anteprima
Vedrai una selezione di 1 pagina su 4
Lezioni, Business Analytics Pag. 1
1 su 4
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

KSTAT

CAPITOLO 3

Se esiste una relazione tra due variabili, e questa si può rappresentare graficamente mediante una retta,

allora siamo in presenza di una RELAZIONE LINEARE. Per osservare i dettagli della relazione si usa una

tecnica statistica chiamata REGRESSIONE LINEARE.

Statistics=> Regression

Es. price= 24 +0,5 income è una retta di regressione in cui il prezzo che si è disposti a spendere varia in

media di 0,5 dollari se il reddito aumenta di un 1 dollaro.

Si può ottenere una retta di regressione anche graficamente:

Statistics=>Charts=>scatterplot ( y against x)

La retta scelta dal software è quella che garantisce la minima somma degli errori al quadrato. Gli errori

sono le distanze verticali tra le retta e i punti.

Dall’esempio sul libro, vogliamo dividere in segmenti di prezzo e stabilire in quanti comprano un’auto in

ciascun segmento.

- scelgo income= 30 000

- sostituisco income 30 000 nell’equazione stimata per ottenere il valore medio

- prendo la deviazione standard ( standard error of regression) che mi è data dalla regressione

- scelgo il livello di prezzo 16 000 e lo standardizzo facendo (16 000 –media)/ dev standard e trovo così il

numero a sx del quale si trova l’area che cerchiamo

- con la formula : = DISTRIB.NORM.ST( prezzo standardizzato) trovo l’area che mi interessa da trasformare

in percentuale. ( es il 78% degli individui con reddito pari a 30 000 acquisterà un auto che costa meno di 16

000 dollari )

In una retta di regressione è sempre presente una costante e uno o più coefficienti. Questi ultimi possono

essere soggetti a errore. Negli esercizi viene richiesto di solito di specificare gli intervalli di confidenza nei

quali possono spaziare i coefficienti.

-Prendo il coefficiente in questione

- prendo t-statistics for computing 95% confidence intervals e lo moltiplico per lo standard error of

coefficient

- aggiungo e tolgo questo numero ottenuto al coefficiente

In formula: b1 +/- t * sb1

a/2, n-2

Si dice che un coefficiente è significativo quando il suo corrispondente p-value ( significance ) è molto

piccolo. In questo caso rifiutiamo l’ipotesi nulla che afferma che il coefficiente può essere uguale a zero.

CAPITOLO 4

Per capire se un investimento è conveniente il VAN deve essere maggiore di zero. Il van è uguale a meno

l’investimento + rendimento/1+costo del capitale. Serve sapere però anche il rischio oltre alla convenienza.

L’indicatore del rischio è il beta che si può ricavare dalla formula del CAPM ( R- Rf = beta(Rm- Rf)). Facendo

diventare il CAPM un’equazione lineare trovo beta con una regressione , sostituendolo nel CAPM trovo r e

quindi trovo il VAN.

In generale, con Kstat posso fare anche previsioni.

Statistics=> Prediction

Inserisco i valori dati negli appositi spazi e lancio il comando Predict che mi restituisce il valore previsto (

predice value of). Devo fare attenzione a due cose:

1. Unità di misura: se c’è scritto migliaia di dollari devo dividere il numero per mille prima di scriverlo!

2. Se mi viene richiesto il valore medio devo inserire come intervallo confidence limits for estimated

mean, mentre se è richiesto il valore singolo, scrivo confidence limits for prediction.

3. Ricordarsi di moltiplicare se necessario per 1000 prima di dare il risultato

Per valutare la bontà di un modello di regressione si usa l’R quadro. E’ un numero percentuale che

rappresenta quanto della varianza della y è spiegata dalla variabile x.

Si ottiene facendo il rapporto tra SSR E SST, dove ssr è la somma dei quadrati della regressione cioè dei

quadrati delle differenze tra il valore stimato e il valore medio, mentre sst è la somma totale dei quadrati

cioè la somma delle differenze tra il valore previsto e il valore medio. Quindi r quadro= ssr/sst.

CAPITOLO 5

Una variabile dummy è una x categorica. Può assumere il valore 0 e uno. Quando nel modello sono presenti

più dummy è necessario eliminarne una dal modello e confrontare le altre in base a questa. Una variabile

slope dummy invece è l’insieme di una dummy e di una variabile numerica.

CAPITOLO 6

Si ha una correlazione spuria quando sembra esserci una relazione lineare anche se le due variabili in

questione non sono correlate.

A volte se si prova a lanciare lo scatterplot si nota che non sempre c’è una retta, ma possono esserci delle

anomalie. In particolare due:

1. OUTLIER, osservazione con residuo insolitamente grande , dove per residuo si intende la differenze

tra il valore osservato e il valore previsto.

2. Relazione quadratica

3. Osservazione ad elevato leverage. Il leverage misura di quanto i valori delle x per una particolare

osservazione differiscono dalla norma. Elevato leverage significa che il leverage dell’osservazione in

questione è più del doppio della media dei leverage.

Se un outlier e un’osservazione con elevato leverage hanno un elevato impatto sui risultati di una

regressione allora si dice che sono osservazioni influenti.

Statistics=>Model analysis . Se alcuni dati sono scritti in rosso alla voce std’ized allora sono outlier, se i

dati sotto leverage sono scritti in rosso allora sono osservazioni con elevato leverage, se invece i numeri

sotto D Cook sono scritti in rosso allora si tratta di osservazioni influenti poiché la D di Cook indica

proprio l’influenza che ha una variabile sulla regressione.

CAPITOLO 7

Se si nota che gli intervalli dal comando prediction sono molto ampi e che da univariate statistics emerge

che il valore massimo dato è inferiore a quello definito dall’intervallo allora può essere che si sia in

presenza di una ESTRAPOLAZIONE NASCOSTA, cioè la situazione in cui viene richiesta la previsione di y

inserendo dei valori di x che sono molto distanti da quelli osservati, pur essendo inclusi nell’intervallo.

Se si nota un pvalue alto ciò può anche essere dovuto alla presenza di MULTICOLLINEARITà, cioè una

situazione per cui due variabile sono strettamente linearmente correlate. Se siamo in presenza di

multicollinearità lo capiamo dal VIF, variance inflaction factor ( di quando aumenta la varianza dei

coefficienti a seguito di multicollinearità) he si trova facendo statistics model analysis e che se supera il 10%

vuol dire che si è in presenza di grave mutlicollinearità. Un altro modo per vederlo è usare il comando

correlations che però dà la correlazione solo fra coppie. Se ciò accade è normale che le due variabili prese

singolarmente non sono statisticamente significative, ma potrebbero esserlo congiuntamente. Per

verificarlo bisogna sottoporre il modello al test f attraverso il comando analysis of variance e verificare

come è il p value congiunto. Le due ipotesi del test f sono:

1. Le due variabili sono entrambe uguali a zero

2. Una delle due variabili almeno è diversa da zero

Se il p value congiunto è basso rifuto l’ipotesi nulla.

CAPITOLO 9

Quando più di una variabile x è dipendente dalla stessa y, per confrontare la bontà tra due modelli e dire

quindi quale è migliore bisogna usare l ‘R quadro aggiustato che sarebbe l’R quadro meno la

penalizzazione.

CAPITOLO 8

Esistono altri due tipi di relazioni non lineari:

- Modelli semi log

- Modelli log log

I primi hanno il log solo alla y, i secondi anche alla x. Nel modello semi log il coefficiente beta1 si interpreta

così: beta1 *100 in percentuale è la variazione media nella y dovuta ad un incremento unitario nella x.

Mentre il beta 1 nel log log si interpreta come la variazione percentuale nella media di y dovuta ad una

variazione dell’1% di x.

Bisogna fare attenzione quando si usa il comando prediction con questi due modelli.

-modello semi-log

1.inserisco il valore della x così come è

2. il valore che mi viene restituito è il ln di y, per trovare la y devo calcolare e elevato al numero che mi ha

restituito la previsione e lo stesso devo fare con gli intervalli.

-modello log-log

1. inserisco il LN DI X

2. ottengo il ln di y quindi faccio come sopra

In entrambi i casi però se il valore richiesto è la media e non il valore singolo allora dopo aver calcolato la e

bisogna applicare sia a questa che agli opportuni intervalli il fattore di correzione perché il passaggio

Dettagli
Publisher
A.A. 2014-2015
4 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Marie Therese di informazioni apprese con la frequenza delle lezioni di Business Analytics e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Commerciale Luigi Bocconi di Milano o del prof Venturini Sergio.