vuoi
o PayPal
tutte le volte che vuoi
KSTAT
CAPITOLO 3
Se esiste una relazione tra due variabili, e questa si può rappresentare graficamente mediante una retta,
allora siamo in presenza di una RELAZIONE LINEARE. Per osservare i dettagli della relazione si usa una
tecnica statistica chiamata REGRESSIONE LINEARE.
Statistics=> Regression
Es. price= 24 +0,5 income è una retta di regressione in cui il prezzo che si è disposti a spendere varia in
media di 0,5 dollari se il reddito aumenta di un 1 dollaro.
Si può ottenere una retta di regressione anche graficamente:
Statistics=>Charts=>scatterplot ( y against x)
La retta scelta dal software è quella che garantisce la minima somma degli errori al quadrato. Gli errori
sono le distanze verticali tra le retta e i punti.
Dall’esempio sul libro, vogliamo dividere in segmenti di prezzo e stabilire in quanti comprano un’auto in
ciascun segmento.
- scelgo income= 30 000
- sostituisco income 30 000 nell’equazione stimata per ottenere il valore medio
- prendo la deviazione standard ( standard error of regression) che mi è data dalla regressione
- scelgo il livello di prezzo 16 000 e lo standardizzo facendo (16 000 –media)/ dev standard e trovo così il
numero a sx del quale si trova l’area che cerchiamo
- con la formula : = DISTRIB.NORM.ST( prezzo standardizzato) trovo l’area che mi interessa da trasformare
in percentuale. ( es il 78% degli individui con reddito pari a 30 000 acquisterà un auto che costa meno di 16
000 dollari )
In una retta di regressione è sempre presente una costante e uno o più coefficienti. Questi ultimi possono
essere soggetti a errore. Negli esercizi viene richiesto di solito di specificare gli intervalli di confidenza nei
quali possono spaziare i coefficienti.
-Prendo il coefficiente in questione
- prendo t-statistics for computing 95% confidence intervals e lo moltiplico per lo standard error of
coefficient
- aggiungo e tolgo questo numero ottenuto al coefficiente
In formula: b1 +/- t * sb1
a/2, n-2
Si dice che un coefficiente è significativo quando il suo corrispondente p-value ( significance ) è molto
piccolo. In questo caso rifiutiamo l’ipotesi nulla che afferma che il coefficiente può essere uguale a zero.
CAPITOLO 4
Per capire se un investimento è conveniente il VAN deve essere maggiore di zero. Il van è uguale a meno
l’investimento + rendimento/1+costo del capitale. Serve sapere però anche il rischio oltre alla convenienza.
L’indicatore del rischio è il beta che si può ricavare dalla formula del CAPM ( R- Rf = beta(Rm- Rf)). Facendo
diventare il CAPM un’equazione lineare trovo beta con una regressione , sostituendolo nel CAPM trovo r e
quindi trovo il VAN.
In generale, con Kstat posso fare anche previsioni.
Statistics=> Prediction
Inserisco i valori dati negli appositi spazi e lancio il comando Predict che mi restituisce il valore previsto (
predice value of). Devo fare attenzione a due cose:
1. Unità di misura: se c’è scritto migliaia di dollari devo dividere il numero per mille prima di scriverlo!
2. Se mi viene richiesto il valore medio devo inserire come intervallo confidence limits for estimated
mean, mentre se è richiesto il valore singolo, scrivo confidence limits for prediction.
3. Ricordarsi di moltiplicare se necessario per 1000 prima di dare il risultato
Per valutare la bontà di un modello di regressione si usa l’R quadro. E’ un numero percentuale che
rappresenta quanto della varianza della y è spiegata dalla variabile x.
Si ottiene facendo il rapporto tra SSR E SST, dove ssr è la somma dei quadrati della regressione cioè dei
quadrati delle differenze tra il valore stimato e il valore medio, mentre sst è la somma totale dei quadrati
cioè la somma delle differenze tra il valore previsto e il valore medio. Quindi r quadro= ssr/sst.
CAPITOLO 5
Una variabile dummy è una x categorica. Può assumere il valore 0 e uno. Quando nel modello sono presenti
più dummy è necessario eliminarne una dal modello e confrontare le altre in base a questa. Una variabile
slope dummy invece è l’insieme di una dummy e di una variabile numerica.
CAPITOLO 6
Si ha una correlazione spuria quando sembra esserci una relazione lineare anche se le due variabili in
questione non sono correlate.
A volte se si prova a lanciare lo scatterplot si nota che non sempre c’è una retta, ma possono esserci delle
anomalie. In particolare due:
1. OUTLIER, osservazione con residuo insolitamente grande , dove per residuo si intende la differenze
tra il valore osservato e il valore previsto.
2. Relazione quadratica
3. Osservazione ad elevato leverage. Il leverage misura di quanto i valori delle x per una particolare
osservazione differiscono dalla norma. Elevato leverage significa che il leverage dell’osservazione in
questione è più del doppio della media dei leverage.
Se un outlier e un’osservazione con elevato leverage hanno un elevato impatto sui risultati di una
regressione allora si dice che sono osservazioni influenti.
Statistics=>Model analysis . Se alcuni dati sono scritti in rosso alla voce std’ized allora sono outlier, se i
dati sotto leverage sono scritti in rosso allora sono osservazioni con elevato leverage, se invece i numeri
sotto D Cook sono scritti in rosso allora si tratta di osservazioni influenti poiché la D di Cook indica
proprio l’influenza che ha una variabile sulla regressione.
CAPITOLO 7
Se si nota che gli intervalli dal comando prediction sono molto ampi e che da univariate statistics emerge
che il valore massimo dato è inferiore a quello definito dall’intervallo allora può essere che si sia in
presenza di una ESTRAPOLAZIONE NASCOSTA, cioè la situazione in cui viene richiesta la previsione di y
inserendo dei valori di x che sono molto distanti da quelli osservati, pur essendo inclusi nell’intervallo.
Se si nota un pvalue alto ciò può anche essere dovuto alla presenza di MULTICOLLINEARITà, cioè una
situazione per cui due variabile sono strettamente linearmente correlate. Se siamo in presenza di
multicollinearità lo capiamo dal VIF, variance inflaction factor ( di quando aumenta la varianza dei
coefficienti a seguito di multicollinearità) he si trova facendo statistics model analysis e che se supera il 10%
vuol dire che si è in presenza di grave mutlicollinearità. Un altro modo per vederlo è usare il comando
correlations che però dà la correlazione solo fra coppie. Se ciò accade è normale che le due variabili prese
singolarmente non sono statisticamente significative, ma potrebbero esserlo congiuntamente. Per
verificarlo bisogna sottoporre il modello al test f attraverso il comando analysis of variance e verificare
come è il p value congiunto. Le due ipotesi del test f sono:
1. Le due variabili sono entrambe uguali a zero
2. Una delle due variabili almeno è diversa da zero
Se il p value congiunto è basso rifuto l’ipotesi nulla.
CAPITOLO 9
Quando più di una variabile x è dipendente dalla stessa y, per confrontare la bontà tra due modelli e dire
quindi quale è migliore bisogna usare l ‘R quadro aggiustato che sarebbe l’R quadro meno la
penalizzazione.
CAPITOLO 8
Esistono altri due tipi di relazioni non lineari:
- Modelli semi log
- Modelli log log
I primi hanno il log solo alla y, i secondi anche alla x. Nel modello semi log il coefficiente beta1 si interpreta
così: beta1 *100 in percentuale è la variazione media nella y dovuta ad un incremento unitario nella x.
Mentre il beta 1 nel log log si interpreta come la variazione percentuale nella media di y dovuta ad una
variazione dell’1% di x.
Bisogna fare attenzione quando si usa il comando prediction con questi due modelli.
-modello semi-log
1.inserisco il valore della x così come è
2. il valore che mi viene restituito è il ln di y, per trovare la y devo calcolare e elevato al numero che mi ha
restituito la previsione e lo stesso devo fare con gli intervalli.
-modello log-log
1. inserisco il LN DI X
2. ottengo il ln di y quindi faccio come sopra
In entrambi i casi però se il valore richiesto è la media e non il valore singolo allora dopo aver calcolato la e
bisogna applicare sia a questa che agli opportuni intervalli il fattore di correzione perché il passaggio