Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
R
- è presenta un’alta correlazione negativa o positiva nella matrice di varianze e
covarianze
Quali sono le diagnostiche utilizzabili? 2
)=1−R ( / )
- Indice di tolleranza: , indica la parte di
Tol( x x x , ... , x , x , ..., x
−1
j j 1 j j+1 p
x che non viene spiegata dalle altre variabili indipendenti. Se è uguale ad uno, le
j
variabili sono ortogonali, alternativamente siamo in presenza di perfetta
)>0.3
Tol( x
multicollinearità. In generale, si accetta un j
1−¿ 2 (x / )
- R x , ... , x , x , ... , x
Variance inflation factor: ( )=1/Tol( )=1 /¿
Vif x x j 1 j−1 j+1 p
j j
) ( )<
Vif x 5
In generale, si accetta un j
- Usare direttamente la model selection, la quale risolverà in automatico la
multicollinearità (con il rischio che la model selection possa scartare una variabile
particolarmente importante per il dataset se perfettamente collineare con un’altra)
Gli stessi problemi di multicollinearità possono presentarsi anche fra due variabili
categoriche, in questo caso è doveroso calcolare gli indici chi-quadro normalizzati, ed
eliminare una delle due variabili se l’indice supera 0.8
Se il modello presenta ancora dei problemi è possibile che ci sia una correlazione fra una
variabile continua e una categorica (molto raro)
Linearità
Affinché gli stimatori siano corretti, consistenti ed efficienti, si richiede una relazione lineare
^ =
y y Xb
fra e .
Quindi, la linearità rappresenta un’ipotesi con grande rilevanza nell’ambito della
modellistica, ed esistono diverse diagnostiche per valutarla. In primo luogo si osservano gli
scatterplot residuals vs fitted values e residuals vs variabili dipendenti in modo da osservare
se questi abbiano un andamento lineare, tuttavia esistono strumenti empirici come le
diagnostiche di linearità.
Se osserviamo che l’ipotesi di linearità non è soddisfatta è necessario attuare una
trasformazione sulla variabile target in modo che la sua versione trasformata sia lineare con
^
y
Una delle trasformazioni più importanti per linearità è quella di Box-Cox, i quali hanno
dimostrato che quando un modello lascia un grande residuo (mse grande) questo dipende
fortemente da un modello che non rispetta la linearità. Di conseguenza hanno proposto una
λ
procedura di massima verosimiglianza per stimare un parametro che minimizzi MSE (o
λ
massimizzi la log-likelihood) così che la variabile target trasformata con sia lineare con
i valori predetti, risolvendo uno dei problemi maggiori del metodo OLS.
( λ) λ λ ≠ 0
se
= /
y y λ
¿ ( ) λ=0
log y se
Trasformate logaritmiche
Le trasformate logaritmiche sono un’altra soluzione particolarmente comune per risolvere la
non linearità, in particolare osserviamo tre tipi di modelli:
+
y=β β ln( x)+ε
1. linear-log: 1 2
)=β +
ln( y β ln(x)+ ε
2. log-log: 1 2
)=β + +ε
ln( y β x
3. linear-log: 1 2
oltre a far diventare i modelli lineari anche nelle variabili, un altro vantaggio delle
trasformate logaritmiche è la facile interpretazione, infatti il log implica una variazione
percentuale sulla variabile corrispondente ad una variazione sulla seconda variabile nella sua
unità di misura. Inoltre si osserva come il modello log-lineare è suggerito anche nella
trasformata di Box-Cox.
Se la trasformata logaritmica viene applicata sulla variabile dipendente, vi è un cambiamento
nella interpretazione della variabile dummy, il coefficiente rappresenta sempre la variazione
percentuale rispetto al livello di riferimento ma bisogna eseguire prima una correzione. Infatti
)−1
exp(β
il divario percentuale sarà dato da 2
Altre trasformazioni per le covariate
- Se le covariate sono binarie non è possibile attuare nessuna trasformazione
- Se le variabili sono categoriche è possibile aggregare i loro livelli tramite la tecnica
dell’optimal grouping. Esiste pacchetto che automatizza la procedura e fornisce il
miglior raggruppamento fra quelli disponibili tale che la nuova variabile a più livelli
abbia un potere esplicativo migliore della variabile originale, con significatività più
alta (massimizziamo la devianza spiegata dell’ANOVA)
- se sono quantitative utilizziamo le tecniche di data transformation come le
trasformazioni analitiche, la regressione non parametrica e il binning tra covariate.
Trasformazioni analitiche:
In generale, fino ad adesso abbiamo trattato i cosiddetti modelli lineari, i quali si riferiscono
al fatto che la linearità sia nei parametri e nelle variabili, tuttavia, è possibile utilizzare
modelli non lineari nelle variabili chiamati modelli lineare generalizzati (sottoclasse dei
modelli lineari). L’importante è quindi mantenere la linearità dei parametri.
12 22
+ + + + + +
Ad esempio: y=β x β x β β x x β x β x ε
0 1 1 2 2 3 1 2 4 5
( (
y=GLM x)=LM z)+ ε
Grazie ai modelli GLM è possibile fittare al meglio i dati siccome la funzione non è obbligata
a seguire un andamento lineare su tutto il grafico ma può essere migliorata tramite curvature
(alzando gli esponenti delle variabili)
Binning tra covariate:
Si tratta di una tecnica per ridurre la variabile quantitativa x a una variabile ordinale per
catturare la non-linearità nella relazione tra x e y, e per ridurre l’asimmetria della x.
Esistono due modi per implementare il binning:
1. il metodo del conteggio equivalente (equal count), secondo il quale vengono creati
intervalli bin in base al numero di osservazioni presenti. Il numero dei bin viene
specificato dall’utente
2. il metodo degli intervalli uguali (equal interval) secondo il quale l’intero range della
variabile viene diviso in bins la cui dimensione e numerosità viene specificata
dall’utente
Regressione non parametrica
L’obiettivo è trovare forma funzionale più adatta alle variabili continue, un modello additivo,
per poi e riscriverle come un modello lineare. β x
In altre parole, si rimpiazzano i semplici termini dell’equazione lineare con
j j
f x
(x )
f dove è una funzione non parametrica, smooth, del predittore . Quindi,
j j j j
nei modelli additivi, una funzione non specificata (parametrica) viene stimata per ogni
(x )
f
predittore in modo tale da ottenere la migliore predizione di sulla variabile
j j
dipendente.
A questo fine vengono implementate due metodologie: LOESS e SPLINES
LOESS
Come già ribadito, l’obiettivo è trovare una funzione che meglio si adatti ai dati per ogni
predittore (una retta è troppo rigida). Un primo strumento applicabile sarebbe la cosiddetta
moving average, la quale viene implementata come segue:
1. si divide l’asse x in dei intervalli di ampiezza h, e si evidenzia per ogni intervalli il
x
punto centrale (chiamato anche punto focale) 0
2. per ogni finestra centrata nel punto focale si procede con il computo della media per
osservare il valore previsto della x in ogni intervallino
3. si uniscono le medie in modo da ottenere un modello analitico che meglio interpola lo
scatterplot
Gli intervalli vengono determinati in vari modi, o si prende in considerazione intervalli di
lunghezza uguale oppure è possibile anche costruire intervalli con equal frequenties, con lo
stesso numero di osservazioni (metodologia del binning).
Tuttavia, mantenere l’intervallo fisso rappresenta una limitazione per il computo di una
funzione smooth, di conseguenza è stata implementata una miglioria: la sliding window
(finestra che si muove). Con questo metodo, l’intervallo non è fisso e vengono uniti i punti
focali calcolati mentre la finestra è in movimento (la velocità non è costante ma dipende dalla
concentrazione dei punti) in modo da trovare un’interpolazione smooth e fedele. Questa
tecnica è chiamata local averaging.
Per fare in modo che l’algoritmo giri bisogna introdurre un parametro di tuning (parametro il
quale definisce la complessità di una particolare tecnica), in questo caso è rappresentato dallo
span, vale a dire percentuale di punti in una finestra. Una volta fissato lo span, la finestra si
sposta in avanti finché non acquisisce tanti punti da riprodurlo.
Per computare una stima più robusta è utile differenziare i pesi attorno al punto focale; più le
osservazioni più sono vicine più peso avranno e decrescono al allontanarsi fino ad arrivare al
peso 0. Bisogna trovare un sistema per attribuire pesi automatici, si introduce così il kernel; il
x x
peso è la densità simmetrica kernel in rispetto a (punto focale) con ampiezza h.
i 0
(local weighted averaging). Si attua infine un’ulteriore miglioria in modo da ricavare la local
polynomial regression (LOESS). Vengono implementati tutti gli algoritmi sopracitati ma,
invece di unire le medie di ogni intervalli calcolate con i pesi mentra la finestra si muove,
viene calcolata una regressione polinomiale in ogni intervallo di ampiezza h (spezzate rosse
negli output di R). Quindi, ipotizzando il movimento della finestra, fitto una linear regression
per prevedere il punto focale, non viene utilizzato il metodo OLS poiché vengono attribuiti
pesi diversi in base al kernel, utilizziamo quindi il metodo WLS.
Come si sceglie lo span? (parametro di tuning)
Utilizziamo un metodo euristico: quando h cresce la complessità diminuisce, con span
piccolo il modello è molto variabile. Di conseguenza si sceglie o visivamente fornendo un
compromesso tra smothness e fedeltà ai dati oppure scegliere h che minimizza un errore
robust error CV(h) valore previsto della loess togliendo i-esima osservazione (valore previsto
non distorto di y cappuccio con i) della finestra chiamata anche PRESS
(se h, lo span è uguale a 1, la loess è uguale alla linear regression con metodo WLS, i pesi
non spariscono)
2
^
− (h)¿
y y −i
i ¿
¿
❑
∑ ¿
❑
(h)=¿
Cv
Kernel
Il kernel è tipicamente utilizzato per adattare una densità non parametrica di una densità
(x)
f
empirica , migliore funzione che fitta l'istogramma. Come?
Si prende per ogni valore osservato un punto focale e si aggancia il suo kernel normale,
successivamente si sommano le densità verticalmente per riprodurre in modo non
parametrico l’istogramma, l’area sotto la nuova fun