vuoi
o PayPal
tutte le volte che vuoi
Variabile X Numerica e Y Numerica
Per rappresentare il rapporto tra due variabili numeriche possiamo usare il grafico a
barre impilate:
Così facendo otteniamo il seguente grafico che distingue sempre, le classi di corso con
il totale (corretto) delle donazioni.
Possiamo utilizzare anche i diagrammi di dispersione per capire il tipo di relazione tra
le variabili:
Analizzando la nuvola di punti possiamo estrapolare numerose informazioni riguardo la
distribuzione, come il tipo di relazione presente, la sua forza, la presenza di outlier e
molto altro.
Inoltre se vogliamo analizzare più di due variabili per volta possiamo utilizzare il
comando pair:
Ottenendo così:
Infine, per valutare la relazione possiamo usare l’indice di covarianza, che può avere
un valore che va da -1 a +1, se si avvicina a zero significa che la relazione va ad
essere sempre più debole, fino a scomparire (o ad indicare che non si tratta di una
relazione lineare).
Regressione Lineare Semplice
Il primo passo per eseguire questa analisi è creare il modello lineare, per mezzo del
comando lm:
Dopo di che introduciamo il comando summary per ottenere informazioni riguardanti il
modello e i suoi coefficienti: Al suo interno troviamo i residuals, i
quali danno info sulla distribuzione
delle osservazioni.
I coefficienti, che con i relativi p-value,
saranno i principali protagonisti della
nostra analisi.
Infine, l’R-Squared che indica il grado
di bontà del modello. Se volessimo
comparare questo modello con altri
potremmo usare l’R-Squared Adjusted,
che tiene conto del numero di
predittori aggiunti nel modello, quindi non aumenterà necessariamente al loro
aumentare, ma terrà conto di un coefficiente di penalizzazione.
Con il comando coefficients possiamo vedere i dati del summary senza troppe
sbavature:
Il comando confint, invece, ci permette di calcolare l’intervallo di confidenza del
modello creato sopra. In base alla percentuale indicata il modello sarà più o meno
preciso.
Se invece volessimo provare a prevedere quale potrebbe essere la variabile di risposta
nel caso in cui la x assumesse determinati valori dovremmo fare una specifica
previsione, creando dapprima un nuovo data.frame e poi utilizzando il comando
predict.
In questo modo otteniamo il valore medio, il minimo ed il massimo dell’intervallo di
confidenza considerando le vendite online del valore di 70.
Regressione Lineare Multipla
Nel momento in cui dovessimo analizzare una distribuzione con più di un predittore,
dovremmo creare un modello particolare:
Con questo tipo di modelli dovremo inserire per prima la variabile di risposta: la Y; il
separatore è la tilde [inserita con il comando Alt + 126] e dopo di che inseriremo le
variabili X (predittori).
Dobbiamo ricordare che, se tra i predittori inseriamo il simbolo + otterremo un’analisi
solo sulle loro variabili dummy, mentre se vi inseriremo la * considereremo anche le
loro rispettive interazioni. Da questo summary possiamo capire che
tutte le variabili sono altamente
significative per il modello, siccome tutti e
tre i p-value sono piccoli.
L’R-Squared ci dice quanto la parte
strutturale del modello è in grado di
spiegare delle info della variabilità dei
prezzi di vendita.
In questo summary notiamo che viene
analizzata l’interazione tra le due
variabili. L’intercetta
rappresenterà la baseline, quindi il
prezzo, e rispettivamente dovremo
aggiungere o togliere il valore delle
intercette delle altre osservazioni per
ottenere il coefficiente dummy. Mentre la
differenza tra le inclinazioni delle rette
rappresenterà il coefficiente di
interazione.
Possiamo poi calcolare l’intervallo di confidenza per il modello con variabili dummy
mediante il comando confint: Notiamo che l’intervallo riguarda tutti i valori,
anche l’interazione
Anche in questo caso è possibile fare delle previsioni sul modello precedentemente
creato assegnando alla x determinati valori:
Dobbiamo valutare anche l’ampiezza dell’intervallo riportato da predict. Ci potrebbe
piacere un intervallo piuttosto ridotto, ma quello soprastante, per esempio, è poco
accurato.
Test F per Modelli Annidati
Per confrontare tra loro due modelli che condividono gran parte dei predittori
dobbiamo usare il test f per modelli annidati, non l’R-Squared Adjusted. Quest’ultimo
lo utilizziamo per confrontare tra loro modelli di diverso tipo.
Per confrontare i modelli annidati dobbiamo creare un modello completo e uno
ridotto, infine con il comando anova li mettiamo a confronto.
(prima inseriamo il modello
ridotto)
L’ipotesi nulla è che sia
meglio il modello ridotto. Se
il p-value è inferiore a 0.05
rifiutiamo l’ipotesi nulla e
riteniamo migliore il modello completo.
In questo caso notiamo che il p-value è molto piccolo, per cui dobbiamo considerare il
modello completo come il modello migliore.
teoria da sapere:
Diagnostiche per RLM
Alcuni modelli vanno modificati per rendere le assunzioni trovate adeguate al tipo di
relazione analizzata. Dobbiamo dividere le diagnostiche in quattro categorie:
1) Ipotesi di linearità ==> non sempre la relazione è lineare
Dopo aver creato il modello di regressione andiamo ad analizzare il plot con abline, in
modo tale da capire se la distribuzione segue un andamento lineare o meno.
Dal grafico notiamo che l’andamento è lineare:
Ma nel caso in cui non lo fosse dovremmo fornire alla distribuzione il termine
quadratico per rendere il modello adatto. Per esempio:
In questo caso specifico notiamo già che la distribuzione segue un modello parabolico,
per cui per mezzo del grafico che confronta i residui con i valori previsti lo andiamo a
testare:
Per cui andiamo ad inserire l’elemento quadratico all’interno del modello per mezzo
dell’oggetto “poly”:
All’interno del summary il poly..1 indicherà l’inclinazione (b1) e il poly..2 il verso della
parabola.
2) Ipotesi di influenza delle informazioni
Dopo aver creato il modello lineare e analizzato il grafico ipotizziamo che potrebbero
essere presenti dei valori anomali nella distribuzione.
Gli outlier sono da considerare come osservazioni con valori anomali per quanto
riguarda i residui, ovvero la variabile Y. Per cui dobbiamo analizzare i valori critici
attraverso i residui studentizzati, per cui applicando il comando influencePlot.
Analizzando gli StudRes che non rimangono nel
range -2 e +2 possiamo notare la presenza degli
eventuali valori anomali. E poi, attraverso la
colonna CookD, possiamo capire quali di questi
valori sono maggiormente influenti per la
distribuzione.
La soglia per valutare la significatività dei CookD è 1.
Questo grafico invece mostra ciò che abbiamo
appena analizzato mediante la tabella. I cerchi
colorati rappresentano le osservazioni anomale e
il colore aumenta di intensità all’aumentare della
loro “anomalia” e significatività per la
distribuzione.
3) Osservazioni ad alto leverage
Le osservazioni ad elevato leverage non sono altro che i valori estremi rispetto alla X.
Un’osservazione molto distanziata dalle altre non p necessariamente un outlier, se il
suo residuo è uguale a zero è sulla retta Vi sarà quindi un valore inatteso rispetto alla
coordinata orizzontale del punto.
Dal grafico notiamo subito un’osservazione che segue l’andamento della retta, per cui
ha residuo pari a zero, ma che è molto distante rispetto al resto delle osservazioni.
Anche questa volta dovremo applicare l’influencePlot, ma lo analizzeremo in un modo
diverso. Anche in questo caso osserviamo i CookD > 1.
Questa volta valutiamo gli HatValues e per
farlo utilizziamo la seconda linea del grafico a
fianco.
Questa linea rappresenta tre volte la media
degli HatValues, sono considerate osservazioni
al alto leverage quelle che si trovano alla sua
destra.
4) Ipotesi di variabilità degli errori
Una delle assunzioni del modello di regressione lineare è che la varianza degli errori
sia assunta come COSTANTE. Spoiler: non sempre è così.
Nel caso in cui la varianza fosse costante ci troveremmo in una situazione detta ==>
IPOTESI DI OMOSCHEDASTICITA’.
La violazione di questa assunzione, ovvero la varianza non costante, è detta IPOTESI
DI ETEROSCHEDASTICITA’. Le conseguenze ottenute in questo caso sarebbero:
minimi quadrati
Stime dei meno efficienti
P-value, intervalli di confidenza di previsione
e intervalli non più affidabili.
Per eseguire questa analisi abbiamo tre strumenti a nostra disposizione:
Controlliamo che la distribuzione segua la linea rossa, se non la segue ma aumenta o
diminuisce lungo essa noteremo una varianza crescente o decrescente dei residui.
Questo grafico è complementare al primo, semplicemente riporta i residui in valore
assoluto. Anche qui analizzeremo la distribuzione delle osservazioni rispetto alla linea.
Infine, con il Test di Breush-Pagan andiamo a comprovare, per mezzo del p-value
quanto dedotto dai grafici originati in precedenza. Con questo test però ragioniamo in
modo opposto rispetto al solito. Vogliamo un p-value molto grande per non rifiutare
l’ipotesi nulla. Infatti: H0: ipotesi di omoschedasticità
H1: ipotesi di eteroschedasticità
Nel caso in cui però il p-value fosse inferiore a 0.05, dovremmo rifiutare l’ipotesi nulla.
Questo ci porterebbe a dover modificare la distribuzione per mezzo dei modelli
logaritmici.
Conosciamo due tipi di modelli logaritmici:
Modello semi-log: in cui solo la variabile di risposta viene trasformata in un
logaritmo
Modello log-log: trasforma entrambe le variabili in logaritmo, ovvero su scala
logaritmica. Elasticità: attraverso il
summary posso
andare ad interpretare
il valore di “log” per
capire che incremento
percentuale ci sarà
rispetto alla variabile
price.
Riapplichiamo i tre
strumenti visti
precedentemente per
capire se log-log ha
risolto.
Ipotesi di Multicollinearità
Dobbiamo capire se sono state incluse troppe informazioni all’interno dell’analisi. Per
esempio, ci possono essere predittori che congiuntamente catturano più di due terzi di
tutta la variabilità, ma individualmente possono essere inutili. Per valutarlo
inizialmente possiamo creare un modello con entrambi e uno con ciascuna
singolarmente.
Conseguenze:
- La correlazione tra più predittori indica che non è possibile separare il loro
effetto individuale, siccome sono legati