In quella situazione vedete chiaramente che il
diagramma di dispersione mostra una relazione
molto molto forte di tipo lineare crescente tra y
e x: in una situazione del genere il valore di R-
quadro sarà sicuramente vicino al massimo,
cioè vicino a +1, questo perché la retta in quel
caso rappresenta una spiegazione molto molto
efficace e quasi esaustiva della relazione lineare
tra y e x.
Stessa cosa succede per lo scenario che avete in
alto a destra. In questo scenario abbiamo
esattamente la stessa situazione in termini di R-
quadro nel senso che continua a essere vero
che in quel diagramma di dispersione la
relazione tra y e x può essere spiegata molto bene attraverso la retta che rappresenta il modello di
regressione stimata. Quindi anche in questo caso l’R-quadro sarà vicino a +1.
La differenza tra queste prime due situazioni nella parte alta della slide è che nel riquadro a sinistra la
relazione è positiva e crescente, nel riquadro a destra è decrescente. L’R-quadro non distingue tra inclinazioni
o rette che sono positivamente o negativamente inclinate, distingue solo tra situazioni in cui i puntini sono
vicini alla retta oppure sono lontani dalla retta (come nel caso del riquadro in basso a sinistra).
In questo caso, infatti, i punti sono molto distanti dalla retta: essendo molto distanti dalla retta, la retta stessa
non rappresenta una spiegazione molto efficace della relazione tra y e x e quindi questa retta sarà poco utile
per prevedere la y in funzione del valore della x, ciò significa che il valore di R-quadro sarà vicino a 0 cioè al
suo minimo. La variabilità totale della y che noi abbiamo osservato, non è praticamente spiegata quasi per
nulla, o molto poco, dalla retta di regressione, dalle previsioni, dalla variabile x.
Ultimo esempio, che è molto importante perché purtroppo
è un esempio che si osserva molto spesso in pratica, è la
situazione in cui abbiamo la maggior parte dei punti che si
dispongono in questa parte (in basso) del diagramma di
dispersione e abbiamo poche osservazioni che invece sono
molto distanziate (parte in alto) e rappresentano appunto
quello che noi abbiamo sempre chiamato outlier, quindi
queste osservazioni sono i nostri outlier.
Se noi basassimo la nostra valutazione del modello solo su
R-quadro, purtroppo come abbiamo detto non va bene, il
diagramma di dispersione che stiamo commentando
rappresenta un esempio che va in questa direzione; se notate infatti la presenza degli outlier fa sì che la retta
stimata rappresenti alla fine un modello che non è così poco efficiente, la retta in questo caso è un modello
che spiegherà una parte non trascurabile della variabilità della y, ovvero: l’R-quadro non assumerà dei valori
che sono vicini a 0. Però purtroppo questo risultato in una situazione del genere è fuorviante perché l’indice
R-quadro che non è vicino a 0, non è in questa situazione un indicatore di bontà del modello, questo perché
quel R-quadro non troppo vicino a 0, è un numero che è quasi esclusivamente determinato dalla presenza di
quei pochi outlier che abbiamo in alto a destra nel diagramma di dispersione. Con questo voglio dire che se
pensassimo di eliminare gli outlier dalla nostra analisi, cioè rifacessimo l’analisi stimando la retta ma
rimuovendo quelle tre osservazioni dal nostro campione e usassimo solo i dati che sono inclusi nel resto del
campione osserveremmo che la retta di regressione da quella che è rappresentata nel grafico come inclinata
positivamente, utilizzando solo i dati nella parte in basso a
sinistra diventerebbe una retta praticamente orizzontale:
non esiste cioè praticamente nessuna relazione lineare che
spiega la y in funzione della x sulla base di questi dati, che
rappresentano la maggioranza del nostro campione.
La relazione che viene fuori (la retta inclinata positivamente)
è una relazione fuorviante perché è influenzata dalla
presenza degli outlier. Quindi ripetiamo: utilizzare da solo
l’R-quadro per valutare la bontà di un modello di regressione
lineare in generale non è una cosa corretta da fare perché
potrebbero esserci situazioni in cui l’R-quadro ci dà
informazione fuorvianti. Torniamo a questo punto al nostro output
della regressione lineare e in particolare ci
soffermiamo sui due numeri, indicatori, che
abbiamo appena introdotto: lo standard
error dei residui, che nel nostro esempio è
1147, riportato nella parte finale
dell’output, sotto il titolo Residual standard
error. Questo numero abbiamo detto è
difficile da interpretare, è espresso in dollari
in questo caso, con la stessa unità di misura
della variabile di risposta, ma è un numero
che è difficile da interpretare perché quel
valore dipende dall’unità di misura e dalla
scala della variabile x. Questo numero però
è legato in modo molto stretto all’R-quadro.
L’R-quadro è proposto nella riga successiva sotto il titolo Multiple R-squared ed è nel nostro esempio a
0,6898, quasi 69%, possiamo esprimerlo in percentuale poiché è un numero che va da 0 a 1.
Questo 0,69 significa che il nostro modello di regressione lineare, cioè la variabile Online purchases, da sola
è in grado di spiegare quasi il 69% della variabilità totale osservata per le vendite totali giornaliere.
Quindi ripeto: questo numero indica che il numero di acquisti online giornalieri è in grado di spiegare quasi il
69% della variabilità osservata per la variabile di risposta Vendite totali giornaliere. Quindi possiamo dire che
è un modello piuttosto buono, tenete presente che stiamo utilizzando una sola informazione: le vendite
online, quindi da sole questo numero delle vendite online è in grado di spiegare una buona parte della
variabilità osservata per le vendite totali. Quindi possiamo dire che per questa azienda le vendite online
rappresentano il driver principale delle vendite totali. Chiaramente la parte residua, quella che ci rimane per
arrivare al 100% (cioè il 31%) rappresenta invece il peso, il contributo fornito dalle vendite effettuate
attraverso il canale tradizionale. Dicevo che il residual standard error e R-quadro sono legati tra di loro perché
quando l’R-quadro sarà alto, vicino a 1, necessariamente il residual standard error tenderà a essere più basso
e viceversa. Quindi sono legati in modo inverso: più grande è uno e più basso è l’altro.
Videopillola 5 Fino a questo momento abbiamo basato le nostre
valutazioni del modello solo sui dati campionari,
quindi abbiamo solo analizzato indici che erano
stati ottenuti sulla base delle osservazioni che
abbiamo nel campione. Sappiamo però bene,
abbiamo dedicato un bel po’ di tempo nella prima
parte del corso a introdurre e ripassare per certi
versi alcuni concetti importanti di statistica di base,
che di solito le decisioni manageriali non hanno
solo un impatto limitato alle osservazioni che noi
abbiamo raccolto ma hanno un impatto che va
molto oltre e che riguarda l’intera popolazione a cui
i nostri dati campionari fanno riferimento e quindi è necessario fare la cosiddetta analisi inferenziale, ovvero
cercare di capire se i risultati che abbiamo ottenuto sulla base del campione possono anche essere estesi, nel
senso che valgono almeno in linea approssimativa anche per l’intera popolazione di riferimento.
Sappiamo, perché abbiamo ripassato questi strumenti in linea generale nella prima parte del corso, che gli
strumenti di statistica inferenziale principali che abbiamo a disposizione sono: la verifica di ipotesi/i test di
ipotesi/test statistici e gli intervalli di confidenza.
Ora applichiamo questi strumenti anche al caso del coefficiente di inclinazione del modello di regressione
lineare semplice. Si potrebbe fare lo stesso tipo di valutazione, quindi test e intervalli di confidenza anche per
l’intercetta, però visto che abbiamo già sottolineato i limiti nella stragrande maggioranza dei casi
nell’interpretazione da un punto di vista di business/manageriale dell’intercetta, nel resto del corso
dedicheremo molta poca attenzione alla descrizione dei risultati relativi all’intercetta, ci concentreremo
principalmente sull’inclinazione. Quindi cominciamo a vedere come si fa il test (in
realtà non dobbiamo fare nulla perché i risultati sono
già tutti riportati nell’output, dobbiamo solo
interpretare i risultati). Capiamo ora come si fa a
valutare l’affidabilità statistica del coefficiente
angolare.
Solitamente il primo passo è effettuare un test, il
cosiddetto test t per il coefficiente b (nella slide c’è
1
scritto b ma è un errore). Abbiamo detto che
0
dobbiamo effettuare un test: se vi ricordate abbiamo
detto che tutti i test sono composti da due cosiddette
ipotesi. H è detta ipotesi nulla mentre H è detta
0 1
ipotesi alternativa.
Alla luce dei dati campionari dobbiamo valutare se l’ipotesi nulla possa essere scartata in favore dell’ipotesi
alternativa oppure questo non possa essere fatto e quindi non è possibile confermare l’ipotesi alternativa
come quella più ragionevole tra le due. Nel contesto del modello di regressione lineare semplice, l’ipotesi
nulla nel test t per l’inclinazione corrisponde all’affermazione secondo cui l’inclinazione nell’intera
1
popolazione. Ricordate b1 è la stima basata sul campione di , è il valore non noto dell’inclinazione
1 1
relativa a tutti i dati nell’intera popolazione: quello che vogliamo fare è capire quali sono i valori probabili di
cioè la quantità che non conosciamo. Il b , la stima basata sul campione la conosciamo, nel nostro esempio
1 1
è 84,7, quindi è il motivo questo per cui nelle ipotesi di un test vengono coinvolti i coefficienti non noti di un
modello.
Dicevamo quindi: l’ipotesi nulla nel cosiddetto test t per il coefficiente è l’affermazione secondo cui
1
l’inclinazione nella popolazione è 0. Visto che stiamo parlando di una retta, se una retta ha inclinazione uguale
a 0 vuol dire che la y non è linearmente prevedibile utilizzando la variabile x se =0, quindi H indica nel test
1 0
t per la regressione lineare semplice, la situazione peggiore a cui ci possiamo trovare, cioè la situazione in cui
y non si può prevedere utilizzando una funzione lineare della x.
Questa ipotesi H è confrontata con l’ipotesi alternativa che vedete, ovvero l’
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.