Estratto del documento

In quella situazione vedete chiaramente che il

diagramma di dispersione mostra una relazione

molto molto forte di tipo lineare crescente tra y

e x: in una situazione del genere il valore di R-

quadro sarà sicuramente vicino al massimo,

cioè vicino a +1, questo perché la retta in quel

caso rappresenta una spiegazione molto molto

efficace e quasi esaustiva della relazione lineare

tra y e x.

Stessa cosa succede per lo scenario che avete in

alto a destra. In questo scenario abbiamo

esattamente la stessa situazione in termini di R-

quadro nel senso che continua a essere vero

che in quel diagramma di dispersione la

relazione tra y e x può essere spiegata molto bene attraverso la retta che rappresenta il modello di

regressione stimata. Quindi anche in questo caso l’R-quadro sarà vicino a +1.

La differenza tra queste prime due situazioni nella parte alta della slide è che nel riquadro a sinistra la

relazione è positiva e crescente, nel riquadro a destra è decrescente. L’R-quadro non distingue tra inclinazioni

o rette che sono positivamente o negativamente inclinate, distingue solo tra situazioni in cui i puntini sono

vicini alla retta oppure sono lontani dalla retta (come nel caso del riquadro in basso a sinistra).

In questo caso, infatti, i punti sono molto distanti dalla retta: essendo molto distanti dalla retta, la retta stessa

non rappresenta una spiegazione molto efficace della relazione tra y e x e quindi questa retta sarà poco utile

per prevedere la y in funzione del valore della x, ciò significa che il valore di R-quadro sarà vicino a 0 cioè al

suo minimo. La variabilità totale della y che noi abbiamo osservato, non è praticamente spiegata quasi per

nulla, o molto poco, dalla retta di regressione, dalle previsioni, dalla variabile x.

Ultimo esempio, che è molto importante perché purtroppo

è un esempio che si osserva molto spesso in pratica, è la

situazione in cui abbiamo la maggior parte dei punti che si

dispongono in questa parte (in basso) del diagramma di

dispersione e abbiamo poche osservazioni che invece sono

molto distanziate (parte in alto) e rappresentano appunto

quello che noi abbiamo sempre chiamato outlier, quindi

queste osservazioni sono i nostri outlier.

Se noi basassimo la nostra valutazione del modello solo su

R-quadro, purtroppo come abbiamo detto non va bene, il

diagramma di dispersione che stiamo commentando

rappresenta un esempio che va in questa direzione; se notate infatti la presenza degli outlier fa sì che la retta

stimata rappresenti alla fine un modello che non è così poco efficiente, la retta in questo caso è un modello

che spiegherà una parte non trascurabile della variabilità della y, ovvero: l’R-quadro non assumerà dei valori

che sono vicini a 0. Però purtroppo questo risultato in una situazione del genere è fuorviante perché l’indice

R-quadro che non è vicino a 0, non è in questa situazione un indicatore di bontà del modello, questo perché

quel R-quadro non troppo vicino a 0, è un numero che è quasi esclusivamente determinato dalla presenza di

quei pochi outlier che abbiamo in alto a destra nel diagramma di dispersione. Con questo voglio dire che se

pensassimo di eliminare gli outlier dalla nostra analisi, cioè rifacessimo l’analisi stimando la retta ma

rimuovendo quelle tre osservazioni dal nostro campione e usassimo solo i dati che sono inclusi nel resto del

campione osserveremmo che la retta di regressione da quella che è rappresentata nel grafico come inclinata

positivamente, utilizzando solo i dati nella parte in basso a

sinistra diventerebbe una retta praticamente orizzontale:

non esiste cioè praticamente nessuna relazione lineare che

spiega la y in funzione della x sulla base di questi dati, che

rappresentano la maggioranza del nostro campione.

La relazione che viene fuori (la retta inclinata positivamente)

è una relazione fuorviante perché è influenzata dalla

presenza degli outlier. Quindi ripetiamo: utilizzare da solo

l’R-quadro per valutare la bontà di un modello di regressione

lineare in generale non è una cosa corretta da fare perché

potrebbero esserci situazioni in cui l’R-quadro ci dà

informazione fuorvianti. Torniamo a questo punto al nostro output

della regressione lineare e in particolare ci

soffermiamo sui due numeri, indicatori, che

abbiamo appena introdotto: lo standard

error dei residui, che nel nostro esempio è

1147, riportato nella parte finale

dell’output, sotto il titolo Residual standard

error. Questo numero abbiamo detto è

difficile da interpretare, è espresso in dollari

in questo caso, con la stessa unità di misura

della variabile di risposta, ma è un numero

che è difficile da interpretare perché quel

valore dipende dall’unità di misura e dalla

scala della variabile x. Questo numero però

è legato in modo molto stretto all’R-quadro.

L’R-quadro è proposto nella riga successiva sotto il titolo Multiple R-squared ed è nel nostro esempio a

0,6898, quasi 69%, possiamo esprimerlo in percentuale poiché è un numero che va da 0 a 1.

Questo 0,69 significa che il nostro modello di regressione lineare, cioè la variabile Online purchases, da sola

è in grado di spiegare quasi il 69% della variabilità totale osservata per le vendite totali giornaliere.

Quindi ripeto: questo numero indica che il numero di acquisti online giornalieri è in grado di spiegare quasi il

69% della variabilità osservata per la variabile di risposta Vendite totali giornaliere. Quindi possiamo dire che

è un modello piuttosto buono, tenete presente che stiamo utilizzando una sola informazione: le vendite

online, quindi da sole questo numero delle vendite online è in grado di spiegare una buona parte della

variabilità osservata per le vendite totali. Quindi possiamo dire che per questa azienda le vendite online

rappresentano il driver principale delle vendite totali. Chiaramente la parte residua, quella che ci rimane per

arrivare al 100% (cioè il 31%) rappresenta invece il peso, il contributo fornito dalle vendite effettuate

attraverso il canale tradizionale. Dicevo che il residual standard error e R-quadro sono legati tra di loro perché

quando l’R-quadro sarà alto, vicino a 1, necessariamente il residual standard error tenderà a essere più basso

e viceversa. Quindi sono legati in modo inverso: più grande è uno e più basso è l’altro.

Videopillola 5 Fino a questo momento abbiamo basato le nostre

valutazioni del modello solo sui dati campionari,

quindi abbiamo solo analizzato indici che erano

stati ottenuti sulla base delle osservazioni che

abbiamo nel campione. Sappiamo però bene,

abbiamo dedicato un bel po’ di tempo nella prima

parte del corso a introdurre e ripassare per certi

versi alcuni concetti importanti di statistica di base,

che di solito le decisioni manageriali non hanno

solo un impatto limitato alle osservazioni che noi

abbiamo raccolto ma hanno un impatto che va

molto oltre e che riguarda l’intera popolazione a cui

i nostri dati campionari fanno riferimento e quindi è necessario fare la cosiddetta analisi inferenziale, ovvero

cercare di capire se i risultati che abbiamo ottenuto sulla base del campione possono anche essere estesi, nel

senso che valgono almeno in linea approssimativa anche per l’intera popolazione di riferimento.

Sappiamo, perché abbiamo ripassato questi strumenti in linea generale nella prima parte del corso, che gli

strumenti di statistica inferenziale principali che abbiamo a disposizione sono: la verifica di ipotesi/i test di

ipotesi/test statistici e gli intervalli di confidenza.

Ora applichiamo questi strumenti anche al caso del coefficiente di inclinazione del modello di regressione

lineare semplice. Si potrebbe fare lo stesso tipo di valutazione, quindi test e intervalli di confidenza anche per

l’intercetta, però visto che abbiamo già sottolineato i limiti nella stragrande maggioranza dei casi

nell’interpretazione da un punto di vista di business/manageriale dell’intercetta, nel resto del corso

dedicheremo molta poca attenzione alla descrizione dei risultati relativi all’intercetta, ci concentreremo

principalmente sull’inclinazione. Quindi cominciamo a vedere come si fa il test (in

realtà non dobbiamo fare nulla perché i risultati sono

già tutti riportati nell’output, dobbiamo solo

interpretare i risultati). Capiamo ora come si fa a

valutare l’affidabilità statistica del coefficiente

angolare.

Solitamente il primo passo è effettuare un test, il

cosiddetto test t per il coefficiente b (nella slide c’è

1

scritto b ma è un errore). Abbiamo detto che

0

dobbiamo effettuare un test: se vi ricordate abbiamo

detto che tutti i test sono composti da due cosiddette

ipotesi. H è detta ipotesi nulla mentre H è detta

0 1

ipotesi alternativa.

Alla luce dei dati campionari dobbiamo valutare se l’ipotesi nulla possa essere scartata in favore dell’ipotesi

alternativa oppure questo non possa essere fatto e quindi non è possibile confermare l’ipotesi alternativa

come quella più ragionevole tra le due. Nel contesto del modello di regressione lineare semplice, l’ipotesi

nulla nel test t per l’inclinazione corrisponde all’affermazione secondo cui l’inclinazione nell’intera

1

popolazione. Ricordate b1 è la stima basata sul campione di , è il valore non noto dell’inclinazione

1 1

relativa a tutti i dati nell’intera popolazione: quello che vogliamo fare è capire quali sono i valori probabili di

cioè la quantità che non conosciamo. Il b , la stima basata sul campione la conosciamo, nel nostro esempio

1 1

è 84,7, quindi è il motivo questo per cui nelle ipotesi di un test vengono coinvolti i coefficienti non noti di un

modello.

Dicevamo quindi: l’ipotesi nulla nel cosiddetto test t per il coefficiente è l’affermazione secondo cui

1

l’inclinazione nella popolazione è 0. Visto che stiamo parlando di una retta, se una retta ha inclinazione uguale

a 0 vuol dire che la y non è linearmente prevedibile utilizzando la variabile x se =0, quindi H indica nel test

1 0

t per la regressione lineare semplice, la situazione peggiore a cui ci possiamo trovare, cioè la situazione in cui

y non si può prevedere utilizzando una funzione lineare della x.

Questa ipotesi H è confrontata con l’ipotesi alternativa che vedete, ovvero l’

Anteprima
Vedrai una selezione di 9 pagine su 36
Business Data Science  Pag. 1 Business Data Science  Pag. 2
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 6
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 11
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 16
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 21
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 26
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 31
Anteprima di 9 pagg. su 36.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 36
1 su 36
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher ely98love di informazioni apprese con la frequenza delle lezioni di Business data science e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Dovesi Roberto.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community