vuoi
o PayPal
tutte le volte che vuoi
ESERCIZIO REGRESSIONE
Y=7479,79 + 454,84 (Anzianità) + 102,01 (ore straordinario) + 718,57 (n° progetti)
Deviazione Y= 903.366,666 e R2 corretto= 0,971
Y= 9231,09 + 500,37 (Anzianità) + 1155,5 (n° progetti) R2 corretto=0,966
Si descriva sulla base delle informazioni fornite, la procedura da seguire per decidere quale dei due modelli
(1)
è da preferire.
Nella prima formula è presente un fattore in più rispetto alla seconda formula; tale fattore è rappresentato dal
numero di ore di straordinario. A questo punto bisogna porsi la seguente domanda: è veramente utile questa
informazione aggiuntiva rispetto al modello? Se l’informazione dovesse risultare essere utile (indispensabile
affinché il modello possa ritenersi sensato), allora il modello di regressione lineare multipla è preferibile.
Viceversa, è preferibile il modello di regressione lineare semplice, perché abbiamo un’informazione in meno ma
presenta una R elevato alla 2 molto alto. Per cui bisogna accertarsi se il numero di ore di straordinario sia legato
all’anzianità o ai progetti seguiti e verificare se le variabili sono strettamente interconnesse tra loro oppure no. Il
test F è una procedura per verificare ipotesi riguardanti uno o più coefficienti di regressione. Essa è impiegata
soprattutto per verificare l’ipotesi che due o più parametri siano congiuntamente pari a zero. Tale ipotesi
sottintende che le variabili esplicative corrispondenti ai parametri supposti nulli non sono utili a spiegare la
relazione lineare con la variabile dipendente Y che pertanto possono essere escluse dal modello di regressione.
Si interpretino tutti i coefficienti del modello completo.
(2)
Indicando con beta_1, beta_2 e beta_3 i coefficienti delle variabili X_1 = “anzianità”, X2 = “ore di straordinario” e X3
= “numero di progetti” si ha che la variabile dipendente Y = reddito annuo:
aumenta di beta_1 = 454,84 euro per ogni anno di anzianità in più;
- aumenta di beta_2 = 102,01 euro per ogni ora di straordinario in più;
- aumenta di beta_3 = 716,57 euro per ogni progetto seguito in più.
- Si interpreti la seguente distribuzione dei residui del modello completo
(3)
La banda in cui giacciono i punti tende ad allargarsi e quindi la varianza degli errori tende ad aumentare al
crescere della variabile esplicativa Y. Ciò implica la presenza di eteroschedasticità fra le variabili; tale
eteroschedasticità comporta l’utilizzo degli stimatori dei minimi quadrati ponderati, anziché l’impiego degli
stimatori dei minimi quadrati. In particolare, possiamo affermare che il grafico fa capire che all’inizio i valori sono
molto fedeli alla retta; man mano che ci si allontana dal punto 0, i valori iniziano a discostarsi, evidenziando una
modalità di distribuzione sul grafico non casuale, inducendo all’assunzione riguardante la mal specificazione del
modello. Infine, i residui che si discostano molto dalla retta possono essere considerati dei fattori che influenzano
negativamente la retta ed il modello potrebbe essere migliorato ulteriormente se si eliminano una o più variabili
che lo influenzano negativamente o troppo positivamente.
Poste italiane afferma che almeno il 63.4% della posta pubblicitaria inviata viene letta dai destinatari.
Un’associazione di tutela consumatori vuole sottoporre a verifica tale affermazione. Viene estratto un campione
casuale di 220 destinatari e si rileva che Asolo il 58,7% di essi legge la posta pubblicitaria. Di seguito vengono
proposte alcune affermazioni delle quali una sola è quella maggiormente accurata. Si chiede di commentare
ciascuna di esse giustificando la motivazione per la quale viene ritenuta o non viene ritenuta quella maggiormente
accurata.
1. Si rifiuta l’ipotesi nulla con α=0,05
2. Non si rifiuta l’ipotesi nulla con α≤0,10
3. Si rifiuta l’ipotesi nulla con α=0,10
4. Si rifiuta l’ipotesi con α=0,01
Con i dati dell’esercizio possiamo creare un sistema d’ipotesi che presenta l’ipotesi nulla H0=63,4%, l’ipotesi
alternativa sarà rappresentabile come H1≠63,4%. Solo il 58,7% legge effettivamente la posta pubblicitaria,
attestandosi su un quantitativo di 129 persone sul campione pari a n=220. Per rifiutare o accettare l’ipotesi nulla
bisogna osservare il campione e dar vita al test statistico. L’insieme dei valori della statistica test che portano
all’accettazione della H0 compongono la regione di accettazione; quelli che, invece, portano al rifiuto di H0
compongono la regione di rifiuto. Partendo dal presupposto che ALFA rappresenta l’errore di primo tipo, ovvero si
rifiuta l’ipotesi nulla quando questa è vera, l’affermazione più corretta è la numero 4 poiché il livello di ALFA risulta
essere il più piccolo tra quelli proposti e di conseguenza si sopporta un rischio minore di rifiutare l’ipotesi nulla
quando questa è vera. Per quanto riguarda l’affermazione 1, ovvero ALFA=0,05, presenterà una regione di rifiuto più
ampia con conseguente regione di accettazione più piccola rispetto a quella proposta da ALFA=0,01. Infine, discorso
analogo può essere fatto per le affermazioni 2 e 3, in quanto ALFA è uguale o minore di 0,1 e di conseguenza
rappresentano il più alto rischio di commettere errore di primo tipo.
Esercizio
Ad un campione casuale di 54 studenti universitari, suddivisi tra maschi e femmine, è stata chiesta la propria
opinione circa l’uso di un nuovo servizio offerto dalla segreteria. I risultati sono riportati di seguito in tabella:
M F
SI 10 10
NO 12 12
FORSE 5 5
Senza effettuare i calcoli dire, spiegandone la motivazione, qual è la conclusione di un test x2 di indipendenza tra
le due variabili sesso e opinione.
In primo luogo il test x2 di indipendenza appartiene alla famiglia dei test non parametrici, cioè test rispetto ai quali
non è nota la famiglia di distribuzione delle variabili. In questo specifico caso, date le variabili X=”sesso” e
Y=”opinione”, il test ha lo scopo di analizzare l’eventuale dipendenza tra x e y, la cui esistenza potrebbe influenzare
gli esiti del sondaggio-opinione. Infatti, una volta costruito un certo sistema di ipotesi:
0 = =
̂ ,
{ è possibile procedere con la costruzione della Tabella delle frequenze attese e della
1 = ≠
̂ , 2
−̂
=1 =1
2 ∑ ∑
= ( )
Tabella delle frequenze relative necessarie per la statistica test: 2 2
=
Dunque, dato un certo livello di confidenza alfa, è possibile verificare la regione critica: se la
(−1)(−1)
disuguaglianza è rispettata si rifiuta l’ipotesi nulla H0 (non vi è indipendenza). Viceversa, lo studio sul campione, ha
generato che x e y sono INDIPENDENTI (dunque x non influenza la variabile y).
Nel nostro caso specifico anche senza fare calcoli dal momento che al variare del carattere y, le risposte di maschi e
femmine non variano, dunque x2 =0. Pertanto tra i due caratteri vi è INDIPENDENZA.
ESERCIZIO REGRESSIONE MULTIPLA
Interpretazione dei coefficienti del modello.
Indicando con beta1, beta3, beta4 i coefficienti delle variabili x1, x3, x4 e con beta0 l’intercetta si ha che, secondo il
modello riportato, la variabile y:
Aumenta beta1 di 0,27 unità per ogni aumento di x1;
- Aumenta beta3 di 23,0 unità per ogni aumento di x3;
- Aumenta beta4 di 22,3 unità per ogni aumento di x4;
- Beta0 è pari a 1366 se tutte e tre le variabili hanno valore nullo.
-
Interpretazione della R quadro, R quadro aggiustata e della tavola ANOVA
I valori R quadro e R quadro aggiustato (o corretto), essendo prossimi al 100% (R-Sq= 99,6%), indicano che i
regressori del modello predicono ottimamente i valori della variabile dipendente Y in campione. D’altronde:
Il valore della statistica test F, pari a 8730,39 è molto più grande di 1 (F>>1)
- Il p-value del test F è prossimo allo 0 (con un elevata significatività
-
Da cui la forte propensione verso l’ipotesi che vi siano coefficienti significativamente diversi da 0.
Interpretazione inferenziale dei coefficienti del modello.
Dai p-value delle verifiche di ipotesi sulla nullità dei coefficienti beta1, beta3, beta4, emerge che:
Per beta1 il p-value è prossimo allo 0% e quindi si protende fortemente per beta0 diverso da 0; stesso discorso vale
- per beta3 e beta4.
Per beta1 il p-value è pari al 95,6% (prossimo al 100%) e quindi si protende fortemente per beta1=0.
-
Interpretazione della distribuzione dei residui del modello.
Poiché i punti sono casualmente distribuiti e non ci sono pattern rivelanti, il modello di regressione lineare
rappresenta adeguatamente la relazione Y con le variabili X1, X3, X4.
a. Da quanto emerge dall’analisi grafica, è evidente che µ1 è più grande di µ0, poiché, fissato un punto sull’asse delle
ordinate, i punti che costituiscono la curva continua H1 risultano avere un valore µ rispetto ai punti che formano
la curva tratteggiata H0; quanto detto non vale nel caso in cui le due curve dovessero intersecarsi.
b. Dall’ipotesi H1: µ= µ1 si può individuare un test unilaterale destro; ipotizzando che la popolazione segua una
distribuzione normale e fissato il livello di significatività pari al 10%, si ha che la zona di rifiuto è Z≥ zα ; le
regioni di rifiuto possono essere espresse in forma più esplicita, e del tutto equivalenti alla precedente:
= µ0 + zα ∗ √
α=
c. Fissando 10% sarà possibile individuare il valore di µ (mu) pari circa ad un valore compreso tra 1 e 1,5.
Dopodiché, sarà possibile procedere con il calcolo della potenza del test (1-beta) facendo la differenza tra 1 e 0,1,
individuando così un errore di secondo tipo pari a circa 0,9; se tale valore sarà effettivamente riscontrato allora
sarà possibile affermare che la probabilità di rifiutare H0 quando questa è vera risulterà essere molto elevata.
a) Con riferimento al grafico, possiamo individuare il valore di µ0 pari a 12; l’individuazione di tale valore
avviene grazie all’intersezione delle due curve; si ricorda che in tale punto la probabilità di rifiutare H0
coincide con la probabilità di commettere l’errore di primo tipo.
b) Tra i due grafici rappresentati, quello che corrisponde ad una numerosit