Anteprima
Vedrai una selezione di 3 pagine su 6
Esercizi svolti esame inferenza statistica Pag. 1 Esercizi svolti esame inferenza statistica Pag. 2
Anteprima di 3 pagg. su 6.
Scarica il documento per vederlo tutto.
Esercizi svolti esame inferenza statistica Pag. 6
1 su 6
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

ESERCIZIO REGRESSIONE

Y=7479,79 + 454,84 (Anzianità) + 102,01 (ore straordinario) + 718,57 (n° progetti)

Deviazione Y= 903.366,666 e R2 corretto= 0,971

Y= 9231,09 + 500,37 (Anzianità) + 1155,5 (n° progetti) R2 corretto=0,966

Si descriva sulla base delle informazioni fornite, la procedura da seguire per decidere quale dei due modelli

(1)

è da preferire.

Nella prima formula è presente un fattore in più rispetto alla seconda formula; tale fattore è rappresentato dal

numero di ore di straordinario. A questo punto bisogna porsi la seguente domanda: è veramente utile questa

informazione aggiuntiva rispetto al modello? Se l’informazione dovesse risultare essere utile (indispensabile

affinché il modello possa ritenersi sensato), allora il modello di regressione lineare multipla è preferibile.

Viceversa, è preferibile il modello di regressione lineare semplice, perché abbiamo un’informazione in meno ma

presenta una R elevato alla 2 molto alto. Per cui bisogna accertarsi se il numero di ore di straordinario sia legato

all’anzianità o ai progetti seguiti e verificare se le variabili sono strettamente interconnesse tra loro oppure no. Il

test F è una procedura per verificare ipotesi riguardanti uno o più coefficienti di regressione. Essa è impiegata

soprattutto per verificare l’ipotesi che due o più parametri siano congiuntamente pari a zero. Tale ipotesi

sottintende che le variabili esplicative corrispondenti ai parametri supposti nulli non sono utili a spiegare la

relazione lineare con la variabile dipendente Y che pertanto possono essere escluse dal modello di regressione.

Si interpretino tutti i coefficienti del modello completo.

(2)

Indicando con beta_1, beta_2 e beta_3 i coefficienti delle variabili X_1 = “anzianità”, X2 = “ore di straordinario” e X3

= “numero di progetti” si ha che la variabile dipendente Y = reddito annuo:

aumenta di beta_1 = 454,84 euro per ogni anno di anzianità in più;

- aumenta di beta_2 = 102,01 euro per ogni ora di straordinario in più;

- aumenta di beta_3 = 716,57 euro per ogni progetto seguito in più.

- Si interpreti la seguente distribuzione dei residui del modello completo

(3)

La banda in cui giacciono i punti tende ad allargarsi e quindi la varianza degli errori tende ad aumentare al

crescere della variabile esplicativa Y. Ciò implica la presenza di eteroschedasticità fra le variabili; tale

eteroschedasticità comporta l’utilizzo degli stimatori dei minimi quadrati ponderati, anziché l’impiego degli

stimatori dei minimi quadrati. In particolare, possiamo affermare che il grafico fa capire che all’inizio i valori sono

molto fedeli alla retta; man mano che ci si allontana dal punto 0, i valori iniziano a discostarsi, evidenziando una

modalità di distribuzione sul grafico non casuale, inducendo all’assunzione riguardante la mal specificazione del

modello. Infine, i residui che si discostano molto dalla retta possono essere considerati dei fattori che influenzano

negativamente la retta ed il modello potrebbe essere migliorato ulteriormente se si eliminano una o più variabili

che lo influenzano negativamente o troppo positivamente.

Poste italiane afferma che almeno il 63.4% della posta pubblicitaria inviata viene letta dai destinatari.

Un’associazione di tutela consumatori vuole sottoporre a verifica tale affermazione. Viene estratto un campione

casuale di 220 destinatari e si rileva che Asolo il 58,7% di essi legge la posta pubblicitaria. Di seguito vengono

proposte alcune affermazioni delle quali una sola è quella maggiormente accurata. Si chiede di commentare

ciascuna di esse giustificando la motivazione per la quale viene ritenuta o non viene ritenuta quella maggiormente

accurata.

1. Si rifiuta l’ipotesi nulla con α=0,05

2. Non si rifiuta l’ipotesi nulla con α≤0,10

3. Si rifiuta l’ipotesi nulla con α=0,10

4. Si rifiuta l’ipotesi con α=0,01

Con i dati dell’esercizio possiamo creare un sistema d’ipotesi che presenta l’ipotesi nulla H0=63,4%, l’ipotesi

alternativa sarà rappresentabile come H1≠63,4%. Solo il 58,7% legge effettivamente la posta pubblicitaria,

attestandosi su un quantitativo di 129 persone sul campione pari a n=220. Per rifiutare o accettare l’ipotesi nulla

bisogna osservare il campione e dar vita al test statistico. L’insieme dei valori della statistica test che portano

all’accettazione della H0 compongono la regione di accettazione; quelli che, invece, portano al rifiuto di H0

compongono la regione di rifiuto. Partendo dal presupposto che ALFA rappresenta l’errore di primo tipo, ovvero si

rifiuta l’ipotesi nulla quando questa è vera, l’affermazione più corretta è la numero 4 poiché il livello di ALFA risulta

essere il più piccolo tra quelli proposti e di conseguenza si sopporta un rischio minore di rifiutare l’ipotesi nulla

quando questa è vera. Per quanto riguarda l’affermazione 1, ovvero ALFA=0,05, presenterà una regione di rifiuto più

ampia con conseguente regione di accettazione più piccola rispetto a quella proposta da ALFA=0,01. Infine, discorso

analogo può essere fatto per le affermazioni 2 e 3, in quanto ALFA è uguale o minore di 0,1 e di conseguenza

rappresentano il più alto rischio di commettere errore di primo tipo.

Esercizio

Ad un campione casuale di 54 studenti universitari, suddivisi tra maschi e femmine, è stata chiesta la propria

opinione circa l’uso di un nuovo servizio offerto dalla segreteria. I risultati sono riportati di seguito in tabella:

M F

SI 10 10

NO 12 12

FORSE 5 5

Senza effettuare i calcoli dire, spiegandone la motivazione, qual è la conclusione di un test x2 di indipendenza tra

le due variabili sesso e opinione.

In primo luogo il test x2 di indipendenza appartiene alla famiglia dei test non parametrici, cioè test rispetto ai quali

non è nota la famiglia di distribuzione delle variabili. In questo specifico caso, date le variabili X=”sesso” e

Y=”opinione”, il test ha lo scopo di analizzare l’eventuale dipendenza tra x e y, la cui esistenza potrebbe influenzare

gli esiti del sondaggio-opinione. Infatti, una volta costruito un certo sistema di ipotesi:

0 = =

̂ ,

{ è possibile procedere con la costruzione della Tabella delle frequenze attese e della

1 = ≠

̂ , 2

−̂

=1 =1

2 ∑ ∑

= ( )

Tabella delle frequenze relative necessarie per la statistica test: 2 2

=

Dunque, dato un certo livello di confidenza alfa, è possibile verificare la regione critica: se la

(−1)(−1)

disuguaglianza è rispettata si rifiuta l’ipotesi nulla H0 (non vi è indipendenza). Viceversa, lo studio sul campione, ha

generato che x e y sono INDIPENDENTI (dunque x non influenza la variabile y).

Nel nostro caso specifico anche senza fare calcoli dal momento che al variare del carattere y, le risposte di maschi e

femmine non variano, dunque x2 =0. Pertanto tra i due caratteri vi è INDIPENDENZA.

ESERCIZIO REGRESSIONE MULTIPLA

Interpretazione dei coefficienti del modello.

Indicando con beta1, beta3, beta4 i coefficienti delle variabili x1, x3, x4 e con beta0 l’intercetta si ha che, secondo il

modello riportato, la variabile y:

Aumenta beta1 di 0,27 unità per ogni aumento di x1;

- Aumenta beta3 di 23,0 unità per ogni aumento di x3;

- Aumenta beta4 di 22,3 unità per ogni aumento di x4;

- Beta0 è pari a 1366 se tutte e tre le variabili hanno valore nullo.

-

Interpretazione della R quadro, R quadro aggiustata e della tavola ANOVA

I valori R quadro e R quadro aggiustato (o corretto), essendo prossimi al 100% (R-Sq= 99,6%), indicano che i

regressori del modello predicono ottimamente i valori della variabile dipendente Y in campione. D’altronde:

Il valore della statistica test F, pari a 8730,39 è molto più grande di 1 (F>>1)

- Il p-value del test F è prossimo allo 0 (con un elevata significatività

-

Da cui la forte propensione verso l’ipotesi che vi siano coefficienti significativamente diversi da 0.

Interpretazione inferenziale dei coefficienti del modello.

Dai p-value delle verifiche di ipotesi sulla nullità dei coefficienti beta1, beta3, beta4, emerge che:

Per beta1 il p-value è prossimo allo 0% e quindi si protende fortemente per beta0 diverso da 0; stesso discorso vale

- per beta3 e beta4.

Per beta1 il p-value è pari al 95,6% (prossimo al 100%) e quindi si protende fortemente per beta1=0.

-

Interpretazione della distribuzione dei residui del modello.

Poiché i punti sono casualmente distribuiti e non ci sono pattern rivelanti, il modello di regressione lineare

rappresenta adeguatamente la relazione Y con le variabili X1, X3, X4.

a. Da quanto emerge dall’analisi grafica, è evidente che µ1 è più grande di µ0, poiché, fissato un punto sull’asse delle

ordinate, i punti che costituiscono la curva continua H1 risultano avere un valore µ rispetto ai punti che formano

la curva tratteggiata H0; quanto detto non vale nel caso in cui le due curve dovessero intersecarsi.

b. Dall’ipotesi H1: µ= µ1 si può individuare un test unilaterale destro; ipotizzando che la popolazione segua una

distribuzione normale e fissato il livello di significatività pari al 10%, si ha che la zona di rifiuto è Z≥ zα ; le

regioni di rifiuto possono essere espresse in forma più esplicita, e del tutto equivalenti alla precedente:

= µ0 + zα ∗ √

α=

c. Fissando 10% sarà possibile individuare il valore di µ (mu) pari circa ad un valore compreso tra 1 e 1,5.

Dopodiché, sarà possibile procedere con il calcolo della potenza del test (1-beta) facendo la differenza tra 1 e 0,1,

individuando così un errore di secondo tipo pari a circa 0,9; se tale valore sarà effettivamente riscontrato allora

sarà possibile affermare che la probabilità di rifiutare H0 quando questa è vera risulterà essere molto elevata.

a) Con riferimento al grafico, possiamo individuare il valore di µ0 pari a 12; l’individuazione di tale valore

avviene grazie all’intersezione delle due curve; si ricorda che in tale punto la probabilità di rifiutare H0

coincide con la probabilità di commettere l’errore di primo tipo.

b) Tra i due grafici rappresentati, quello che corrisponde ad una numerosit

Dettagli
Publisher
A.A. 2021-2022
6 pagine
1 download
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher silvianarcisi di informazioni apprese con la frequenza delle lezioni di Inferenza statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università della Calabria o del prof Costanzo Giuseppina Damiana.