Anteprima
Vedrai una selezione di 6 pagine su 22
Formulario di R completo per esame di Statistica  Pag. 1 Formulario di R completo per esame di Statistica  Pag. 2
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Formulario di R completo per esame di Statistica  Pag. 6
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Formulario di R completo per esame di Statistica  Pag. 11
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Formulario di R completo per esame di Statistica  Pag. 16
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Formulario di R completo per esame di Statistica  Pag. 21
1 su 22
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

6. #STIMATORI PER LA DIFFERENZA TRA PROPORZIONI CAMPIONARIE

E (p_hatX - p_hatY) = pX - pY

se (p_hatX - p_hatY) = sqrt [p_hatX(1-p_hatX)/nX + p_hatY(1-p_hatY)/nY]

#come ottenere uno stimatore con SE INFERIORE? Quali effetti sulla stima?

Aumentando l ampiezza campionaria SE diminuisce

In riferimento ad una specifica stima non posso trarre conclusioni ma posso

dire che la concentrazione delle possibili stime intorno alla media sarà

MAGGIORE e lo scostamento atteso MINORE

-------------------pnorm (q, mean = , sd = ) #probabilità che-------------------

-------------------qnorm (p, mena = , sd = ) #percentile------------------------

NB. n deve essere >30 così da rendere l ampiezza campionaria sufficientemente

elevata da poter applicare il TCL e approssimare la distribuzione della media

campionaria a quella di un Normale

# probabilita' che il reddito sia minore di 20K:

pnorm (20, mean=71, sd=18)

# probabilita' che il reddito sia compreso tra 20K e 80K:

pnorm (80, mean=71, sd=18) - pnorm(20,mean=71,sd=18)

# probabilita' che il reddito sia maggiore di 90K:

1 - pnorm (90, mean=71, sd=18)

# Intervallo che include il 90% dei redditi piu' standard?

c (qnorm (0.05, mean=71, sd=18), qnorm (0.95, mean=71, sd=18))

# Un reddito superato solo dal 10% della popolazione da' diritto a un certo tipo di

# agevolazione fiscale. Qual e' la soglia minima di reddito per tale agevolazione?

qnorm(0.9,mean=71,sd=18)

# Accertamento fiscale sistematico su coloro che dichiarano un reddito

# minore del 5% dei redditi (piu' bassi)

# Qual e' la soglia di reddito che porta all'accertamento?

qnorm(0.05,mean=71,sd=18)

# Dichiarare un reddito inferiore a quello superato dal 70%

# della popolazione espone al rischio di accertamento fiscale.

# Quale soglia di reddito espone al rischio?

qnorm(0.3,mean=71,sd=18)

SECONDO PARZIALE

#FORMULA PER LA VARIANZA CAMPIONARIA

s^2 <- (1/n-1)*[∑(xi-x_bar)^2] = n/n-1 *[((∑xi^2)/n)-∑x_bar^2)]

#FORMULA PER LA COVARIANZA

sxy <- (1/n-1)(xi-x_bar)(yi-y_bar)

#INTERVALO DI CONFIDENZA = intervallo all'interno del quale variano i valori della variabile

che vado a considerare con confidenza pari al...

# z_alpha = qnorm (1 - alpha)

# t_n-1,alpha = qt (1 - alpha, gradi di libertà)

NB.2ME = AMPIEZZA INTERVALLO DI CONFIDENZA

# 1. MEDIA (mu)

CI.mean (Data$x, sigma = , conf.level = )

CI_1-alpha (mu) = x_bar +- z_alpha/2*sigma/sqrt(n)

+- t_n-1,alpha/2*s/sqrt(n)

# 2. DIFFERENZA TRA MEDIE (x_bar - y_bar)

CI.diffmean (Data$x, Data$y, type = "independent" o "paired", sigma.x = , sigma.y = , conf.level

= )

CI.diffmean (Data$x, by, type = "", sigma.by = , conf.level = )

CI_1-alpha (mu_x-mu_y) = (x_bar-y_bar) +- z_alpha/2*√(sigma_x^2/nx + sigma_y^2/ny)

#CAMPIONI INDIPENDENTI

+- t_nx+ny-2,alpha/2*√(sp2/nx + sp2/ny)

con sp2 = [(nx-1)s_x^2 + (ny-1)s_y^2] / nx+ny-2

CI_1-alpha (mu_x-mu_y) = (x_bar-y_bar) +- z_alpha/2*√[(sigma_x^2 + sigma_y^2 -2sigma_xy)

/n] #CAMPIONI APPAIATI

+- t_nx+ny-2,alpha/2*√[(s_x^2 + s_y^2 - 2s_xy) /n]

# 3. PROPORZIONE (p_hat)

CI.prop(Data$x, success = , conf.level = )

CI_1-alpha (p) = p_hat +- z_alpha/2*√[p_hat(1-p_hat) /n]

# 4. DIFFERENZA TRA PROPORZIONI (px_hat - py_hat)

CI.diffprop (x, y, success.x = , success.y = , conf.level = )

CI.diffprop (x, by, success.x = , conf.level = )

CI_1-alpha (p_x-p_y) = (px_hat-py_hat) +- z_alpha/2*√[[px_hat(1-px_hat)] /nx + [py_hat(1-

py_hat) /ny]]

# Commento: con un liv. di conf. del..possiamo affermare che la media/diff. tra

medie/proporzione..sta nell'intervallo..

#VERIFICA DI IPOTESI

P_VALUE >= alpha : NON SI RIFIUTA H0

P_VALUE < alpha : SI RIFIUTA H0

# NB. se rifiuto H0 è perchè non c'è abbastanza evidenza empirica per sostenere l'ipotesi

nulla

# 1. MEDIA

TEST.mean (Data$x, sigma = se nota, mu0 = , alternative = 'greater'/'less'/'two.sided')

a. TEST UNILATERALE A CODA DX

H0: mu = mu0 H0: mu <= mu0 H0: mu <= mu0

H1: mu = mu1 H1: mu = mu1 H1: mu > mu1

RR: x_bar > mu0 + z_alpha*sigma/sqrt(n)

x_bar > mu0 + t_n-1,alpha*s/sqrt(n)

P_VALUE: 1 - pnorm (x_bar-mu0 / sigma/sqrt(n))

1 - pt (x_bar-mu0 / s/sqrt(n), n-1) SE VARIANZA NON NOTA

b. TEST UNILATERALE A CODA SX

H0: mu >= mu0

H1: mu < mu0

RR: x_bar < mu0 - z_alpha*sigma/sqrt(n)

x_bar < mu0 - t_n-1,alpha*s/sqrt(n)

P_VALUE: pnorm (x_bar-mu0 / sigma/sqrt(n))

pt (x_bar-mu0 / s/sqrt(n), n-1) SE VARIANZA NON NOTA

c. TEST BILATERALE

H0: mu = mu0

H1: mu =/ mu0

RR: x_bar > mu0 + z_alpha/2*sigma/sqrt(n) e x_bar < mu0 - z_alpha/2*sigma/sqrt(n)

P_VALUE: 2* [ 1 - pnorm (|x_bar-mu0| / sigma/sqrt(n))]

2* [ 1 - pt (|x_bar-mu0| / s/sqrt(n), n-1)] SE VARIANZA NON NOTA

# NB. PROBABILITA ERRORE DI SECONDO TIPO:

pnorm (regione di rifiuto data da mu0+z_alpha*sigma/sqrt(n), mean = valore che mi dà, sd =

sigma/sqrt(n))

# 2. DIFFERENZA TRA MEDIE

TEST.diffmean (Data$x, Data$y, type = 'independent', mdiff0 = , alternative = , sigma.x = se

nota, sigma.y = se nota)

TEST.diffmean (Data$x, Data$y, type = 'paired', mdiff0 = , alternative = , sigma.d = se nota)

TEST.diffmean (Data$x, by = , type = 'independent', mdiff0 = , alternative = , sigma.by = se nota)

NB. #verificare se l'ipotesi fatta sulle varianze (assunte uguali) è supportata dai dati osservati

aggiungo al test: var.test = T

a. TEST UNILATERALE A CODA DX

H0: mu_x - mu_y <= S0

H1: mu_x - mu_y > S0

RR: x_bar-y_bar > S0 + t_nx+ny-2,alpha*se(x_bar-y_bar)

P_VALUE: 1 - pt (x_bar-y_bar-S0 / se(x_bar-y_bar), nx+ny-2)

b. TEST UNILATERALE A CODA SX

H0: mu_x - mu_y >= s0

H1: mu_x - mu_y < s0

RR: x_bar-y_bar < S0 - t_nx+ny-2,alpha*se(x_bar-y_bar)

P_VALUE: pt (x_bar-y_bar-s0 / se(x_bar-y_bar), nx+ny-2)

c. TEST BILATERALE

H0: mu_x - mu_y = 0 = S0

H1: mu_x - mu_y = S1 > S0

RR: x_bar-y_bar > s0 + t_nx+ny-2,alpha/2 *se(x_bar-y_bar)

e x_bar-y_bar < s0 - t_nx+ny-2,alpha/2 *se(x_bar-y_bar)

P_VALUE: 2* [1 - pt (|x_bar-y_bar-S0| / se(x_bar-y_bar), nx+ny-2)]

NB. se (x_bar-y_bar) = [sp2/nx + sp2/ny] #CAMPIONI INDIPENDENTI

con sp2 = [(nx-1)s_x^2 + (ny-1)s_y^2] / nx+ny-2

se (x_bar-y_bar) = [(s_x^2+s_y^2-2s_xy) / n] #CAMPIONI APPAIATI

# 3. PROPORZIONE (no t_student)

TEST.prop (Data$x, success = , p0 = , alternative = '')

a. TEST UNILATERALE A CODA DX

H0: p <= p0

H1: p > p0 √p0(1-p0)/n

RR: p_hat > p0 + z_alpha * )

√p0(1-p0)/n)

P_VALUE: 1 - pnorm (p_hat - p0 /

b. TEST UNILATERALE A CODA SX

H0: p >= p0

H1: p < p0 √p0(1-p0)/n

RR: p_hat < p0 - z_alpha * )

√p0(1-p0)/n)

P_VALUE: pnorm (p_hat - p0 /

c. TEST BILATERALE

H0: p = p0

H1: p =/ p0 √p0(1-p0)/n √p0(1-p0)/n

RR: p_hat > p0 + z_alpha * ) e p_hat < p0 - z_alpha * )

√p0(1-p0)/n))]

P_VALUE: 2* [ 1 - pnorm (|p_hat - p0| /

# 4. DIFFERENZA TRA PROPORZIONI

TEST.diffprop (Data$x, Data$y, success.x = , success.y = , pdiff0 = , alternative = '')

TEST.diffprop (Data$x, by = , success.x = , pdiff0 = , alternative = '')

c. TEST BILATERALE

H0: p_x - p_y = 0 = S0

H1: p_x - p_y =/ 0

RR: px_hat - py_hat > S0 + z_alpha/2*√ [p0_hat(1-p0_hat)/n_x + p0_hat(1-p0_hat)/n_y]

e px_hat - py_hat < S0 - z_alpha/2*√ [p0_hat(1-p0_hat)/n_x + p0_hat(1-p0_hat)/n_y]

P_VALUE: 2* [1 - pnorm (px_hat-py_hat-S0 / [p0_hat(1-p0_hat)/n_x + p0_hat(1-p0_hat)/n_y])]

dove p0_hat = numero totale successi nei due campioni / n_x+n_y

#TEST CHI-QUADRO DI ADATTAMENTO (quando ho una tabella con più valori/proporzioni)

a. SE HO DUE O + MODALITA DI UNA VARIABILE E UNA DELL ALTRA

NB. se Ek > 5 per ogni k la statistica ha una distribuzione chi-quadrato con k-1 gradi di libertà

chisq.test (x = c (), p = c ())

x = vettore delle frequenze assolute (numeri)

p = vettore delle probabilità

Ok = probabilità osservate (quelle che mi dà lui)

Ek = probabilità expected (da calcolare)

H0: p = pk0 per ogni k (probabilità che tutte le frequenze siano uguali)

H1: p =/ pk0 per almeno un k

RR: x_hat^2 > qchisq (1 - alpha, k - 1)

dove x_hat^2 = [(Ok - Ek)^2 / Ek]

P_VALUE: 1 - pchisq (x_hat^2, k - 1)

- Ok = le frequenze che mi dà già

- Ek = pk0*n

- (Ok - Ek)^2 / Ek

- sommo tutte le celle e ottengo la statistica test

b. SE HO DUE O + MODALITA DI UNA VARIABILE E DUE O + DELL ALTRA

NB. se Ek > 5 per ogni k la statistica ha una distribuzione chi-quadrato con (colonne - 1) (righe

- 1) gradi di libertà

chisq.test (x = , y = )

con x e y righe e colonne della tabella

H0: le variabili sono INDIPENDENTI (non esiste associazione)

H1: le variabili sono DIPENDENTI (non esiste associazione)

RR: x_hat^2 > qchisq (1 - alpha, (colonne - 1)(righe - 1))

∑∑

dove x_hat^2 = [(Oij - Eij)^2 / Eij]

- Okj <- matrix(c(58,55,36,69,42,40),nrow = 2, ncol=3) #i numeri sono scritti in ordine per

colonna (prima i due della colonna 1 e poi a seguire)

- test <- chisq.test(Okj)

- Ekj <- test$expected

- (Okj-Ekj)^2/Ekj

# se avessi una tabella con tante variabili e volessi calcolarlo a mano

- Oij = le frequenze che mi dà già

- Eij = totale riga*totale colonna/totale generale (da fare per ogni cella)

- (Oij - Eij)^2 / Eij (da fare per ogni cella)

- sommo tutte le celle e ottengo la statistica test

#IL MODELLO DI REGRESSIONE SEMPLICE

Y = b0 + b1x + £

mod <- lm (y ~ x, data = ) NB. intercept = b0

summary (mod) ... = b1

NB. se P_VALUE della lm () < alpha: rifiuto H0 (ovvero che ß1 = 0)

la mia variabile sarà quindi significativa e il mio modello valido

b0 = y_bar - b1*x_bar #a parità di altre condizioni, all'aumentare di 1 della x ci

aspettiamo che la y aumenti in media di...(valore del coefficiente ß1)

b1 = s_xy/s_x^2 = r_xy* s_y/s_x

SST = (n - 1) s_y^2

SSR = (n - 1) b1^2 * s_x^2

SST = SSR + SSE

R^2 = r_xy^2 = SSR/SST = 1 - SSE/SST #COEFFICIENTE DI DETERMINAZIONE

(misura la bontà di adattamento del modello ai dati)

es. R^2 = 0.52: il 52% della variabilità di y è spiegata dal modello (ovvero dalle variabili

esplicative considerate)

s_£^2 = SSE/(n-2)

sigma_ß1^2 = sigma_£^2 / [(n-1)s_x^2]

s_ß1^2 = s_£^2 / [(n-1)s_x^2]

sigma_ß0^2 = sigma_£^2 (1/n + x_bar^2/(n-1)s_x^2)

s_ßO^2 = s_£^2 (1/n + x_bar^2/(n-1)s_x^2)

√[sigma_£^2

SE(ß1) = / (n-1)s_x^2]

√[s_£^2

se(ß1) = / (n-1)s_x^2]

# INTERVALLO DI CONFIDENZA PER COEFFICIENTE ß1

confint (lm (), level = )

CI_1-alpha (ß1) = [ß

Dettagli
Publisher
A.A. 2024-2025
22 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher pantaflav di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Commerciale Luigi Bocconi di Milano o del prof Nova Alessandro.