Formulario di R completo per esame di Statistica

Descrizioni, analisi e commenti di tutti i comandi di R da studiare per superare l'esame di Statistica durante la triennale in Bocconi. Perfetto per qualsiasi studente da qualsiasi livello di …

Esame Statistica

Facoltà Economia

Dal corso del Prof. Nova Alessandro

Università Università Commerciale Luigi Bocconi di Milano

Publisher pantaflav

A.A. 2024-2025

22 pagine

Schemi e mappe concettuali

Vota

Scarica

Estratto del documento

Stimatori per la differenza tra proporzioni campionarie

(p_hatX - p_hatY) = pX - pYse (p_hatX - p_hatY) = sqrt [p_hatX(1-p_hatX)/nX + p_hatY(1-p_hatY)/nY]

Come ottenere uno stimatore con SE inferiore?

Aumentando l'ampiezza campionaria SE diminuisce

In riferimento ad una specifica stima non posso trarre conclusioni ma posso dire che la concentrazione delle possibili stime intorno alla media sarà maggiore e lo scostamento atteso minore.

Funzioni di probabilità

pnorm (q, mean = , sd = ) #probabilità che
qnorm (p, mean = , sd = ) #percentile

NB. n deve essere >30 così da rendere l'ampiezza campionaria sufficientemente elevata da poter applicare il TCL e approssimare la distribuzione della media campionaria a quella di un Normale

Calcoli di probabilità

Probabilità che il reddito sia minore di 20K: pnorm (20, mean=71, sd=18)
Probabilità che il reddito sia compreso tra 20K e 80K: pnorm (80, mean=71, sd=18) - pnorm(20, mean=71, sd=18)
Probabilità che il reddito sia maggiore di 90K: 1 - pnorm (90, mean=71, sd=18)
Intervallo che include il 90% dei redditi più standard? c (qnorm (0.05, mean=71, sd=18), qnorm (0.95, mean=71, sd=18))
Un reddito superato solo dal 10% della popolazione dà diritto a un certo tipo di agevolazione fiscale. Qual è la soglia minima di reddito per tale agevolazione? qnorm(0.9, mean=71, sd=18)
Accertamento fiscale sistematico su coloro che dichiarano un reddito minore del 5% dei redditi (più bassi). Qual è la soglia di reddito che porta all'accertamento? qnorm(0.05, mean=71, sd=18)
Dichiarare un reddito inferiore a quello superato dal 70% della popolazione espone al rischio di accertamento fiscale. Quale soglia di reddito espone al rischio? qnorm(0.3, mean=71, sd=18)

Secondo parziale

Formule statistiche

Formula per la varianza campionaria: s^2 <- (1/n-1)*[∑(xi-x_bar)^2] = n/n-1 *[((∑xi^2)/n)-∑x_bar^2)]

Formula per la covarianza: sxy <- (1/n-1)(xi-x_bar)(yi-y_bar)

Intervallo di confidenza

Intervallo di confidenza: intervallo all'interno del quale variano i valori della variabile che vado a considerare con confidenza pari al...
z_alpha: qnorm (1 - alpha)
t_n-1,alpha: qt (1 - alpha, gradi di libertà)

NB. 2ME = ampiezza intervallo di confidenza

Calcolo intervalli di confidenza

1. Media (mu):
CI.mean (Data$x, sigma = , conf.level = )
CI_1-alpha (mu) = x_bar +- z_alpha/2*sigma/sqrt(n) +- t_n-1,alpha/2*s/sqrt(n)
2. Differenza tra medie (x_bar - y_bar):
CI.diffmean (Data$x, Data$y, type = "independent" o "paired", sigma.x = , sigma.y = , conf.level= )
CI.diffmean (Data$x, by, type = "", sigma.by = , conf.level = )
CI_1-alpha (mu_x-mu_y) = (x_bar-y_bar) +- z_alpha/2*√(sigma_x^2/nx + sigma_y^2/ny)
Campioni indipendenti:
+- t_nx+ny-2,alpha/2*√(sp2/nx + sp2/ny) con sp2 = [(nx-1)s_x^2 + (ny-1)s_y^2] / nx+ny-2
Campioni appaiati:
CI_1-alpha (mu_x-mu_y) = (x_bar-y_bar) +- z_alpha/2*√[(sigma_x^2 + sigma_y^2 -2sigma_xy)/n] +- t_nx+ny-2,alpha/2*√[(s_x^2 + s_y^2 - 2s_xy) /n]
3. Proporzione (p_hat):
CI.prop(Data$x, success = , conf.level = )
CI_1-alpha (p) = p_hat +- z_alpha/2*√[p_hat(1-p_hat) /n]
4. Differenza tra proporzioni (px_hat - py_hat):
CI.diffprop (x, y, success.x = , success.y = , conf.level = )
CI.diffprop (x, by, success.x = , conf.level = )
CI_1-alpha (p_x-p_y) = (px_hat-py_hat) +- z_alpha/2*√[[px_hat(1-px_hat)] /nx + [py_hat(1-py_hat) /ny]]

Commento: con un livello di confidenza del... possiamo affermare che la media/differenza tra medie/proporzione... sta nell'intervallo...

Verifica di ipotesi

P_VALUE >= alpha : NON si rifiuta H0
P_VALUE < alpha : SI rifiuta H0

NB. se rifiuto H0 è perché non c'è abbastanza evidenza empirica per sostenere l'ipotesi nulla

Test statistici

1. Media:
TEST.mean (Data$x, sigma = se nota, mu0 = , alternative = 'greater'/'less'/'two.sided')
a. Test unilaterale a coda destra:
H0: mu = mu0
H1: mu = mu1
RR: x_bar > mu0 + z_alpha*sigma/sqrt(n)
P_VALUE: 1 - pnorm (x_bar-mu0 / sigma/sqrt(n))
b. Test unilaterale a coda sinistra:
H0: mu >= mu0
H1: mu < mu0
RR: x_bar < mu0 - z_alpha*sigma/sqrt(n)
P_VALUE: pnorm (x_bar-mu0 / sigma/sqrt(n))
c. Test bilaterale:
H0: mu = mu0
H1: mu =/ mu0
RR: x_bar > mu0 + z_alpha/2*sigma/sqrt(n) e x_bar < mu0 - z_alpha/2*sigma/sqrt(n)
P_VALUE: 2* [ 1 - pnorm (|x_bar-mu0| / sigma/sqrt(n))]
2. Differenza tra medie:
TEST.diffmean (Data$x, Data$y, type = 'independent', mdiff0 = , alternative = , sigma.x = se nota, sigma.y = se nota)
a. Test unilaterale a coda destra:
H0: mu_x - mu_y <= S0
H1: mu_x - mu_y > S0
RR: x_bar-y_bar > S0 + t_nx+ny-2,alpha*se(x_bar-y_bar)
P_VALUE: 1 - pt (x_bar-y_bar-S0 / se(x_bar-y_bar), nx+ny-2)
b. Test unilaterale a coda sinistra:
H0: mu_x - mu_y >= s0
H1: mu_x - mu_y < s0
RR: x_bar-y_bar < S0 - t_nx+ny-2,alpha*se(x_bar-y_bar)
P_VALUE: pt (x_bar-y_bar-s0 / se(x_bar-y_bar), nx+ny-2)
c. Test bilaterale:
H0: mu_x - mu_y = 0 = S0
H1: mu_x - mu_y = S1 > S0
RR: x_bar-y_bar > s0 + t_nx+ny-2,alpha/2 *se(x_bar-y_bar) e x_bar-y_bar < s0 - t_nx+ny-2,alpha/2 *se(x_bar-y_bar)
P_VALUE: 2* [1 - pt (|x_bar-y_bar-S0| / se(x_bar-y_bar), nx+ny-2)]
3. Proporzione (no t_student):
TEST.prop (Data$x, success = , p0 = , alternative = '')
a. Test unilaterale a coda destra:
H0: p <= p0
H1: p > p0 √p0(1-p0)/n
RR: p_hat > p0 + z_alpha * √p0(1-p0)/n
P_VALUE: 1 - pnorm (p_hat - p0 /
b. Test unilaterale a coda sinistra:
H0: p >= p0
H1: p < p0 √p0(1-p0)/n
RR: p_hat < p0 - z_alpha * √p0(1-p0)/n
P_VALUE: pnorm (p_hat - p0 /
c. Test bilaterale:
H0: p = p0
H1: p =/ p0 √p0(1-p0)/n √p0(1-p0)/n
RR: p_hat > p0 + z_alpha * & e p_hat < p0 - z_alpha * √p0(1-p0)/n)
P_VALUE: 2* [ 1 - pnorm (|p_hat - p0| /
4. Differenza tra proporzioni:
TEST.diffprop (Data$x, Data$y, success.x = , success.y = , pdiff0 = , alternative = '')
TEST.diffprop (Data$x, by = , success.x = , pdiff0 = , alternative = '')
c. Test bilaterale:
H0: p_x - p_y = 0 = S0
H1: p_x - p_y =/ 0
RR: px_hat - py_hat > S0 + z_alpha/2*√ [p0_hat(1-p0_hat)/n_x + p0_hat(1-p0_hat)/n_y] e px_hat - py_hat < S0 - z_alpha/2*√ [p0_hat(1-p0_hat)/n_x + p0_hat(1-p0_hat)/n_y]
P_VALUE: 2* [1 - pnorm (px_hat-py_hat-S0 / [p0_hat(1-p0_hat)/n_x + p0_hat(1-p0_hat)/n_y])]

dove p0_hat = numero totale successi nei due campioni / n_x+n_y

Test chi-quadro di adattamento

a. Se ho due o più modalità di una variabile e una dell'altra:
NB. se Ek > 5 per ogni k la statistica ha una distribuzione chi-quadrato con k-1 gradi di libertà
chisq.test (x = c (), p = c ())
x = vettore delle frequenze assolute (numeri)
p = vettore delle probabilità Ok = probabilità osservate (quelle che mi dà lui) Ek = probabilità expected (da calcolare)
H0: p = pk0 per ogni k (probabilità che tutte le frequenze siano uguali)
H1: p =/ pk0 per almeno un k
RR: x_hat^2 > qchisq (1 - alpha, k - 1) ∑ dove x_hat^2 = [(Ok - Ek)^2 / Ek]
P_VALUE: 1 - pchisq (x_hat^2, k - 1)
- Ok = le frequenze che mi dà già
- Ek = pk0*n
- (Ok - Ek)^2 / Ek
- sommo tutte le celle e ottengo la statistica test
b. Se ho due o più modalità di una variabile e due o più dell'altra:
NB. se Ek > 5 per ogni k la statistica ha una distribuzione chi-quadrato con (colonne - 1) (righe - 1) gradi di libertà
chisq.test (x = , y = ) con x e y righe e colonne della tabella
H0: le variabili sono INDIPENDENTI (non esiste associazione)
H1: le variabili sono DIPENDENTI (non esiste associazione)
RR: x_hat^2 > qchisq (1 - alpha, (colonne - 1)(righe - 1)) ∑∑ dove x_hat^2 = [(Oij - Eij)^2 / Eij]
- Okj <- matrix(c(58,55,36,69,42,40),nrow = 2, ncol=3) # i numeri sono scritti in ordine per colonna (prima i due della colonna 1 e poi a seguire)
- test <- chisq.test(Okj)
- Ekj <- test$expected
- (Okj-Ekj)^2/Ekj
# se avessi una tabella con tante variabili e volessi calcolarlo a mano
- Oij = le frequenze che mi dà già
- Eij = totale riga*totale colonna/totale generale (da fare per ogni cella)
- (Oij - Eij)^2 / Eij (da fare per ogni cella)
- sommo tutte le celle e ottengo la statistica test

Il modello di regressione semplice

Y = b0 + b1x + £ mod <- lm (y ~ x, data = ) NB. intercept = b0

summary (mod) ... = b1

NB. se P_VALUE della lm () < alpha: rifiuto H0 (ovvero che ß1 = 0) la mia variabile sarà quindi significativa e il mio modello valido

b0 = y_bar - b1*x_bar # a parità di altre condizioni, all'aumentare di 1 della x ci aspettiamo che la y aumenti in media di...(valore del coefficiente ß1)

b1 = s_xy/s_x^2 = r_xy* s_y/s_x SST = (n - 1) s_y^2 SSR = (n - 1) b1^2 * s_x^2 SST = SSR + SSE R^2 = r_xy^2 = SSR/SST = 1 - SSE/SST # COEFFICIENTE DI DETERMINAZIONE (misura la bontà di adattamento del modello ai dati)

es. R^2 = 0.52: il 52% della variabilità di y è spiegata dal modello (ovvero dalle variabili esplicative considerate)

s_£^2 = SSE/(n-2) sigma_ß1^2 = sigma_£^2 / [(n-1)s_x^2] s_ß1^2 = s_£^2 / [(n-1)s_x^2] sigma_ß0^2 = sigma_£^2 (1/n + x_bar^2/(n-1)s_x^2) s_ßO^2 = s_£^2 (1/n + x_bar^2/(n-1)s_x^2) √[sigma_£^2 SE(ß1) = / (n-1)s_x^2] √[s_£^2 se(ß1) = / (n-1)s_x^2]

Intervallo di confidenza per coefficiente ß1

confint (lm (), level = ) CI_1-alpha (ß1) = [ß

Anteprima

Vedrai una selezione di 6 pagine su 22

Formulario di R completo per esame di Statistica Pag. 1

Formulario di R completo per esame di Statistica Pag. 2

Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.

Scarica

Formulario di R completo per esame di Statistica Pag. 6

Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.

Scarica

Formulario di R completo per esame di Statistica Pag. 11

Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.

Scarica

Formulario di R completo per esame di Statistica Pag. 16

Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.

Scarica

Formulario di R completo per esame di Statistica Pag. 21

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher pantaflav di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Commerciale Luigi Bocconi di Milano o del prof Nova Alessandro.

Appunti correlati

Invia appunti e guadagna

Recensioni

Ti è piaciuto questo appunto?

Formulario di R completo per esame di Statistica

Stimatori per la differenza tra proporzioni campionarie

Come ottenere uno stimatore con SE inferiore?

Funzioni di probabilità

Calcoli di probabilità

Secondo parziale

Formule statistiche

Intervallo di confidenza

Calcolo intervalli di confidenza

Verifica di ipotesi

Test statistici

Test chi-quadro di adattamento

Il modello di regressione semplice

Intervallo di confidenza per coefficiente ß1

Recensioni

Domande e risposte

I migliori insegnanti di Matematica

Salvatore F.

Daniele P.

Matteo S.