Stimatori per la differenza tra proporzioni campionarie
(p_hatX - p_hatY) = pX - pYse (p_hatX - p_hatY) = sqrt [p_hatX(1-p_hatX)/nX + p_hatY(1-p_hatY)/nY]
Come ottenere uno stimatore con SE inferiore?
- Aumentando l'ampiezza campionaria SE diminuisce
In riferimento ad una specifica stima non posso trarre conclusioni ma posso dire che la concentrazione delle possibili stime intorno alla media sarà maggiore e lo scostamento atteso minore.
Funzioni di probabilità
pnorm (q, mean = , sd = ) #probabilità che
qnorm (p, mean = , sd = ) #percentile
NB. n deve essere >30 così da rendere l'ampiezza campionaria sufficientemente elevata da poter applicare il TCL e approssimare la distribuzione della media campionaria a quella di un Normale
Calcoli di probabilità
- Probabilità che il reddito sia minore di 20K: pnorm (20, mean=71, sd=18)
- Probabilità che il reddito sia compreso tra 20K e 80K: pnorm (80, mean=71, sd=18) - pnorm(20, mean=71, sd=18)
- Probabilità che il reddito sia maggiore di 90K: 1 - pnorm (90, mean=71, sd=18)
- Intervallo che include il 90% dei redditi più standard? c (qnorm (0.05, mean=71, sd=18), qnorm (0.95, mean=71, sd=18))
- Un reddito superato solo dal 10% della popolazione dà diritto a un certo tipo di agevolazione fiscale. Qual è la soglia minima di reddito per tale agevolazione? qnorm(0.9, mean=71, sd=18)
- Accertamento fiscale sistematico su coloro che dichiarano un reddito minore del 5% dei redditi (più bassi). Qual è la soglia di reddito che porta all'accertamento? qnorm(0.05, mean=71, sd=18)
- Dichiarare un reddito inferiore a quello superato dal 70% della popolazione espone al rischio di accertamento fiscale. Quale soglia di reddito espone al rischio? qnorm(0.3, mean=71, sd=18)
Secondo parziale
Formule statistiche
Formula per la varianza campionaria: s^2 <- (1/n-1)*[∑(xi-x_bar)^2] = n/n-1 *[((∑xi^2)/n)-∑x_bar^2)]
Formula per la covarianza: sxy <- (1/n-1)(xi-x_bar)(yi-y_bar)
Intervallo di confidenza
- Intervallo di confidenza: intervallo all'interno del quale variano i valori della variabile che vado a considerare con confidenza pari al...
- z_alpha: qnorm (1 - alpha)
- t_n-1,alpha: qt (1 - alpha, gradi di libertà)
NB. 2ME = ampiezza intervallo di confidenza
Calcolo intervalli di confidenza
-
1. Media (mu):
CI.mean (Data$x, sigma = , conf.level = )
CI_1-alpha (mu) = x_bar +- z_alpha/2*sigma/sqrt(n) +- t_n-1,alpha/2*s/sqrt(n) -
2. Differenza tra medie (x_bar - y_bar):
CI.diffmean (Data$x, Data$y, type = "independent" o "paired", sigma.x = , sigma.y = , conf.level= )
CI.diffmean (Data$x, by, type = "", sigma.by = , conf.level = )
CI_1-alpha (mu_x-mu_y) = (x_bar-y_bar) +- z_alpha/2*√(sigma_x^2/nx + sigma_y^2/ny) -
Campioni indipendenti:
+- t_nx+ny-2,alpha/2*√(sp2/nx + sp2/ny) con sp2 = [(nx-1)s_x^2 + (ny-1)s_y^2] / nx+ny-2 -
Campioni appaiati:
CI_1-alpha (mu_x-mu_y) = (x_bar-y_bar) +- z_alpha/2*√[(sigma_x^2 + sigma_y^2 -2sigma_xy)/n] +- t_nx+ny-2,alpha/2*√[(s_x^2 + s_y^2 - 2s_xy) /n] -
3. Proporzione (p_hat):
CI.prop(Data$x, success = , conf.level = )
CI_1-alpha (p) = p_hat +- z_alpha/2*√[p_hat(1-p_hat) /n] -
4. Differenza tra proporzioni (px_hat - py_hat):
CI.diffprop (x, y, success.x = , success.y = , conf.level = )
CI.diffprop (x, by, success.x = , conf.level = )
CI_1-alpha (p_x-p_y) = (px_hat-py_hat) +- z_alpha/2*√[[px_hat(1-px_hat)] /nx + [py_hat(1-py_hat) /ny]]
Commento: con un livello di confidenza del... possiamo affermare che la media/differenza tra medie/proporzione... sta nell'intervallo...
Verifica di ipotesi
P_VALUE >= alpha : NON si rifiuta H0
P_VALUE < alpha : SI rifiuta H0
NB. se rifiuto H0 è perché non c'è abbastanza evidenza empirica per sostenere l'ipotesi nulla
Test statistici
-
1. Media:
TEST.mean (Data$x, sigma = se nota, mu0 = , alternative = 'greater'/'less'/'two.sided') -
a. Test unilaterale a coda destra:
H0: mu = mu0
H1: mu = mu1
RR: x_bar > mu0 + z_alpha*sigma/sqrt(n)
P_VALUE: 1 - pnorm (x_bar-mu0 / sigma/sqrt(n)) -
b. Test unilaterale a coda sinistra:
H0: mu >= mu0
H1: mu < mu0
RR: x_bar < mu0 - z_alpha*sigma/sqrt(n)
P_VALUE: pnorm (x_bar-mu0 / sigma/sqrt(n)) -
c. Test bilaterale:
H0: mu = mu0
H1: mu =/ mu0
RR: x_bar > mu0 + z_alpha/2*sigma/sqrt(n) e x_bar < mu0 - z_alpha/2*sigma/sqrt(n)
P_VALUE: 2* [ 1 - pnorm (|x_bar-mu0| / sigma/sqrt(n))] -
2. Differenza tra medie:
TEST.diffmean (Data$x, Data$y, type = 'independent', mdiff0 = , alternative = , sigma.x = se nota, sigma.y = se nota) -
a. Test unilaterale a coda destra:
H0: mu_x - mu_y <= S0
H1: mu_x - mu_y > S0
RR: x_bar-y_bar > S0 + t_nx+ny-2,alpha*se(x_bar-y_bar)
P_VALUE: 1 - pt (x_bar-y_bar-S0 / se(x_bar-y_bar), nx+ny-2) -
b. Test unilaterale a coda sinistra:
H0: mu_x - mu_y >= s0
H1: mu_x - mu_y < s0
RR: x_bar-y_bar < S0 - t_nx+ny-2,alpha*se(x_bar-y_bar)
P_VALUE: pt (x_bar-y_bar-s0 / se(x_bar-y_bar), nx+ny-2) -
c. Test bilaterale:
H0: mu_x - mu_y = 0 = S0
H1: mu_x - mu_y = S1 > S0
RR: x_bar-y_bar > s0 + t_nx+ny-2,alpha/2 *se(x_bar-y_bar) e x_bar-y_bar < s0 - t_nx+ny-2,alpha/2 *se(x_bar-y_bar)
P_VALUE: 2* [1 - pt (|x_bar-y_bar-S0| / se(x_bar-y_bar), nx+ny-2)] -
3. Proporzione (no t_student):
TEST.prop (Data$x, success = , p0 = , alternative = '') -
a. Test unilaterale a coda destra:
H0: p <= p0
H1: p > p0 √p0(1-p0)/n
RR: p_hat > p0 + z_alpha * √p0(1-p0)/n
P_VALUE: 1 - pnorm (p_hat - p0 / -
b. Test unilaterale a coda sinistra:
H0: p >= p0
H1: p < p0 √p0(1-p0)/n
RR: p_hat < p0 - z_alpha * √p0(1-p0)/n
P_VALUE: pnorm (p_hat - p0 / -
c. Test bilaterale:
H0: p = p0
H1: p =/ p0 √p0(1-p0)/n √p0(1-p0)/n
RR: p_hat > p0 + z_alpha * & e p_hat < p0 - z_alpha * √p0(1-p0)/n)
P_VALUE: 2* [ 1 - pnorm (|p_hat - p0| / -
4. Differenza tra proporzioni:
TEST.diffprop (Data$x, Data$y, success.x = , success.y = , pdiff0 = , alternative = '')
TEST.diffprop (Data$x, by = , success.x = , pdiff0 = , alternative = '') -
c. Test bilaterale:
H0: p_x - p_y = 0 = S0
H1: p_x - p_y =/ 0
RR: px_hat - py_hat > S0 + z_alpha/2*√ [p0_hat(1-p0_hat)/n_x + p0_hat(1-p0_hat)/n_y] e px_hat - py_hat < S0 - z_alpha/2*√ [p0_hat(1-p0_hat)/n_x + p0_hat(1-p0_hat)/n_y]
P_VALUE: 2* [1 - pnorm (px_hat-py_hat-S0 / [p0_hat(1-p0_hat)/n_x + p0_hat(1-p0_hat)/n_y])]
dove p0_hat = numero totale successi nei due campioni / n_x+n_y
Test chi-quadro di adattamento
-
a. Se ho due o più modalità di una variabile e una dell'altra:
NB. se Ek > 5 per ogni k la statistica ha una distribuzione chi-quadrato con k-1 gradi di libertà -
chisq.test (x = c (), p = c ())
x = vettore delle frequenze assolute (numeri)
p = vettore delle probabilità Ok = probabilità osservate (quelle che mi dà lui) Ek = probabilità expected (da calcolare) -
H0: p = pk0 per ogni k (probabilità che tutte le frequenze siano uguali)
H1: p =/ pk0 per almeno un k
RR: x_hat^2 > qchisq (1 - alpha, k - 1) ∑ dove x_hat^2 = [(Ok - Ek)^2 / Ek] -
P_VALUE: 1 - pchisq (x_hat^2, k - 1)
- Ok = le frequenze che mi dà già
- Ek = pk0*n
- (Ok - Ek)^2 / Ek
- sommo tutte le celle e ottengo la statistica test -
b. Se ho due o più modalità di una variabile e due o più dell'altra:
NB. se Ek > 5 per ogni k la statistica ha una distribuzione chi-quadrato con (colonne - 1) (righe - 1) gradi di libertà - chisq.test (x = , y = ) con x e y righe e colonne della tabella
-
H0: le variabili sono INDIPENDENTI (non esiste associazione)
H1: le variabili sono DIPENDENTI (non esiste associazione)
RR: x_hat^2 > qchisq (1 - alpha, (colonne - 1)(righe - 1)) ∑∑ dove x_hat^2 = [(Oij - Eij)^2 / Eij] -
- Okj <- matrix(c(58,55,36,69,42,40),nrow = 2, ncol=3) # i numeri sono scritti in ordine per colonna (prima i due della colonna 1 e poi a seguire)
- test <- chisq.test(Okj)
- Ekj <- test$expected
- (Okj-Ekj)^2/Ekj -
# se avessi una tabella con tante variabili e volessi calcolarlo a mano
- Oij = le frequenze che mi dà già
- Eij = totale riga*totale colonna/totale generale (da fare per ogni cella)
- (Oij - Eij)^2 / Eij (da fare per ogni cella)
- sommo tutte le celle e ottengo la statistica test
Il modello di regressione semplice
Y = b0 + b1x + £ mod <- lm (y ~ x, data = ) NB. intercept = b0
summary (mod) ... = b1
NB. se P_VALUE della lm () < alpha: rifiuto H0 (ovvero che ß1 = 0) la mia variabile sarà quindi significativa e il mio modello valido
b0 = y_bar - b1*x_bar # a parità di altre condizioni, all'aumentare di 1 della x ci aspettiamo che la y aumenti in media di...(valore del coefficiente ß1)
b1 = s_xy/s_x^2 = r_xy* s_y/s_x SST = (n - 1) s_y^2 SSR = (n - 1) b1^2 * s_x^2 SST = SSR + SSE R^2 = r_xy^2 = SSR/SST = 1 - SSE/SST # COEFFICIENTE DI DETERMINAZIONE (misura la bontà di adattamento del modello ai dati)
es. R^2 = 0.52: il 52% della variabilità di y è spiegata dal modello (ovvero dalle variabili esplicative considerate)
s_£^2 = SSE/(n-2) sigma_ß1^2 = sigma_£^2 / [(n-1)s_x^2] s_ß1^2 = s_£^2 / [(n-1)s_x^2] sigma_ß0^2 = sigma_£^2 (1/n + x_bar^2/(n-1)s_x^2) s_ßO^2 = s_£^2 (1/n + x_bar^2/(n-1)s_x^2) √[sigma_£^2 SE(ß1) = / (n-1)s_x^2] √[s_£^2 se(ß1) = / (n-1)s_x^2]
Intervallo di confidenza per coefficiente ß1
confint (lm (), level = ) CI_1-alpha (ß1) = [ß
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Formulario Statistica
-
Formulario completo esame Statistica - 2° parziale
-
Formulario MATLAB
-
Formulario