Estratto del documento

Stimatori per la differenza tra proporzioni campionarie

(p_hatX - p_hatY) = pX - pYse (p_hatX - p_hatY) = sqrt [p_hatX(1-p_hatX)/nX + p_hatY(1-p_hatY)/nY]

Come ottenere uno stimatore con SE inferiore?

  • Aumentando l'ampiezza campionaria SE diminuisce

In riferimento ad una specifica stima non posso trarre conclusioni ma posso dire che la concentrazione delle possibili stime intorno alla media sarà maggiore e lo scostamento atteso minore.

Funzioni di probabilità

pnorm (q, mean = , sd = ) #probabilità che
qnorm (p, mean = , sd = ) #percentile

NB. n deve essere >30 così da rendere l'ampiezza campionaria sufficientemente elevata da poter applicare il TCL e approssimare la distribuzione della media campionaria a quella di un Normale

Calcoli di probabilità

  • Probabilità che il reddito sia minore di 20K: pnorm (20, mean=71, sd=18)
  • Probabilità che il reddito sia compreso tra 20K e 80K: pnorm (80, mean=71, sd=18) - pnorm(20, mean=71, sd=18)
  • Probabilità che il reddito sia maggiore di 90K: 1 - pnorm (90, mean=71, sd=18)
  • Intervallo che include il 90% dei redditi più standard? c (qnorm (0.05, mean=71, sd=18), qnorm (0.95, mean=71, sd=18))
  • Un reddito superato solo dal 10% della popolazione dà diritto a un certo tipo di agevolazione fiscale. Qual è la soglia minima di reddito per tale agevolazione? qnorm(0.9, mean=71, sd=18)
  • Accertamento fiscale sistematico su coloro che dichiarano un reddito minore del 5% dei redditi (più bassi). Qual è la soglia di reddito che porta all'accertamento? qnorm(0.05, mean=71, sd=18)
  • Dichiarare un reddito inferiore a quello superato dal 70% della popolazione espone al rischio di accertamento fiscale. Quale soglia di reddito espone al rischio? qnorm(0.3, mean=71, sd=18)

Secondo parziale

Formule statistiche

Formula per la varianza campionaria: s^2 <- (1/n-1)*[∑(xi-x_bar)^2] = n/n-1 *[((∑xi^2)/n)-∑x_bar^2)]

Formula per la covarianza: sxy <- (1/n-1)(xi-x_bar)(yi-y_bar)

Intervallo di confidenza

  • Intervallo di confidenza: intervallo all'interno del quale variano i valori della variabile che vado a considerare con confidenza pari al...
  • z_alpha: qnorm (1 - alpha)
  • t_n-1,alpha: qt (1 - alpha, gradi di libertà)

NB. 2ME = ampiezza intervallo di confidenza

Calcolo intervalli di confidenza

  • 1. Media (mu):
    CI.mean (Data$x, sigma = , conf.level = )
    CI_1-alpha (mu) = x_bar +- z_alpha/2*sigma/sqrt(n) +- t_n-1,alpha/2*s/sqrt(n)
  • 2. Differenza tra medie (x_bar - y_bar):
    CI.diffmean (Data$x, Data$y, type = "independent" o "paired", sigma.x = , sigma.y = , conf.level= )
    CI.diffmean (Data$x, by, type = "", sigma.by = , conf.level = )
    CI_1-alpha (mu_x-mu_y) = (x_bar-y_bar) +- z_alpha/2*√(sigma_x^2/nx + sigma_y^2/ny)
  • Campioni indipendenti:
    +- t_nx+ny-2,alpha/2*√(sp2/nx + sp2/ny) con sp2 = [(nx-1)s_x^2 + (ny-1)s_y^2] / nx+ny-2
  • Campioni appaiati:
    CI_1-alpha (mu_x-mu_y) = (x_bar-y_bar) +- z_alpha/2*√[(sigma_x^2 + sigma_y^2 -2sigma_xy)/n] +- t_nx+ny-2,alpha/2*√[(s_x^2 + s_y^2 - 2s_xy) /n]
  • 3. Proporzione (p_hat):
    CI.prop(Data$x, success = , conf.level = )
    CI_1-alpha (p) = p_hat +- z_alpha/2*√[p_hat(1-p_hat) /n]
  • 4. Differenza tra proporzioni (px_hat - py_hat):
    CI.diffprop (x, y, success.x = , success.y = , conf.level = )
    CI.diffprop (x, by, success.x = , conf.level = )
    CI_1-alpha (p_x-p_y) = (px_hat-py_hat) +- z_alpha/2*√[[px_hat(1-px_hat)] /nx + [py_hat(1-py_hat) /ny]]

Commento: con un livello di confidenza del... possiamo affermare che la media/differenza tra medie/proporzione... sta nell'intervallo...

Verifica di ipotesi

P_VALUE >= alpha : NON si rifiuta H0
P_VALUE < alpha : SI rifiuta H0

NB. se rifiuto H0 è perché non c'è abbastanza evidenza empirica per sostenere l'ipotesi nulla

Test statistici

  • 1. Media:
    TEST.mean (Data$x, sigma = se nota, mu0 = , alternative = 'greater'/'less'/'two.sided')
  • a. Test unilaterale a coda destra:
    H0: mu = mu0
    H1: mu = mu1
    RR: x_bar > mu0 + z_alpha*sigma/sqrt(n)
    P_VALUE: 1 - pnorm (x_bar-mu0 / sigma/sqrt(n))
  • b. Test unilaterale a coda sinistra:
    H0: mu >= mu0
    H1: mu < mu0
    RR: x_bar < mu0 - z_alpha*sigma/sqrt(n)
    P_VALUE: pnorm (x_bar-mu0 / sigma/sqrt(n))
  • c. Test bilaterale:
    H0: mu = mu0
    H1: mu =/ mu0
    RR: x_bar > mu0 + z_alpha/2*sigma/sqrt(n) e x_bar < mu0 - z_alpha/2*sigma/sqrt(n)
    P_VALUE: 2* [ 1 - pnorm (|x_bar-mu0| / sigma/sqrt(n))]
  • 2. Differenza tra medie:
    TEST.diffmean (Data$x, Data$y, type = 'independent', mdiff0 = , alternative = , sigma.x = se nota, sigma.y = se nota)
  • a. Test unilaterale a coda destra:
    H0: mu_x - mu_y <= S0
    H1: mu_x - mu_y > S0
    RR: x_bar-y_bar > S0 + t_nx+ny-2,alpha*se(x_bar-y_bar)
    P_VALUE: 1 - pt (x_bar-y_bar-S0 / se(x_bar-y_bar), nx+ny-2)
  • b. Test unilaterale a coda sinistra:
    H0: mu_x - mu_y >= s0
    H1: mu_x - mu_y < s0
    RR: x_bar-y_bar < S0 - t_nx+ny-2,alpha*se(x_bar-y_bar)
    P_VALUE: pt (x_bar-y_bar-s0 / se(x_bar-y_bar), nx+ny-2)
  • c. Test bilaterale:
    H0: mu_x - mu_y = 0 = S0
    H1: mu_x - mu_y = S1 > S0
    RR: x_bar-y_bar > s0 + t_nx+ny-2,alpha/2 *se(x_bar-y_bar) e x_bar-y_bar < s0 - t_nx+ny-2,alpha/2 *se(x_bar-y_bar)
    P_VALUE: 2* [1 - pt (|x_bar-y_bar-S0| / se(x_bar-y_bar), nx+ny-2)]
  • 3. Proporzione (no t_student):
    TEST.prop (Data$x, success = , p0 = , alternative = '')
  • a. Test unilaterale a coda destra:
    H0: p <= p0
    H1: p > p0 √p0(1-p0)/n
    RR: p_hat > p0 + z_alpha * √p0(1-p0)/n
    P_VALUE: 1 - pnorm (p_hat - p0 /
  • b. Test unilaterale a coda sinistra:
    H0: p >= p0
    H1: p < p0 √p0(1-p0)/n
    RR: p_hat < p0 - z_alpha * √p0(1-p0)/n
    P_VALUE: pnorm (p_hat - p0 /
  • c. Test bilaterale:
    H0: p = p0
    H1: p =/ p0 √p0(1-p0)/n √p0(1-p0)/n
    RR: p_hat > p0 + z_alpha * & e p_hat < p0 - z_alpha * √p0(1-p0)/n)
    P_VALUE: 2* [ 1 - pnorm (|p_hat - p0| /
  • 4. Differenza tra proporzioni:
    TEST.diffprop (Data$x, Data$y, success.x = , success.y = , pdiff0 = , alternative = '')
    TEST.diffprop (Data$x, by = , success.x = , pdiff0 = , alternative = '')
  • c. Test bilaterale:
    H0: p_x - p_y = 0 = S0
    H1: p_x - p_y =/ 0
    RR: px_hat - py_hat > S0 + z_alpha/2*√ [p0_hat(1-p0_hat)/n_x + p0_hat(1-p0_hat)/n_y] e px_hat - py_hat < S0 - z_alpha/2*√ [p0_hat(1-p0_hat)/n_x + p0_hat(1-p0_hat)/n_y]
    P_VALUE: 2* [1 - pnorm (px_hat-py_hat-S0 / [p0_hat(1-p0_hat)/n_x + p0_hat(1-p0_hat)/n_y])]

dove p0_hat = numero totale successi nei due campioni / n_x+n_y

Test chi-quadro di adattamento

  • a. Se ho due o più modalità di una variabile e una dell'altra:
    NB. se Ek > 5 per ogni k la statistica ha una distribuzione chi-quadrato con k-1 gradi di libertà
  • chisq.test (x = c (), p = c ())
    x = vettore delle frequenze assolute (numeri)
    p = vettore delle probabilità Ok = probabilità osservate (quelle che mi dà lui) Ek = probabilità expected (da calcolare)
  • H0: p = pk0 per ogni k (probabilità che tutte le frequenze siano uguali)
    H1: p =/ pk0 per almeno un k
    RR: x_hat^2 > qchisq (1 - alpha, k - 1) ∑ dove x_hat^2 = [(Ok - Ek)^2 / Ek]
  • P_VALUE: 1 - pchisq (x_hat^2, k - 1)
    - Ok = le frequenze che mi dà già
    - Ek = pk0*n
    - (Ok - Ek)^2 / Ek
    - sommo tutte le celle e ottengo la statistica test
  • b. Se ho due o più modalità di una variabile e due o più dell'altra:
    NB. se Ek > 5 per ogni k la statistica ha una distribuzione chi-quadrato con (colonne - 1) (righe - 1) gradi di libertà
  • chisq.test (x = , y = ) con x e y righe e colonne della tabella
  • H0: le variabili sono INDIPENDENTI (non esiste associazione)
    H1: le variabili sono DIPENDENTI (non esiste associazione)
    RR: x_hat^2 > qchisq (1 - alpha, (colonne - 1)(righe - 1)) ∑∑ dove x_hat^2 = [(Oij - Eij)^2 / Eij]
  • - Okj <- matrix(c(58,55,36,69,42,40),nrow = 2, ncol=3) # i numeri sono scritti in ordine per colonna (prima i due della colonna 1 e poi a seguire)
    - test <- chisq.test(Okj)
    - Ekj <- test$expected
    - (Okj-Ekj)^2/Ekj
  • # se avessi una tabella con tante variabili e volessi calcolarlo a mano
    - Oij = le frequenze che mi dà già
    - Eij = totale riga*totale colonna/totale generale (da fare per ogni cella)
    - (Oij - Eij)^2 / Eij (da fare per ogni cella)
    - sommo tutte le celle e ottengo la statistica test

Il modello di regressione semplice

Y = b0 + b1x + £ mod <- lm (y ~ x, data = ) NB. intercept = b0

summary (mod) ... = b1

NB. se P_VALUE della lm () < alpha: rifiuto H0 (ovvero che ß1 = 0) la mia variabile sarà quindi significativa e il mio modello valido

b0 = y_bar - b1*x_bar # a parità di altre condizioni, all'aumentare di 1 della x ci aspettiamo che la y aumenti in media di...(valore del coefficiente ß1)

b1 = s_xy/s_x^2 = r_xy* s_y/s_x SST = (n - 1) s_y^2 SSR = (n - 1) b1^2 * s_x^2 SST = SSR + SSE R^2 = r_xy^2 = SSR/SST = 1 - SSE/SST # COEFFICIENTE DI DETERMINAZIONE (misura la bontà di adattamento del modello ai dati)

es. R^2 = 0.52: il 52% della variabilità di y è spiegata dal modello (ovvero dalle variabili esplicative considerate)

s_£^2 = SSE/(n-2) sigma_ß1^2 = sigma_£^2 / [(n-1)s_x^2] s_ß1^2 = s_£^2 / [(n-1)s_x^2] sigma_ß0^2 = sigma_£^2 (1/n + x_bar^2/(n-1)s_x^2) s_ßO^2 = s_£^2 (1/n + x_bar^2/(n-1)s_x^2) √[sigma_£^2 SE(ß1) = / (n-1)s_x^2] √[s_£^2 se(ß1) = / (n-1)s_x^2]

Intervallo di confidenza per coefficiente ß1

confint (lm (), level = ) CI_1-alpha (ß1) = [&szlig;

Anteprima
Vedrai una selezione di 6 pagine su 22
Formulario di R completo per esame di Statistica  Pag. 1 Formulario di R completo per esame di Statistica  Pag. 2
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Formulario di R completo per esame di Statistica  Pag. 6
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Formulario di R completo per esame di Statistica  Pag. 11
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Formulario di R completo per esame di Statistica  Pag. 16
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Formulario di R completo per esame di Statistica  Pag. 21
1 su 22
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher pantaflav di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Commerciale Luigi Bocconi di Milano o del prof Nova Alessandro.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community