vuoi
o PayPal
tutte le volte che vuoi
REGRESSIONE LINEARE (legame in proporzione)
Metodologia statistica che evidenzia e risolve il problema di una relazione funzionale tra due fenomeni indicati da altrettante variabili che sono misurate sulla base di dati campionari estratti da una precisa popolazione
yi = β₀ + β₁ xi + μi
Premesse del modello
- Ogni osservazione è i.i.d. (Xi, yi) sono i.i.d.
- Supporre la conoscenza delle var. ind. E[μi|xi] = 0
- Var(μi|xi) = σ² ∀i [V.C. OLS]
- Xi, yi ~ i.i.d N(μ, Σ) → NORMALE BINARIATA ∀i
CAPITOLO 4 :
Regressione lineare con un singolo regressore
- Detti i metodi di regressione lineare troviamo gli stimatori OLS β0 e β1
Detto il modello di regressione lineare semplice (singolo regressore)
yi = β0 + β1 Xi + ui, i = 1, 2, ..., m
Con funzione di regressione e stima queste essere la popolazione l’esprimere la relazione esistente (in media) tra X e Y.
Ricordando che lo stimatore OLS di Ȳm è tale per cui minimizza la somma quadratica degli errori totali tra tutti i possibili stimatori Ȳm min ∑i=1m (yi - mȲm)2
Per analogia, lo stimatore OLS minimizza la differenza quadratica media tra i valori “reali” yi e quelli previsti poggiando sulla retta stimata (generalizzazione dip).
Lo stimatore OLS sarà dato da S(β0, β1) min ∑i=1m (yi − β0 − β1 Xi)2
Lombarda
S(β0, β1) + ∑i=1m (yi − β̂0 − β̂1 Xi)2
Condizione del ordine OLS
∂S/∂β0 → -2 ∑ (yi − β̂0 − β̂1 Xi) = 0
Spezzonso la sommaro
∑ yi + mβ̂0 − β̂1 ∑ Xi = 0
Ricavo β0
β̂0 = 1/m ∑ yi = ȳ − β1/m (∑ Xi = x̄)
Ȳ = Y
X̄ = X
Comando β1
Condizione del ordine per OLS ∂S ∂β1
Sostituisci β0
∑ (yi − ȳ) − β1 (Xi − X̄) Xi = 0
Assumzioni dei minimi quadrati:
2) Ogni coppia di osservazioni \( X_i, Y_i \) si presenta come indipendente (l'estrazione di una non influenza l'altra) ed è identicamente distribuita (...estremamente distorti i valori) di \( X_i, Y_i \) sono ottenuti mediante campionamento casuale semplice.
Questa assunzione fornisce la distribuzione di \( \epsilon_i \).
3) Gli outlier sono rari \( E[X^4] < \infty \) e \( E[Y]^4 < \infty \) momento 4° finito limitato valore nella coda outlier
Non distorsione di \( \hat{\beta_1}_{\text{OLS}} \)
\( \hat{\beta_1}_{\text{OLS}} = \frac{\sum_{i=1}^m (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^m (X_i - \bar{X})^2} \)
Riscrivo \( \hat{\beta_1} \) esplicitando \( (Y_i - \bar{Y}) \)
\( \sum_{i=1}^m (X_i - \bar{X}) [\beta_1(X_i - \bar{X}) + (\mu_i - \bar{\mu})] \) \( \frac{\sum_{i=1}^m (X_i - \bar{X})(X_i - \bar{X})}{\sum_{i=1}^m (X_i - \bar{X})^2} \) \( \hat{\beta_1} = \beta_1 \frac{\sum_{i=1}^m (X_i - \bar{X})^2}{\sum_{i=1}^m (X_i - \bar{X})^2} + \frac{\sum_{i=1}^m (X_i - \bar{X})(\mu_i - \bar{\mu})}{\sum_{i=1}^m (X_i - \bar{X})^2} \) \( \hat{\beta_1} = \beta_1 + \frac{\sum_{i=1}^m (X_i - \bar{X})(\mu_i - \bar{\mu})}{\sum_{i=1}^m (X_i - \bar{X})^2} \)
Calcolo valore atteso
\( E[\hat{\beta_1}] = E[\beta_1 + E[ \frac{\sum_{i=1}^m (X_i - \bar{X})(\mu_i - \bar{\mu})}{\sum_{i=1}^m (X_i - \bar{X})^2}] \) \( = \beta_1 + E[ \frac{\sum_{i=1}^m (X_i - \bar{X})}{\sum_{i=1}^m (X_i - \bar{X})^2} \mu_i ] \)
Misure del bontà dell'adattamento
Definiamo 3 quantità:
ESS: \(\sum_{i=1}^{n} (\hat{Y}_i - \bar{Y})^2\) → stimatore della varianza campionaria → explained sum of squares
SSR: \(\sum_{i=1}^{m} (y_i - \hat{y}_i)^2\) = \(\sum_{i=1}^{m} (\hat{\mu}_i)^2\) - \(\sum_{i=1}^{m} (\hat{\mu}_i - \bar{\mu})^2\) con \(\bar{\mu} = 0\) → sum of squares residuals
TSS: \(\sum_{i=1}^{m} (y_i - \bar{Y})^2\) → stimatore della totale su varianza
SER, R², R²
sono misure di bontà dell'adattamento del modello stimato ai dati che osserviamo "Quanto bene la retta OLS si adatta ai dati"
SER → errore standard della regressione
SER = \(\sqrt{\frac{\sum_{i=1}^{m} (\hat{\mu}_i - \bar{\mu})^2}{m-2}}\) = \(\sqrt{\frac{\sum_{i=1}^{m} \hat{\mu}_i^2}{m-2}}\) = \(\sqrt{\frac{SSR_{L}}{m-2}}\)
\(h_0 = 2\) gradi di libertà \(\beta_0\), \(\beta_1\)
RMSE = \(\sqrt{\frac{\sum_{i=1}^{m} (\hat{y}_i - y_i)^2}{m}}\)
R² misura l'adeguatezza del modello stimato che si basa sulla proporzione per cui la variabilità totale dei dati è spiegata dal modello stimato
TSS = ESS + SSR
var. tot var. sp. var. residua
R² = \(\frac{ESS}{TSS}\) = 1 - \(\frac{SSR}{TSS}\) → frazione di var. camp. di Y spiegata da X
priva di unità di misura
ESS < TSS < \(\infty\)
0 ≤ R² ≤ 1, più il modello si adatta ai dati
R²=0 → il regressore non spiega nulla di Y \([ESS = 0]\)
R²=1 → spiega tutto Y → fit perfetto
Dimostrazione TSS = SSR + ESS
TSS = \(\sum_{i=1}^{m} (Y_i - \bar{Y})^2\) = \(\sum_{i=1}^{m} (Y_i - \bar{Y})^2 + \sum_{i=1}^{m} (\hat{Y}_i - \bar{Y})^2 + 2 \sum_{i=1}^{m}(Y_i - \bar{Y})(\hat{Y}_i - \bar{Y})\)