Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
MODELLI STATISTICI
Modelli probabilistici-matematici che permettono di esplicitare la relazione tra variabili statistiche.
Esempio
- Valutare pressione del sangue di un individuo con e senza la somministrazione di un farmaco, tenendo conto delle sue caratteristiche individuali (età, peso, fumatore sì/no).
Modelli statistici e realtà
- Ogni modello → rappresentazione semplificata della realtà.
- Compromesso → un modello deve essere sufficientemente semplice per essere interpretabile e utilizzabile, non troppo semplice per riuscire ad avvicinarsi alla realtà.
Formalizzazione
- Variabile interesse → pressione sangue
- Variabili esplicative → farmaco sì/no, caratteristiche individuali
Tipi variabili
- Variabile interesse (Y) → ruolo variabile risposta
- Altre variabili concomitanti (X1, ..., Xp) → ruolo variabili esplicative
Costruzione Modello
- Specifica Modello
- Stima Modello
- Verifica e Diagnostica Modello
- Utilizzo Modello
1. Specifica Modello - Modello viene specificato sulla base:
- Variabili interesse, relazione tra variabili, ipotesi di studio
- Metodologia di raccolta dati, pre-processing dei dati
2. Stima Modello - Parametri modello vengono stimati sulla base dei dati osservati
3. Verifica e Diagnostica del Modello - Verificare assunzioni alla base del modello sono coperti coi dati.Se non è così, una diversa specificazione è necessaria
4. Utilizzo Modello - Per fare stima di quantità di interesse o previsioni
MODELLO REGRESSIONE LINEARE SEMPLICE
Primi passi di analisi esplorativa per lo studio della dipendenza tra 2 variabili - Scatterplot
Coefficiente di correlazione
Coefficiente correlazione
- r(xy) = s(xy) / √s(x2) s(y2) Є [-1, +1]
s(xy) = 1/n Σ (xi - x̄) (yi - ȳ)
s(x2) = 1/n Σ (xi - x̄)2
s(y2) = 1/n Σ (yi - ȳ)2
x̄ = 1/n Σ xi
ȳ = 1/n Σ yi
1. Specificazione modello yi = f(xi) + εi
- 2 cose da specificare - componente sistematica f
- Distribuzione della variabile errore (assunzioni sulla distribuzione)
⇒ yi = β0 + β1xi + εi
- ⇒ Assunzioni classiche - ε (εi) = 0 i=1,...,n "Non sistematicità degli errori"
- Var (εi) = σ2 > 0 "Omoschedasticità degli errori"
- Cov (εi,εj) = 0 "Incorrelazione degli errori" i≠j
00E
β0 = ŷ - β1 x
β1 = Sxy / Sx2
dove (β0, β1) è l'unico punto critico di S(β0, β1)
È un punto di minimo?
Test dell'Hessiana
H = 2 S(β0, β1) 2 S(β0, β1) Ωβ02 β0β1 2 S(β0, β1)
se det(H) > 0 e 2 S(β0, β1) / β02 = (β0, β1) = (β0, β1) > 0
allora (β0, β1) è un punto di minimo
2 Σ[yi - β0 - β1 xi] = -2(-n) = 2n
H = 2n 2n 2nx 2εx2
det(H) = 2n 2εx2 - 4n εx2 - 4n εx2 x - 4n Σxi (xi - xi) (xi - x) β0
> β0
2 S(β0, β1) / β02 = 2n > 0
(β0, β1) è punto di minimo inoltre è l'unico (perché esiste un solo punto critico) ed è un punto di minimo assoluto
Indice di determinazione R2
∑(Yi - Ȳ)2 = ∑(Yi - Ŷ)2 + ∑(Ŷ - Ȳ)2
- Devianza tot = devianza residua + devianza spiegata
- SQtot = SQreg + SQres
R2 = SQreg/SQtot
R2 ∈ [0,1]
R2 nel modello di regressione lineare semplice
R2 = (r(xy))2
R2 misura la forza della relazione lineare tra x e y, indipendentemente dal segno della correlazione.
Dimostrazione
R2 = SQreg/SQtot = ∑(Ŷ - Ȳ)2/∑(Yi - Ȳ)2= (β̂2 ∑(Xi-X̄)2)/∑(Yi - Ȳ)2
[∑(Xi - X̄)(Yi - Ȳ)]2 / [∑(Xi - X̄)2 ∑(Yi - Ȳ)2]= (r(xy))2
T = β*1 - b1
T = √32 nSX2
T = √32 nSX2
TOSS
VALORE OSSERVATO DELLA STATISTICA TEST T*
toss = β*1 - b1 S2
DENSITÀ Tn-2
ACCEHO
SCEGLIO LIVELLO SIGNIFICATIVO
AD ESEMPIO α=0.05
REGIONE CRITICA TR DEL TEST
TR = {t toss FOSSE L'ESCLUSIVA DI un EFFETTO significativo su Y
SEC - e TR -> NON RIFIUTO HO | INON È SIGNIFICATIVA
P-VALUE
P-VALUE = P[OSSERVARE VALORI DI T COME TOSS O PIÙ ESTREMI]
DENSITÀ T
P(T >=|toss|) | NON RIFIUTO HO
Intervallo confidenza per tn
M̄X ± tα/2√N(0,1)
M̄X ± tα/2√tn-2
Fisso il livello di confidenza 1-α
1-α = P(-tn-2,1-α/2 ≤ M̄X - μ √(s̄X2 1/n((XX - X̄)2/s̄X2)) ≤ tn-2,1-α/2)
M̄X ± tn-2,1-α/2√(s̄X2 1/n(μ+(XX - X̄)2/s̄X2))
Matching di conf. per tμ
Se sostituisco a M̄X e s̄X2 e loro ben rappresentata
Analisi Grafiche
Grafico utile - Scatterplot con esplicativa Xi su asse X e residui standardizzati su asse Y (o residui studentizzati).
Osservazione
Usare residui standardizzati o studentizzati per avere omoschedasticità dei residui.
Grafico mostra andamento sistematico?
- Sì
Concludiamo che le assunzioni sulla variabile errore non valgono.
Modello inadeguato - possiamo pensare a modificare il modello.
Esempi Scatterplot Residui Standardizzati vs Esplicativa
- Non evidenziano andamenti sistematici.
- Violazione linearità modello.
- Violazione assunzione omoschedasticità degli errori.
N=50
ASSUNZIONE NORMALITÀ VARIABILE ERRORE VIOLATA
N=500
ASSUNZIONE NORMALITÀ VARIABILE ERRORE VIOLATA
ASSUNZIONE NORMALITÀ TEST KOLMOGOROV - SMIRNOV
H0 FORMALE RIPARTITRICE TEORICA DEI RESIDUI STUDENTIZZATI È Φ
STATISTICA TEST
DN=supx|FO(x) - Φ(x)|
IN R->KS.TEST