Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
W Z
Varianza = vettore di componenti
Per la variabile discreta:
Per la variabile continua:
Covarianza tra la componente X e la componente Y
La covarianza valuta il grado di dipendenza tra le due componenti della variabile
bidimensionale
43
Per la variabile discreta:
Per la variabile continua:
Correlazione
La COVARIANZA misura quanto due variabili variano insieme (esempio: altezza e peso di una
popolazione). Siano X e Y due variabili casuali di media e o le componenti di una
μ μ
x y
variabile doppia: COV(X, Y) = – )(Y – ))
≡
σ μ((X μ μ
xy x y
Proprieta’:
COV(aX + b, cY + d) = acCOV(X, Y)
COV(X1 + X2, Y) = COV(X1, Y) + COV(X2, Y)
COV(X, X) = X) = varianza
2
σ ¿
Se X e Y sono indipendenti allora COV(X,Y) = 0 (ma NON vale il viceversa)
Indipendenza stocastica:
Si ha indipendenza stocastica tra 2 eventi quando il verificarsi dell'uno non modifica la probabilità
del verificarsi dell’altro P(A ∩ B) = P(A)P(B)
Si ha indipendenza stocastica tra le componenti di una v.c. 2d quando la densità di probabilità
congiunta è pari al prodotto delle due marginali
p = p p
ij i j
f (x, y) = f (x)f (y)
X X Y
La COVARIANZA misura quanto due variabili variano insieme (esempio: altezza e peso di una
popolazione) COV( X,Y) = ≡ μ((X − μX)(Y − μY))
σ
XY
Data la variabile in tabella quanto vale COV(X, Y) = ?
σ XY
44
σ =0
XY
Questo risultato implica che X e Y siano indipendenti? NO.
Covarianza – correlazione: La covarianza misura l’esistenza o meno di una relazione lineare
tra X e Y.
Se tra le componenti di una variabile casuale bi-dimensionale esiste un legame lineare Y = aX
+ b, tenendo conto che:
2 2 2
Inoltre = e quindi = |a| , allora il rapporto
σ a σ σ σ
y x y x
definisco quindi l’Indice di correlazione lineare (o coefficiente di
Pearson):
Si dice indice di correlazione lineare tra le due componenti X e Y la
quantità
che esprime il grado di dipendenza lineare tra le due componenti X e Y.
Si può dimostrare che 1 1
− ≤ ≤
ρ
Se c’" perfetta dipendenza lineare = ± 1.
ρ
E’ adimensionale.
45
La matrice di convarianza X
[ ]
Data la variabile casuale bidimensionale (2D) Z = si definisce matrice di covarianza
Y
2
σ σ
[ ]
Czz = X XY
2
σ σ
XY Y 2 T
Questa matrice " sempre quadrata, simmetrica e definita positiva R a C a 0
≥
∀a ∈ xx
Cxx la matrice di covarianza, a un vettore bidimensionale.
Legge di propagazione della varianza - caso lineare
U=g 1 X ,Y
UV { ( )
[ ]
Sia W = g(Z), W = , con g e g funzioni lineari
1 2
V 2 X , Y
( )
=g in forma matriciale W = AZ + b =
Si ha:
Si ricordi che in questo caso per la media si ha = Aμ + b
μ
W Z
Legge di propagazione della varianza - caso NON lineare
Per una variabile 1D Y = g(X) con g funzione non lineare si procede linearizzando attorno alla
media della variabile X.
Y = g(X) g(μ ) + g′(μ )(X ), ottenendo una formula approssimata per la media e la
−
≃ μ
X X X
varianza della variabile Y:
g(μ )
≃
μ
Y X
2 2
[g′( )]
2
≃
σ μ σ
Y X
46 U=g 1 X ,Y
U { ( )
[ ]
Per una variabile 2D W = g(Z), W = , con g e g funzioni non lineari, si
1 2
V V 2 X , Y
( )
=g
linearizza attorno ai valori medi , :
μ μ
X Y
(le derivate parziali sono calcolate nei punti e e costituiscono lo Jacobiano della
μ μ
X Y
trasformazione)
Ponendo:
⟹ W = Jt + b T T
g(μ , ) C JC J = JC J
⟹ ≃ ≃
μ μ
W X Y WW tt ZZ
La variabile n-dimensionale continua e discreta
47
Anche in questo caso si definiscono le probabilità marginali e condizionate.
Indipendenza stocastica, media, varianza, covarianza
Tutte le componenti sono stocasticamente indipendenti se e solo se f (x , ..., x ) =
X 1 n
f (x )...f (x )
X 1 X n
1 n
Matrice di covarianza C =: [σ ], per definizione " una matrice quadrata di dimensione n e
XX ij ′
̀
simmetrica; si può dimostrare inoltre che " anche semi-definita positiva C o
≥ ∀ν∈R.
ν ν
XX
Se tutte le componenti sono stocasticamente indipendenti si ha che = 0 ≠ j, dunque la
∀i
σ
ij
matrice C " una matrice diagonale.
XX
Propagazione della varianza
Si considerino le variabili casuali X e Y rispettivamente m ed n dimensionali
dim[X] = n
48 dim[Y] = m
e la trasformazione Y = g(X):
Si suppongano note la media e la matrice di varianza-covarianza della variabile casuale X.
Si vogliono ricavare la media e la matrice di covarianza della variabile casuale Y.
Caso lineare: La trasformazione " del tipo Y = AX + b, si ha:
= Aμ + b
μ Y X
C T
=AC A
YY XX
SOCRATIVE - room STATISTICA2020 dim[X] = n, dim[Y] = m dim(C ) = ?, dim(A) = ?,
⟶ XX
dim(C ) = ?
YY
Caso non lineare: La trasformazione " del tipo Y = g(X), introdotte le ipotesi: X ben
concentrata attorno a e g lentamente variabile intorno a si considera la linearizzazione
μ μ
x x
∂g
Y g( ) + )
¿
≃ μ ∂X
49 ∂ g 1 ∂g 1
[ ]
⋯
∂x 1 ∂x n T
∂g μ μ
Dove = jacobiano = J = in questo caso si ha g ( ) e C JC J
⋱
⋮ ⋮ ≃ ≃
Y X
∂X YY XX
∂ gm ∂gm
⋯
∂x 1 ∂x n
Indipendenza stocastica
Per una variabile casuale discreta 2D, se si verifica che la probabilità che X assuma il valore x i
condizionata dal fatto che Y assuma il valore y " uguale alla probabilità che X assuma il
j
valore x allora si ha che la componente X e Y sono stocasticamente indipendenti P[X = xi|Y =
i
y ] = p = p = P[X = x ] ∀i,j
j i;j i i
TEOREMA: condizione necessaria e sufficiente affinché due componenti di una variabile
casuale bidimensionale discreta siano stocasticamente indipendenti " che p = p q dove p e
ij i j i
q sono le marginali della componente X e della componente Y
j
Per una variabile casuale continua la condizione necessaria e sufficiente per l’indipendenza
delle due componenti " f (x, y) = f (x)f (y)
X X Y
Se le componenti di una variabile casuale doppia sono stocasticamente indipendenti tra loro,
il coefficiente di covarianza " pari a zero e la matrice di covarianza " diagonale C =
ZZ
2
σ 0
[ ]
X 2
0 σ Y
Il viceversa non " in generale vero: se la matrice di covarianza " diagonale ciò non implica
50
che le componenti siano stocasticamente indipendenti, ma solo che NON esiste una
dipendenza lineare tra le componenti.
2 eventi sono INDIPENDENTI se P(A B) = P(A)P(B)
∩
2 variabili casuali sono INDIPENDENTI se F(x, y) = F (x)F (y)
X Y
2 variabili casuali discrete sono INDIPENDENTI se p(x , y ) =
i j
p (x )p (y )
X i Y j
2 variabili casuali continue sono INDIPENDENTI se f(x, y) =
f (x)f (y)
X Y Teorema centrale della statistica
n
= con X variabili casuali indipendenti tra
X i
∑
n i
Data una variabile casuale definita come S i=1
loro ed ugualmente distribuite, qualunque sia la loro distribuzione, indicate con e 2
μ σ
rispettivamente la media e la varianza comuni a tutte le X , si ha che S tende asintoticamente
i n
in legge ad una normale con media nμ e varianza nσ
2
=
lim f S n (nμ, nσ ) Limite della densità di probabilità
2
x→ ∞
Questo teorema trova un’immediata applicazione al caso di variabili casuali che descrivono
un esperimento di misura ripetuto più volte.
1
n S = (X + X + + X ) X = (X + X + + X )
⋯ ⋯
n 1 2 n n 1 2 n
∀ n σ 2
per “grandi” n si ha: S (nμ, nσ ) X (μ, )
2
∼ ∼
σ n
n n
le rispettive distribuzioni standardizzate sono:
51
X , X corrispondono a n ripetizioni (indipendenti) di uno stesso evento descritto dalla
⋯,
1 n
variabile casuale X. Il teorema afferma che la distribuzione della media di tali ripetizioni " una
distribuzione nota.
NOTA: la varianza deve essere finita, n deve essere sufficientemente “grande” (la regola
2
σ
empirica dice n 30)
≥
Si osservi che vale anche per variabili discrete (che vengono approssimate con distribuzioni
continue).
ESEMPIO: Si vuole stimare l’età media degli utenti di un certo servizio. Si considerano n = 100
persone che usufruiscono del servizio e si verifica l’età media delle 100 persone " 29 anni con
uno scarto quadratico medio pari a 8 anni.
2
σ
Per il teorema X ( ) = (29,0.64)
∼ μ,
n n
Il teorema centrale della statistica o teorema centrale del limite mette in relazione due
distribuzioni:
Quella dell’evento originario (utente del servizio)
Quella che descrive la media di n ripetizioni (campione estratto)
TEORIA DELLA STIMA
La teoria della stima consiste nel trarre delle conclusioni su alcune proprietà statistiche della
popolazione mediante informazioni su campioni.
52 DEL LIMITE (o teorema centrale della statistica): date n variabili casuali
TEOREMA CENTRALE
X , X indipendenti e identicamente distribuite di media e varianza allora
2
⋯, μ σ
1 n X n−μ
X (μ, ) o anche σ
2
∼ ∼
σ n
√
Il teorema fornisce informazioni sulla distribuzione di X .
n
Se si considerano misure di alta precisione, dopo aver eliminato errori grossolani (effetto
visibile) e sistematici (ad esempio uno strumento di misura non tarato) restano gli errori
accidentali che sono dovuti a una serie di fattori casuali (in cui intervengono aspetti ottici,
elettronici, ambientali...) che non " possibile né eliminare né conoscere esattamente, per cui
il valore letto " da interpretare come una variabile casuale.
Nell'ipotesi che le misure si distribuiscano in modo tendenzialmente simmetrico intorno alla
misura “vera” (valore reale), si può assumere la media come stima di questo valore.
Gli errori di misura tendono a distribuirsi normalmente almeno quando il procedimento di
misura usato " vicino al limite della precis