vuoi
o PayPal
tutte le volte che vuoi
E(Y)=∑
variabile casuale che si distribuisce normalmente
è 3, se maggiore di 3 è detta leptocurtica. Varianza condizionata: varianza della
distribuzione condizionata di Y data X.
Momento r-esimo è il valore atteso di . Var(Y|X=x)=
Variabili casuali doppie
Distribuzione di probabilità congiunta di due -
( | ( | )
∑,
variabili discrete: identifica la probabilità che le
variabili X e Y assumano simultaneamente certi Indipendenza: X e Y sono indipendenti se la
valori. Espressa come Pr(X=x, Y=y). distribuzione condizionata di Y data X è uguale
Distribuzione di probabilità marginale: alla distribuzione marginale di Y. Se per tutti i
distribuzione di probabilità di una sola delle valori di x e y:
variabili casuali. Calcolabile come la somma di ( | ) ( ) ( )
tutti i suoi possibili risultati. Covarianza: misura l’intensità con cui le due
Distribuzione condizionata di Y data X: variabili casuali si muovono insieme.
distribuzione di una variabile casuale Y
condizionatamente al fatto che un'altra variabile ( )
casuale X assuma un valore specifico, si indica )(
[( )]
con Pr(Y=y|X=x). ∑ ∑( )( ) ( )
- Esempio:
X=0 X=1 Totale Se X è maggiore della propria media, X-µx è
Y=0 0,18 0,37 0,55
Y=1 0,23 0,22 0,45 positivo. Da cui la concordanza di segni tra X e Y
Totale 0,41 0,59 1 darà positività alla covarianza.
La probabilità condizionata di Y data X per Pr(Y=0/X=0) è uguale a
0,18/0,41, ovvero 43,9%. Correlazione: misura alternativa di dipendenza
tra X e Y che risolve il problema dell’unità di
(Probabilità congiunta/probabilità marginale) misura della covarianza.
( )
Pr(Y=y|X=x)= ( ) ( )
( ) ( ) ( )
√
Aspettativa condizionata di Y data X: è la media
della distribuzione condizionata di Y data X, con Y E’ compresa tra -1 e 1.
che assume k valori e X=x 2 Distribuzione normale chi-quadrato : è la
Somme di variabili casuali distribuzione della somma dei quadrati di m
X, Y e V sono variabili casuali. variabili casuali indipendenti, ognuna con una
distribuzione normale standard, con m gradi di
( ) libertà.
( )
( ) Distribuzione t di Student : è la
distribuzione del rapporto di due variabili casuali
( ) indipendenti, la prima delle quali è una normale
( ) standard e l’altra è la radice quadrata di una
variabile casuale chi-quadrato(W) con m gradi di
( ) libertà divisa per m.
| ( )| | | √ ; (disuguaglianza La variabile casuale ha una distribuzione t
della correlazione) √
student. Per distribuzioni con m uguale o
Distribuzioni maggiore a 30, si approssima ad una normale
( ): standard. Se minore essa ha code più pesanti.
Distribuzione normale ha una forma
campanulare, è simmetrica attorno alla sua Distribuzione F: è la distribuzione del rapporto di
media e concentra il 95% della sua probabilità tra una variabile casuale chi-quadrato(W) con m
µ-1,96σ e µ+1,96σ. La normale standard ha µ=0 e gradi di libertà, divisa per m, con una variabile
σ=1, con distribuzione indicata da Z, quindi casuale chi-quadrato(V) indipendentemente
Pr(Z≤c)=φ(c). La standardizzazione avviene distribuita con n gradi di libertà, divisa per n.
sottraendo prima la media e dividendo poi il
risultato per la deviazione standard: La variabile casuale ha una distribuzione .
( ) Capitolo 3 Richiami di statistica
Calcolo della probabilità con variabili casuali Stima della media di una popolazione
normali: Uno stimatore è una funzione di un campione di
( ) ( ) ( ) dati estratti casualmente da una popolazione. La
( ) ( ) ( ) stima è il valore numerico dello stimatore,
quando questo viene calcolato usando i dati di
( ) ( ) uno specifico campione. Uno stimatore è una
( ) ( ) variabile casuale, mentre la stima è un numero.
Le tre caratteristiche desiderabili per un
Distribuzione normale multivariata: descrive la campione sono:
distribuzione congiunta di un gruppo di variabili
casuali. Se due variabili X e Y sono bivariate, con - Non distorsione (correttezza):
covarianza e se a e b sono due costanti, ̂)
( ;
allora aX+bY ha una distribuzione normale. ̅
- Consistenza: , per la legge dei
( grandi numeri;
) 3 ̅ ̅
- Varianza ed efficienza: tra due stimatori *| | | |+
si sceglie quello con varianza minore, ̅ ̅
̅
perché più efficiente. | |)
( ̅
̅ è lo stimatore della media meno distorto,
consistente e più efficiente. Si dice che è il miglior = funzione di ripartizione di una distribuzione
stimatore non distorto o BLUE (Best Linear normale standard; cioè il valore-p è l’area nelle
Unbiased Estimator). Inoltre, la media code di una distribuzione normale standard al di
̅
campionaria minimizza la differenza quadratica ( )
fuori dell’intervallo ̅
̅
media tra le osservazioni e (stimatore dei Altri stimatori
minimi quadrati). Varianza campionaria
Verifica d’ipotesi circa la media della
popolazione ̅)
∑(
Ipotesi nulla: ipotesi da verificare, che la media
della popolazione assuma un valore specifico. Da cui è possibile ottenere la deviazione
Ipotesi alternativa: confronto di ipotesi, cosa è standard campionaria operando la radice
vero se la nulla viene rifiutata. Ovvero, nel caso si quadrata. In distribuzione di Bernoulli: p(1-p)/n.
ipotizza solo che la media della popolazione non
assuma quel valore specifico, si parla di ipotesi Errore standard campionario
alternativa bilaterale. ̅
È uno stimatore della deviazione standard di ,
̅
Valore-p dei test (o livello di significatività indicato con SE( ).
osservato): è la probabilità di ottenere un valore ̅)
( ̂ √
̅ ̅
di che, sotto l’ipotesi nulla, sia lontano dalle
code della distribuzione almeno quanto la media In distribuzione di Bernoulli:
campionaria effettivamente calcolata. ̅) ̅( ̅)
√
( .
̅ ̅
[| | | |] Covarianza campionaria
̅ =valore che assume la media campionaria
calcolata sui dati disponibili; =probabilità ̅ ̅)
)(
∑(
calcolata sull’ipotesi nulla. Se il valor-p è elevato
̅
allora il valore è coerente con l’ipotesi nulla. Correlazione campionaria
Calcolo del valore-p con nota
Il valore-p è la probabilità sotto l’ipotesi nulla di
̅
ottenere un valore di distante da almeno
̅ Varia tra -1 e 1. Se uguale ad 1 Xi=Yi, se uguale a -
quanto , o equivalentemente è la probabilità
̅ ̅ 1 sarà Xi=-Yi. In questi due casi il diagramma a
di ottenere un valore maggiore di
̅ ̅ nuvola di punti è una linea retta. Se il coefficiente
in valore assoluto, rappresentata dall’area è positivo la retta avrà un inclinazione positiva, e
ombreggiata delle code. viceversa.
4