Statistica descrittiva
In statistica, si definisce variabile una qualunque caratteristica di interesse per
la popolazione d’indagine: i valori che la variabile assume sono, invece, i dati.
In generale, le variabili possono essere di due tipi:
Variabili categoriche, ossia quelle variabili non esprimibili con dei
numeri (Come il colore degli occhi o il gruppo sanguigno);
Variabili numeriche, le quali si distinguono, a loro volta, in:
1. Variabili numeriche discrete, che sono quelle variabili che
possono assumere solo valori ben definiti;
2. Variabili numeriche continue, che sono quelle variabili che
possono assumere tutti i valori contenuti in un intervallo.
Le frequenze:
Per sintetizzare i dati di un’indagine statistica si costruisce la tabella delle
frequenze, ossia una tabella che associa ad un determinato valore o classe di
valori (Intendendo per classe un sottoinsieme di valori che possono essere
assunti dai dati) i rispettivi valori di:
Frequenza assoluta, che si definisce come il numero di dati che
#{ |
= = };
assumono il valore considerato: ()
Frequenza relativa, che si definisce come rapporto tra frequenza
()
= ;
assoluta e numero totale di dati: ()
Frequenza cumulata, che si definisce come la percentuale di dati che
=
assumono un valore minore o uguale al dato considerato: ()
|
#{ =}
.
Gli indici di posizione:
Gli indici di posizione hanno lo scopo di indicare attorno a quale valore sono
distribuiti i dati e si dividono in:
Moda, che si definisce come il valore o la classe di valori a cui
corrisponde massima frequenza assoluta;
=
∑
̅
= =
Media campionaria, che viene definita dalla formula:
=
∑ [N.B.: La media può essere ricalcolata facilmente a seguito
( )
di un cambiamento di unità di misura: se, infatti, cambiando unità di
= + , ̅ =
misura i dati si trasformano da x a allora vale la relazione
̅ + ];
Mediana, che è quel dato m tale che almeno il 50% dei dati è maggiore
o uguale ad m e almeno il 50% dei dati è minore o uguale ad m. In
generale, dunque, data una successione ordinata di dati x , la mediana
(i)
può essere calcolata come:
, è
([ ]+1)
2
= { ;
1 ( + ) , è
( (
) +1)
2 2 2
Quantile (di ordine p), che è quel dato q tale che almeno il 100p% dei
p
dati è minore o uguale di q e almeno il 100(1-p)% dei dati e maggiore o
p
uguale di q . In generale, dunque, data una successione ordinata di dati
p
x , il quantile di ordine p può essere calcolato come:
(i) , ∉
([]+1)
= { 1 ;
( + ), ∈
() (+1)
2
N.B.: A differenza di quanto avveniva per la media campionaria, per i quantili,
= + ,
data la trasformazione di dati vale la relazione:
+ , > 0
= { .
+ , < 0
(1−)
Gli indici di dispersione:
Gli indici di dispersione indicano quanto i dati sono distribuiti e si dividono in:
che è la differenza tra il valore dell’ultimo dato e il valore del
Range, = − ;
primo dato (nella successione ordinata dei dati): ()
()
Distanza interquartilica, definita come la differenza tra il valore del terzo
= − ;
quartile e il valore del primo quartile: . .
=
(
∑
= −
Varianza campionaria, che è definita dalla formula:
−
=
̅) ̅
= [∑ − ]. Di conseguenza, la varianza campionaria
−
risulta essere sempre non negativa e, dunque, la sua radice quadrata
è sempre definita e prende il dome di deviazione standard campionaria
[N.B.: A differenza di quanto visto per gli indici di posizione, la varianza
non varia linearmente a seguito di un cambio di unità di misura: data,
= + , =
infatti, la trasformazione allora vale la relazione ].
Il calcolo delle probabilità
Si definisce esperimento aleatorio un qualsiasi esperimento il cui risultato
non è scontato (ossia non deterministico) e si dicono eventi tutte le possibili
proposizioni circa il risultato dell’esperimento.
La probabilità: l’insieme degli
: → ,
Si definisce probabilità una funzione dove è
eventi, che gode delle seguenti proprietà:
() ≥ ∀ ;
() = ;
,…,E ( )
∧ = ∅ ∨ … ∨ =
Se E sono eventi tali che allora vale
1 n
= ( )
∑ .
La funzione probabilità gode, inoltre, delle seguenti proprietà:
() ≤ ;
̅
() ( );
= −
Se l’evento E implica l’evento F allora vale () ().
≤
La funzione di ripartizione:
Si definisce variabile aleatoria il risultato di una qualunque misura effettuata
in un esperimento aleatorio: assegnando tale variabile ad un valore o ad un
⊆
insieme si ottiene, dunque, un evento. La funzione di ripartizione
[; ] ()
: → | =
della variabile aleatoria X è, perciò, quella funzione
≤ t").
("X Tale funzione gode, dunque, delle seguenti proprietà:
E’ una funzione non decrescente;
() = () = ;
e
→−∞ →+∞
E’ una funzione ( )
= ();
continua da destra, ossia
+
→
(" ")
> = − ();
x∈(t,s]
( ) ()
< , = − ().
Se allora
La funzione densità di probabilità per le variabili discrete: ⊆
Data una variabile aleatoria discreta X che assume valori in si definisce
()
: → | = (" =
funzione densità di probabilità di X la funzione
"). Tale funzione gode delle seguenti proprietà:
()
≤ ≤ ∀;
∑ () = .
∈
Si definisce, inoltre, variabile aleatoria bernoulliana una variabile aleatoria
che, fissato un evento E, assume il valore 1 se E si verifica e il valore 0 se
si verifica l’opposto di E. Introdotta tale variabile, dunque, si può definire la
funzione densità bernoulliana di parametro P(E), che si indica con
()), {0; 1} [0; 1] (1)
~(, : → | = (" = 1") =
la funzione
( ) (0) ( ).
= (" = 0") = 1 −
La funzione densità di probabilità per le variabili continue:
Data una variabile aleatoria X, si definisce funzione densità di probabilità di
()
: → | (" ≤ ≤ ") = .
∫
X la funzione Tale funzione gode,
perciò, delle seguenti proprietà:
( )
≥ 0 ∀;
+∞
( )
= 1 .
∫
−∞
N.B.: Mentre la funzione di ripartizione è sempre continua, la funzione densità
di probabilità può non essere continua e, inoltre, può assumere valori
X≤t
() ( ) ()
= = ==>
∫
maggiori di 1. Infine, vale la relazione −∞
= .
Le funzioni di variabile aleatoria:
: →
Sia una funzione e x una variabile aleatoria continua di densità nota
( ),
=
f . Definita, dunque, è possibile determinare la densità f a partire
X Y
dalla densità di x tramite i seguenti passaggi:
()
= ;
∫
1. In primis si ricava
−∞
()
2. In seguito si ricava conoscendo y=g(x);
()
=
3. Infine si ricava .
Particolarmente significativo è, inoltre, il caso delle trasformazioni affini, per le
quali, partendo dalla trasformazione y=ax+b, si giunge facilmente alla relazione
−
()
= ( ).
| |
Quantili, media e varianza delle variabili aleatorie:
[0; 1]
Siano X una variabile aleatoria continua e e si supponga che
−1
().
sia iniettiva in un intorno di Si definisce quantile di ordine
( ) = .
della variabile X il valore tale che
Sia X una variabile aleatoria. Si definisce media o speranza di X il
numero E[X] tale che: (),
∑ è
∈
[] = +∞ (),
∫ è
{ −∞
La media di una variabile aleatoria gode, perciò, delle seguenti proprietà:
1. E[X] è il baricentro della densità di X;
2. Se f è simmetrica rispetto a t allora E[X] = t ;
X 0 0
+∞
[] () ()
= ;
∫
3. Data la trasformazione y=g(x), vale
−∞
Sia X una variabile aleatoria. Si definisce varianza di X il numero Var[X]
tale che:
∑( []) (),
− è
∈
[] [( []) ]
= − = +∞
( []) (),
∫ − è
{ −∞
La varianza di una variabile aleatoria è, perciò, un indice di quanto la densità
di tale variabile è dispersa e gode, inoltre, delle seguenti proprietà:
[] ≥ ;
1. [] =
2. solo se X è una variabile aleatoria costante;
[ ] [];
+ =
3.
[] [ ] []
= − ;
4. La densità gaussiana
()
= [− ( −
Sia X una variabile aleatoria continua con densità
√
) ]: tale densità prende il nome di densità gaussiana (o normale) e si indica
~(, ).
con Tale densità gode delle seguenti proprietà:
[] = ;
1.
;
2. Var[X]=
~[ + , ].
3. Data la trasformazione affine y=ax+b, avremo che
Considerando, ora, la terza proprietà, possiamo notare che, data la
~(, ):
= − ,
trasformazione affine risulterà tale distribuzione prende
il nome di distribuzione normale standardizzata, si indica con ed è
particolarmente rilevante dal punto di vista statistico in quanto i suoi valori sono
tabulati. Per di più, la distribuzione normale standardizzata gode di
un’importante proprietà, in quanto vale () (−)
= − ∀ e, di
conseguenza, possiamo anche concludere che, dato il quantile di ordine
= − .
per la variabile z, varrà − 2
~(, )
Oss: A questo punto, possiamo concludere che, data e due numeri
a<x<b
( ) =
a,b tali che a<b, è possibile calcolare la probabilità
a-μ x-μ b-μ a-μ
-μ
< <
( ) = ( ) − ( ).
σ σ σ σ σ
Esperimenti aleatori con più variabili
Spesso gli esperimenti aleatori coinvolgono più di una variabile ed è, perciò,
utile introdurre nuovi strumenti di calcolo per poter valutare ciò che avviene
quando sommiamo tali variabili in base al rapporto che intercorre tra
quest’ultime. [ ] []
+ = + []
Teo: Siano X, Y due variabili aleatorie. Allora e
[ ] [] [] (, ), (, ) [(
+ = + + 2 = −
[])( [])].
− ,…,X
Def: Siano X variabili aleatorie. Tali variabili si definiscono indipendenti
1 n
x x
( ) ( ) ( )
∈A ∧ … ∧ ∈A = ∈ ∙ … ⋅ ∈ ∀ , … ,
se .
1 1 n n 1 1 1
(, ) = .
Teo: Siano X, Y due variabili aleatorie indipendenti. Allora
,…,X [ ]
+ ⋯ + =
Corollario: Siano X variabili aleatorie. Allora
1 n
[ ] + ⋯ + [ ].
Prove di Bernoulli
Siano n prove ripetute tali che:
L’esito di ciascuna prova possa risultare
1. esclusivamente in un
successo o in un insuccesso; ∈
2. Ogni prova abbia una probabilità di risultare in un successo pari a
[; ];
L’esito di ciascuna prova sia completamente indipendente dall’esito
3. delle altre.
Riguardo tali prove possiamo, a questo punto, introdurre n variabili aleatorie
′
1, −
, = 1, … , ℎ = { .
′
0, −
Possiamo, per di più, introdurre un’ulteriore variabile aleatoria =
=1
∑
# = . Notiamo, dunque, che valgono le seguenti
considerazioni:
~(, )
∀;
[ ]
[ ] = = ( − );
e
[] [] ( );
= = −
e, essendo le indipendenti,
{, } [ ].
: … , → ;
La funzione densità è tale che
−
()
= ( ) ( − )
Teo: . Tale densità si definisce densità binomiale di
~(, ).
parametri n e p e si indica con ≈ +∞ ≈ 0
Oss: (Densità di Poisson): Nel caso in cui risulti e si dimostra
−
( )
≈ , = ≈ 1:
che tale densità prende il nome di densità di
! [] []
= = =
Poisson di parametro e si può notare che
( )
− ≈ ~().
(, ) ~(
~ ~(, ) = + +
Oss: Siano indipendenti, allora vale
). ()
, ~ ~() =
Analogamente,
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.