Formulario di statistica
Gianluca Filesi
Statistica descrittiva univariata
Presente una sola features (p = 1)
Indici statistici per dati numerici
Media campionaria
n1 X U.M.: campione · x̄ = x x = n fi i nn i=1
Varianza campionaria
n !11 X X U.M.: campione 22 2 2 2 2 2 − − · (x x̄) = s = x n x̄ x = n fi n xi − −n 1 n 1 i=1 i=1
Costante k:
• Se sommata a tutti i dati, varianza invariata;
• Se moltiplicata a tutti i dati, varianza moltiplicata per k2.
Deviazione standard campionaria
ν 1 Xp U.M.: campioneu2 −s = s = (x x̄) x itx −n 1 i=1
Costante k:
• Se sommata a tutti i dati, deviazione invariata;
• Se moltiplicata a tutti i dati, deviazione moltiplicata per k.
Dato al centro dei dati ordinati. Mediana (med(x)) dove sono i quartili.
Scarto interquartile
IQR(x) = q3(x) − q1(x)
Indici statistici per dati categorici
X ∈ {X1, X2, ..., Xi, ..., Xn} C ∈ {C1, C2, ..., Cg}
Frequenze assolute
nG X X n = 1 n = ng g x = Cg i g=1 i=1
Numero di volte in cui la categoria in esame è Cg
Frequenza relativa
G ng X f = f = 1 g g n g=1
Moda
f = max fg moda g=1,...,G
Entropia campionaria
G X − · H = fg log fg g2 g=1
- min H = 0 con ∃! | ∧ 6ḡ f = 1 f = 0 i = g– g i
- max H = log G2 1 ∀g f =– g G
- · ≤ ≤ q = α n 0 α 1
Quantili
αQuantili
Dati più piccoli
Dati più grandi ≥ ≤ q 25% 75%1 ≥ ≤ q 50% 50%2 ≥ ≤ q 75% 25%3
Statistica descrittiva bivariata
Presente più di una features (p = 2).
Indici statistici per dati numerici
Vettore delle medie
Vettore le cui componenti sono le medie di ogni features., x )x̄ = (x
Matrice delle varianze e covarianze
2 2 S S 11 12 S = 2 2 S S 21 22
- : varianza campionaria j-esima 2Sjj
- Covarianza campionaria:
n 1 X p p U.M.: U.M. 2 2 2 2 − − |S |≤ ·U.M.S = (x x )(x x c) S Sir .r ic . 1 2rc rc rr cc−n 1 i=1
Disuguaglianza di Cauchy-Schwarz
q qq q2 2 2 2 − · ≤ ≤ · S S S S Si,j
Correlazione lineare
Si,j − ≤ ≤ ρ = 1 S 1i,j i,j
q q2 2 · S Si j
Profondità simpliciale
XDEPTH(x) S: simplesso = 1 ∈ Sx i.p s ∈ R2
Indici statistici per dati categorici
n 1 P f = 1 Frequenza relativa congiunta ∧xx = C = Dgh i=1 n gi1 i2 h
Variabili aleatorie
Funzione di ripartizione
≤ F (x) = P (X x)
- Monotona non decrescente
- −lim F (x) = 1 x→+∞
- +lim F (x) = 0 x→−∞
- Sempre continua da destra (lim F (x) = F (h))+x→h
Insieme di tutti i possibili esiti Ω
Densità di probabilità
• Discreta:
(∈ P (X = x) x Ω p(x) = se ∈ 0 x / Ω
≤ ≤ 0 p(x) 1 – P p(x) = 1 –
• Continua:
dx dx ∈ − P (X [x ; x + ]) 2 2 f (x) = dx ≥ f (x) 0 – R f (x) dx = 1 – R .
Legame funzione di ripartizione e densità di probabilità
• Caso discreto X F (x̄) = p(x) x ∈ (−∞;x̄]∩Ω Salto −p(x ) = F (x ) lim F (x) =0 0 −x→x 0
• Caso continuo x Z f (t) dt F (x) = −∞ 0 f (x) = F (x)
Teorema di Bayes
∩ · ⇐⇒ ⊥ P (A B) = P (A) P (B) A B
Indici di variabili aleatorie discrete
Media X · E(x) = µ = x p(x )