vuoi
o PayPal
tutte le volte che vuoi
Statistica descrittiva univariata
Presente una sola features (p = 1)
Indici statistici per dati numerici
Media campionaria n1 X U.M.: campione·x̄ = x x = n fi i nn i=1
Varianza campionarian n !11 X X U.M.: campione22 2 2 2 2 2− − ·(x x̄) =s = x nx̄ x = n fi nx i i− −n 1 n 1i=1 i=1
Costante k:
- se sommata a tutti i dati, varianza invariata;
- se moltiplicata a tutti i dati, varianza moltiplicata per .2k
Deviazione standard campionaria v nu 1 Xp U.M.: campioneu2 −s = s = (x x̄)x itx −n 1 i=1
Costante k:
- se sommata a tutti i dati, deviazione invariata;
- se moltiplicata a tutti i dati, deviazione moltiplicata per k.
Dato al centro dei dati ordinati.
M ed(x)Mediana dove sono i quartili.−IQR(x) = q (x) q (x) qScarto interquartile 3 1 i
Indici statistici per dati categorici ∈X , X , . . . , X , . . . , X C , C , . . . , C , . . . , C1 2 i n 1 2 g GFrequenze assolute n GX Xn = 1 n = ng gx =Cgi g=1i=1Numero di volte in
Il testo formattato con i tag HTML corretti sarebbe il seguente:cui la categoria in esame è C
gn Frequenza relativa Gn Xf = f = 1g gn g=1
Moda f = max fg moda g=1,...,G
Entropia campionaria GX- · H= f log f g2 g=1
• min H = 0 con ∃! | ∧ 6ḡ f = 1 f = 0 i = g- g i
• max H = log G2 1 ∀g f =- g G
con ≤ ≤q = α n 0 α 1
Quantili α
Quantili Dati più piccoli Dati più grandi
≥ ≤q 25% 75%
1 ≥ ≤q 50% 50%
2 ≥ ≤q 75% 25%
3
Statistica descrittiva bivariata
Presente più di una features (p = 2).
Indici statistici per dati numerici
Vettore le cui componenti sono le medie di ogni features., x )x̄ = (x
Vettore delle medie 1 2
Matrice delle varianze e covarianze
2 2
S S11 S12
S = 2 2
S S21 S22
• : varianza campionaria j-esima
2Sjj
• Covarianza campionaria:
n1 X p p U.M.: U.M.
2 2 2 2
− − |S |≤ ·U.M.
S = (x x )
(x x c) S Sir .r ic . 1 2
rc rc rr cc
−n 1 i=1
Disuguaglianza di Cauchy-Schwarz
q qq q2 2 2 2− ·
< < ·S S S S Si,ji j i jCorrelazione lineare Si,j - < <ρ = 1 S 1i,j i,jq q2 2·S Si jProfondità simpliciale XDEPTH(x) S: simplesso= 1 ∈Sx i.ps∈R2Indici statistici per dati categorici n1 Pf = 1Frequenza relativa congiunta ∧xx =C =Dgh i=1n gi1 i2 hVariabili aleatorieFunzione di ripartizione <F (x) = P (X x)• Monotona non decrescente• -lim F (x) = 1x→+∞• +lim F (x) = 0x→−∞• Sempre continua da destra (lim F (x) = F (h))+x→hinsieme di tutti i possibili esitiΩ :Densità di probabilità• Discreta: ( se ∈P (X = x) x Ωp(x) = se ∈0 x / Ω< <0 p(x) 1- P p(x) = 1-• Continua: dx dx∈ -P (X [x ; x + ])2 2f (x) = dx≥f (x) 0- R f (x) dx = 1- R .Legame funzione di ripartizione e densità di probabilità• Caso discreto XF (x̄) = p(x)x∈(−∞;x̄]∩Ω Salto- p(x ) = F(x )
limF (x) =0
0 −x→x
0•
Caso continuo
xZ f (t) dtF (x) = −∞ 0f (x) = F (x)
Teorema di Bayes
∩ · ⇐⇒ ⊥P (A B) = P (A) P (B) A B
Indici di variabili aleatorie discrete
Media X ·E(x) = µ = x p(x )i i∈Ωx
Varianza XVAR(x) 2 2 2 2 2− − − ·= σ = E[(X µ) ] = E(X ) E(X) = (x µ) p(x )i i∈Ωx i
Deviazione standard SD(x) p 2−= σ = E[(X µ) ]3
Indici di variabili aleatorie continue
Media Z ·x f (x ) dxE(x) = µ = i iR
Varianza ZVAR(x) 22 2 2 2 − ·− − (x µ) f (x ) dx= σ = E[(X µ) ] = E(X ) E(X) = i iR
Deviazione standard SD(x) p 2−= σ = E[(X µ) ]−1 −α-quantile x = F (1 α)superiore α −1α-quantile x = F (α)inferiore αTrasformazioni lineare affineVAR(aX VAR(X) SD(aX SD(X)2· · |a| ·E(aX + b) = a E(X) + b + b) = a + b)
Standardizzazione -X µ7→X Z = σ VAR(Z)E(Z) = 0 = 1
Legge dei grandi numeri |µ| X̄ = µ = 1E(X ) = < +∞ =⇒ P limi n→+∞
Variabili aleatorie discrete
Probabilità di successo.
Bernoulli con∼ ∈X b(p) = B(1, p) p = P (X = 1) Ω = 0, 1 p [0, 1]VAR(X) SD(X)− ∈ ∈E(X) = p = p(1 p) [0, 0.25] [0, 0.5]
Numero di successi della prova di Bernulli.
Binomiale ncon x n−x∼ − ∈X B(n, p) p(x) = P (X = x) = p (1 p) Ω = 0, . . . , n p [0, 1]xVAR(X) SD(X) p· ∈ · − ∈ ∈E(X) = n p [0, n] = n p(1 p) [0, n/4] [0, n/4]
Riproducibilità: ∼ ∼ ∼X B(n , p) X B(n , p) X + X B(n + n , p)1 1 2 2 1 2 1 24
Tempo di attesa del primo successo in una sequenza di B(p).
Geometrica Geom(p) con x−1∼ − ∈X p(x) = P (X = x) = p(1 p) Ω = 1, . . . , n p (0, 1]x− −F (x) = 1 (1 p) √ −−1 1 p1 pVAR(X) SD(X)E(X) = = =2p p
Assenza di memoria: ≥ ≥ ≥P (X x̄ + x|X x̄) = P (X x)Conteggi.
Poisson −λ x·e λPoisson(λ) con∼X λ > 0 P (X = x) = Ω = 0, . . . , nx! √VAR(X) SD(X)E(X) = λ = λ = λ
Riproducibilità: Poisson(λ Poisson(λ Poisson(λ∼ ∼ ∼X ) X ) X + X + λ )1 1 2 2 1 2 1 2−λx xn n
N.B.: è la serie di Taylor di . Quindi ·λ −λλ eλ λP P ·e = e e = 1x=0 x=0x! x!
Approssimazione poissoniana della binomiale:
E(X) = np = cost. Poisson(np∼ −−−−−−−−−−−→ ∼X B(n, p) X = λ)n→+∞, p→0
Variabili aleatorie continue
Tempo di attesa del primo successo. Caso continuo della V.A. Geometrica.
Esponenziale con∼X exp(λ) λ > 0 Ω > 0( (0 x< 0 0 x< 0f (x) = F (x) =−λ·x
−λ·x· ≥ − ≥λ e x 0 1 e x 01 1 1
VAR(X) SD(X)= =E(X) = 2λ λ λ
Assenza di memoria: ≥ ≥ ≥P (X s + t|X s) = P (X t)
Riproducibilità del minimo:∼ ∼ ∼X exp(λ ) X exp(λ ) =⇒ min (X , X ) exp(λ + λ )1 1 2 2 1 2 1 2
Uniforme con∼ ∈ ∈X U (α, β) Ω > 0 α (−∞, +∞) β (α, +∞)
0 x<α( 1 ≤ ≤α x β β−α x−α ≤ ≤F (x) =f (x) = α x ββ−α
∧0 x<α x>β 1 x>β2− −α + β (β α) β α
VAR(X) SD(X) √E(X) = = =2 12 2 35
Normale o Gaussiana con2 2∼ ∈ ∈X N (µ, σ ) Ω = R µ (−∞, +∞) σ (0, +∞)x 22 −− Z11 (t µ)(x µ) √ √− −F (x) = dtf (x) = exp exp2
22σ 2σ2 22πσ 2πσ −∞Riproducibilità: 2 2 2 2∼ ∼ −→ ± ∼ ±X N (µ , σ ) X N (µ , σ ) X X N (µ µ , σ + σ )1 1 2 2 1 2 1 21 2 1 22 2 2∼ −→ ∼Y = aX + B X N (µ, σ ) Y N (aµ + b, a σ )Standardizzazione: −X µ2∼ ∼X N (µ, σ ) Z = N (0, 1)σ−x µ −1con −F (x) = F = Φ(z) x = µ + z σ z = Φ (1 α)z α α αX σ −P (Z > z) = 1 Φ(z)Approssimazione normale della binomiale: VAR(X)∼ −X B(n, p) E(X) = np = np(1 p)−X np Se∼ ∼ − −N (0, 1) X N np, np(1 p) np > 5, n(1 p) > 5p −np(1 p)Approssimazione normale della Poisson:Poisson(λ) VAR(X)∼X E(X) = λ = λ−X λ Se√ ∼ ∼N (0, 1) X N (λ, λ) λ >
5λCorrezione di continuità per approssimazioni: 1 1 ⇐⇒ − ≤ ≤P (X = r) P r X r +P oisson N ormale 2 2 11 ≥ ≈ ≥ − ≤ ≈ ≤P (X r) P X r P (X r) P X r +P poissonBinomiale N ormale N ormale2 2
Teorema del limite centrale VAR(X)∼ |E(x)|X iid F i = 1, . . . , n < +∞ < +∞i −X̄ µ √ ∀c ∈lim P < c = Φ(c) Rσ/ nn→+∞ !− − −X̄ µ S nµ p(1 p)n√ √∼ ⇐⇒ ∼ ⇐⇒ ≈N (0, 1) N (0, 1) S = nX̄ X̄ N p,n nσ/ n σ nn→+∞ n→+∞
Statistica inferenzialeIl modello distribuzionale è noto a meno di uno o più parametri. Il parametro si determina intre modi: sti