Statistica

Appunti di Statistica basati su appunti personali del publisher presi alle lezioni del prof. Vantini, dell’università degli Studi del Politecnico di Milano - Polimi, della …

Esame Statistica

Facoltà Ingegneria dei sistemi

Dal corso del Prof. Vantini Simone

Università Politecnico di Milano

Publisher elisabetta.tea

A.A. 2020-2021

26 pagine

1 download

Appunto

Vota 4,5 / 5 (2)

Scarica

Estratto del documento

STAT. DESCRITTIVA

X = matrice dei dati

X = [x_ij]

v_z = risultato blu

v₁ = risultato rosso

x = minuscola
X = maiuscola

campione = insieme unità statistiche

- righe = omogenee

- colonne -> non sempre omogenee

STAT. UNIVARIATA

1 sola colonna omogeneità delle feature

X = (x₁, x₂, x₃, .., x_n) = (X_i) i = 1, .., n

tipi di dati

Qualitativi (categorici)
- nominali: (es. maschio/femmina) → X_i è una categoria
- ordinali: (es. taglie vestiti) categorie che danno un ordine
Quantitativi (numerici)
- discreti: X_i è insieme finito/infinito numerabile e C.R
- continui: X_i è insieme infinito e non numerabile e CR

introducono il concetto di "distanza" tra i data points es. quanto dista x_s - s

INDICI STATISTICI

dati numerici

indici di posizione

media campionaria

indice di dispersione

varianza campionaria = S_n-1² = n-1
deviazione standard campionaria = s

Indici robusti

indici di posizione

medio trimmed
mediana campionaria = med(C_n)

indici di dispersione

IQR(C_n) = Q₃(C_n) - Q₁(C_n) = intervallo interquartile

QUARTILI CAMPIONARI

Q₁(C_n) (25% / 75%)
Q₂(C_n) (50% / 50%) mediana
Q₃(C_n) (75% / 25%)

dividono la nuvola di punti in 4 parti di (25%) di ugual peso

intervallo interquartile

dati numerici

STAT. MULTIVARIATA

Tabella di contingenza → focus non sulla categoria ma sulle coppie e congiunte

Frequenze congiunte

F_campionaria di una coppia

Frequenze marginali

OSS: La f. relativa fi può calcolare anche se è difficile da visualizzare

SSS: Si può calcolare la moda (cioè frequenze relative) e l'entropia (cioè congiunte che marginale)

A questo raggruppamento riga, non del tutto categoria attraverso una coppia di categorie

Esempio

C₁ = promossi ad analisi
C₂ = bocciati ad analisi
D₁ = promossi a fisica
D₂ = bocciati a fisica

Modelli matematici che descrivono questi concetti

Variabile aleatoria = Formalità matematica di un esper. aleatorio i cui possibili esiti sono numeri

mediante la distribuzione di probabilità della variabile aleatoria (o f. di ripartizione/ del dens. di prob. accumulata)

Esempio 1

x = altezza studente

F_c(x) Densità distribuzione di probabilità

Ripartiz.

Densità di prob.

FORMULE DA SAPERE AL FLY!

E(ax+b)=aE(x)+b
var(ax+b)=a² var(x)
sd(ax+b)=|a| sd(x)

STANDARDIZZAZIONE DI V.A.

standard = X (variabile al.) con E(X)=0 e Var(X)=1
standardizzazione di x = trasf _x : E(x)=0, Var(x)=1

Obiettivo: confrontare medie non commensurabili → le misure standardizzate sono adimensionali

Esempio: peso → peso standardizzato altezza → altezza standardiz.

peso st=+2 → il soggetto è 2 deviazioni standard sopra la media
altezza st=-1 → il soggetto è 1 d.s. sotto la media

QUANTILE

Q₁, Q₂, Q₃ = QUARTILI

α-quantile superiore di x = valore che lascia α a destra (/sinistra: inferiore)

varianza: var(X) = 1²p(1-p) + 1²p(1-p) + ... = np(1-p). var(X) ∈ [0, ⁿ⁄₄]

esercizio: Scatole con 10 viti

P(C difett) = 0,01

Prob che in 1 scatola ci siano almeno 2 viti difettose. Cioè che ce ne siano 2...10 [0,0043 con la Binomiale]
Compro 3 scatole Prob che in una scatola ci siano almeno 2 difettose e nelle altre due ce ne siano 0 o 1 [0,013 con la Binomiale]

Risoluzione

P(≥2)ᵢ = 1-(0,99)¹⁰-(0,99)⁹(0,01) = 0,00427
P(≥1) = 1-P(≥2†)
P(≥1) - P(≥2†) = 0,0127

posizioni permutazioni

F_X(x1) = F_Z(^{z - μ}/_σ)

F(x1) = φ(z)

z_α (alpha-quantile) = μ + z_ασ

σ² (1-α)

NB z_0,05 = 1,645

z_0,025 = 1,96

esempi dal POS (cop S)

X = precipitazioni annuali in un bacino idrografico ~ N (12,08 in, 3,1² in²)

probabilita' che il totale pioggia 2022 + 2023 sia maggiore di 25 in

X₂₀₂₂ + X₂₀₂₃ ~ N (2 · 12,08 in, 2 · 3,1² in²) = N (24,16 in, 19,22 in²)

P(X₂₀₂₂ + X₂₀₂₃ > 25) = P(^{Z · 25 - 24,16}/_√19,22) = P (Z > 0,1916) = 1 - φ(0,1916) = 0,42

errore comune: X₁ + X₂ = 2X ~ N (2μ, 4μ²)

L ERRORE

probabilita’ che le precipitazioni del 2022 superino quelle del 23 di almeno 3 in

X₂₀₂₂ + X₂₀₂₃ ~ N (0, 3,1² + 3,1²) = N (0, 19,22)

non e' nulla

perche' X₁₂ e X₁₃

hanno stessa distrib., non sono uguali

P (X₂₂ - X₂₃ ≥ 3) = ... [0,25]

TEOREMA CENTRALE del LIMITE

assunzioni simili a quello dei grandi numeri
insieme alla legge dei grandi numeri, teorema più importante della statistica

X_i ~ iid f X_i=1,...,n tc E(c|X_i|) < + ∞ e var(X_i) < + ∞

E(X^*) = μ var(X^*) = σ² / n

^{X_n - μ}/_σ/√n ∧ N

N (0,1)

S_n - μ / σ√n

N (0,1)

σ/√nⁿ

N (0,1)

E (X^*)

σ² / n

σ / x√n S_n - n

N σ(N μ,σ)

∧ N(0,1)

positiva

∧ N(0,1)

(x₁,...,x_n) → Θ “teta cappuccio”

noto a meno del valore di uno o piu' parametri

3 possibili approcci:
stima puntuale: (x₁,...,x_n) → T (estra) T₀ = T_Θ (stima del parametro)

stima intervallare: (x₁,...,x_n) → (θ_L,θ_U) int. di confidenza (stima dell'intervallo in cui cade il parametro)

verifica delle ipotesi: C (x₁,...,x_n) rip H₀
(test di ipotesi)
H₀: Θ = Θ₀
non rif H₀

Anteprima

Vedrai una selezione di 7 pagine su 26