Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
STAT. DESCRITTIVA
X = matrice dei dati
X = [xij]
vz = risultato blu
v1 = risultato rosso
NB
- x = minuscola
- X = maiuscola
campione = insieme unità statistiche
- righe = omogenee
- colonne -> non sempre omogenee
STAT. UNIVARIATA
1 sola colonna omogeneità delle feature
X = (x1, x2, x3, .., xn) = (Xi) i = 1, .., n
tipi di dati
- Qualitativi (categorici)
- nominali: (es. maschio/femmina) → Xi è una categoria
- ordinali: (es. taglie vestiti) categorie che danno un ordine
- Quantitativi (numerici)
- discreti: Xi è insieme finito/infinito numerabile e C.R
- continui: Xi è insieme infinito e non numerabile e CR
introducono il concetto di "distanza" tra i data points es. quanto dista xs - s
INDICI STATISTICI
dati numerici
indici di posizione
- media campionaria
indice di dispersione
- varianza campionaria = Sn-12 = n-1
- deviazione standard campionaria = s
Indici robusti
- indici di posizione
- medio trimmed
- mediana campionaria = med(Cn)
- indici di dispersione
- IQR(Cn) = Q3(Cn) - Q1(Cn) = intervallo interquartile
QUARTILI CAMPIONARI
- Q1(Cn) (25% / 75%)
- Q2(Cn) (50% / 50%) mediana
- Q3(Cn) (75% / 25%)
dividono la nuvola di punti in 4 parti di (25%) di ugual peso
intervallo interquartile
dati numerici
STAT. MULTIVARIATA
Tabella di contingenza → focus non sulla categoria ma sulle coppie e congiunte
Frequenze congiunte
Fcampionaria di una coppia
- Frequenze marginali
OSS: La f. relativa fi può calcolare anche se è difficile da visualizzare
SSS: Si può calcolare la moda (cioè frequenze relative) e l'entropia (cioè congiunte che marginale)
A questo raggruppamento riga, non del tutto categoria attraverso una coppia di categorie
Esempio
- C1 = promossi ad analisi
- C2 = bocciati ad analisi
- D1 = promossi a fisica
- D2 = bocciati a fisica
Modelli matematici che descrivono questi concetti
Variabile aleatoria = Formalità matematica di un esper. aleatorio i cui possibili esiti sono numeri
mediante la distribuzione di probabilità della variabile aleatoria (o f. di ripartizione/ del dens. di prob. accumulata)
Esempio 1
x = altezza studente
Fc(x) Densità distribuzione di probabilità
Ripartiz.
Densità di prob.
FORMULE DA SAPERE AL FLY!
- E(ax+b)=aE(x)+b
- var(ax+b)=a2 var(x)
- sd(ax+b)=|a| sd(x)
STANDARDIZZAZIONE DI V.A.
- standard = X (variabile al.) con E(X)=0 e Var(X)=1
- standardizzazione di x = trasf x : E(x)=0, Var(x)=1
Obiettivo: confrontare medie non commensurabili → le misure standardizzate sono adimensionali
Esempio: peso → peso standardizzato altezza → altezza standardiz.
- peso st=+2 → il soggetto è 2 deviazioni standard sopra la media
- altezza st=-1 → il soggetto è 1 d.s. sotto la media
QUANTILE
- Q1, Q2, Q3 = QUARTILI
α-quantile superiore di x = valore che lascia α a destra (/sinistra: inferiore)
varianza: var(X) = 12p(1-p) + 12p(1-p) + ... = np(1-p). var(X) ∈ [0, n⁄4]
esercizio: Scatole con 10 viti
P(C difett) = 0,01
- Prob che in 1 scatola ci siano almeno 2 viti difettose. Cioè che ce ne siano 2...10 [0,0043 con la Binomiale]
- Compro 3 scatole Prob che in una scatola ci siano almeno 2 difettose e nelle altre due ce ne siano 0 o 1 [0,013 con la Binomiale]
Risoluzione
- P(≥2)ᵢ = 1-(0,99)10-(0,99)9(0,01) = 0,00427
- P(≥1) = 1-P(≥2†)
- P(≥1) - P(≥2†) = 0,0127
posizioni permutazioni
FX(x1) = FZ(z - μ/σ)
F(x1) = φ(z)
zα (alpha-quantile) = μ + zασ
σ2 (1-α)
NB z0,05 = 1,645
z0,025 = 1,96
esempi dal POS (cop S)
X = precipitazioni annuali in un bacino idrografico ~ N (12,08 in, 3,12 in2)
- probabilita' che il totale pioggia 2022 + 2023 sia maggiore di 25 in
X2022 + X2023 ~ N (2 · 12,08 in, 2 · 3,12 in2) = N (24,16 in, 19,22 in2)
P(X2022 + X2023 > 25) = P(Z · 25 - 24,16/√19,22) = P (Z > 0,1916) = 1 - φ(0,1916) = 0,42
errore comune: X1 + X2 = 2X ~ N (2μ, 4μ2)
L ERRORE
- probabilita’ che le precipitazioni del 2022 superino quelle del 23 di almeno 3 in
X2022 + X2023 ~ N (0, 3,12 + 3,12) = N (0, 19,22)
non e' nulla
perche' X12 e X13
hanno stessa distrib., non sono uguali
P (X22 - X23 ≥ 3) = ... [0,25]
TEOREMA CENTRALE del LIMITE
- assunzioni simili a quello dei grandi numeri
- insieme alla legge dei grandi numeri, teorema più importante della statistica
Xi ~ iid f Xi=1,...,n tc E(c|Xi|) < + ∞ e var(Xi) < + ∞
E(X*) = μ var(X*) = σ2 / n
Xn - μ/σ/√n ∧ N
N (0,1)
Sn - μ / σ√n
N (0,1)
σ/√nn
N (0,1)
E (X*)
σ2 / n
σ / x√n Sn - n
N σ(N μ,σ)
∧ N(0,1)
positiva
∧ N(0,1)
(x1,...,xn) → Θ “teta cappuccio”
noto a meno del valore di uno o piu' parametri
- 3 possibili approcci:
- stima puntuale: (x1,...,xn) → T (estra) T0 = TΘ (stima del parametro)
stima intervallare: (x1,...,xn) → (θL,θU) int. di confidenza (stima dell'intervallo in cui cade il parametro)
- verifica delle ipotesi: C (x1,...,xn) rip H0
- (test di ipotesi)
- H0: Θ = Θ0
- non rif H0