Statistica
La statistica studia il comportamento di fenomeni collettivi e di massa, organizza e descrive i dati di un certo fenomeno, cercando di trarre conclusioni generali sugli stessi.
Alcune definizioni...
Popolazione statistica: Insieme degli elementi che riguardano un determinato fen.
Unità statistica: Singolo elemento che appartiene alla popolazione.
Campione statistico: Parte o sottoinsieme della popolazione.
Osservazione: Lo specifico valore che il fenomeno assume in una determinata unità.
Variabile casuale = Fenomeno
Il Fenomeno
Quantitativo
- Discreto: I valori sono di un insieme discreto
- Continuo: Può assumere infiniti valori
Qualitativo
- Ordinale: I valori sono in ordine
- Categoria: I valori attribuiscono ai depen (es. No/F si)
Indagine statistica
Sperimentale
Su campione
Si accolgono idee
Statistica
Descrittiva: Oltre sintesi degli elementi.
Induttiva: Distribuzione dei valori di probabilità dei valori dell fen.
Statistica
x1, x2 ... xn n° osservazione
Dato: Popolazione di dimensione N
- H1, d1, d2 ... dk < k le modalità con cui il fen. si manifesta nella pop.
n = 9
120, 100, 250, 120, 125, 100, 252, 120, 252
le k est sono 100, 120, 125, 250, 252
k = 5 "nuove alienza"
➲ Xk valori distinti
Statistica
La statistica studia il comportamento di fenomeni collettivi e di massa, organizza e descrive i dati di un certo fenomeno, cercando di trarne conclusioni generali su di esso.
Alcune definizioni...
- Popolazione statistica: insieme degli elementi che riguardano un determinato fenomeno.
- Unità statistica: singolo elemento che appartiene alla popolazione.
- Campione statistico: parte o sottoinsieme della popolazione.
- Osservazione: lo specifico valore che il fenomeno assume in una determinata unità.
Il Fenomeno
- Quantitativo:
- Discreto: i valori sono in un insieme discreto
- Continuo: può assumere infiniti valori
- Qualitativo:
- Ordinale: i valori sono in ordine
- Categorico: i valori dell'insieme di categorie (es. note)
Indagine statistica
- Sospensione
- Si accapona idea
Statistica
- Descrittiva: oltre strumenata matematica.
- Induttiva: da distribuzione dei valori di probabilità dei valori del fenomeno.
Statistica
Dati: popolazione di dimensioni h1, d1, d2, ..., dk
x1, x2, ..., xn n° osservazioni
- n=9
- 120,100,250,120,125,100,252,120,252
xk valori distinti
- k k modalità
Ce test sono 100,120,125,250,252
k = 5 "nuova caliónia"
Frequenza assoluta
della generica modalità di:
i° osservazioni della popolazionedi = Fi = h∑i=1k Fi = N
- F(100) = 2
- F(110) = 3
- F(115) = 1
- F(150) = 1
- F(152) = 2
Frequenza relativa
fi = Fi / npercentuale dei casi∑i=1k fi = 1
- f1 = 2/9
- f2 = 3/9
- f3 = 1/9
- f4 = 1/9
- f5 = 2/9
Frequenza cumulata assoluta
n° oss ≤ diFc = F1 + F2 + F3 + ... + FiSomma delle freq. assolute delle modalità ≤ di∑i=1k Fc = N
- Fc1 = 2
- Fc2 = 5
- Fc3 = 6
- Fc4 = 7
- Fc5 = 9
Frequenza cumulata relativa
% n° oss ≤ diFc del minimo = 0
- fc = Fc / n
- Fc = Fi=1 + ... + Fi
Istogramma della freq
(disegno vel.)DENSITÀdi / di+1 di freq.Area deve essere proporzionale alla frequenza relativahi = A / (a - ai)
Indici statistici
MEDIA
media, mediana, moda, quartili
µ = somma sss / n
x pps: Indaco µ x complesso x
µ = (Σ xᵢ) / n
li = Σₖ fᵢ dᵢ / Σ fᵢ
li = f₁ d₁ + f₂ c₂ + ... + fₖ cₖ / h
media ponderata
- µ = (120 + 100 + 250 + 120 + 125 + 100 + 125 + 110 + 250) / 9
- li = (100 x 2) + (120 x 3) + (125) + (250) + (2 x 25 x 2) / 8
- n = 10
- x1 = 176 x2 = 184 x3 = 177 x4 = 193 x5 = 194 x6 = 196 x7 = 199 x8 = 176 x9 = 179
- c1 = 173 c2 = 184 c3 = 193 c4 = 199 c5 = 239
- d1 = 3 d2 = 5 d3 = 7
- f1 = 1/10 f2 = 2/10 f3 = 3/10
- d5 = 39
- F1 = 1 F2 = 3 F3 = 6
- f5 = 2/10
ΣF = 10 = n ok
Σf = 1 ok
xᵢ - x + c x - t c x + c - c
(c x, cX, cX)
Traccia sulla media
k1, x2 ... xn, µ
media ponderata
Ad ogni osservazione assegni importance diversa ρ1, ρ2, ρn
gip = (Σ pᵢ xᵢ) / Σ pᵢ
- Informatica voto 27 P1 = 2
- Statistica voto 30 P2 = 1
voto = ((27 x 2) + (30 x 1)) / 3 = 28
MEDIANA
(L'en parlato) È il valore del primo ordine il numero di osservazioni pari
- se n oss è PARI — non c'è val centrale — ferma media dei 2 c.x. centrali
- se n oss è DISPARI — ferma il valore che cade
- 62 28 90 62 73 80 32 96 36 MIO FERI!
- 28 8 96 62 in orcine
- bordo ferie ferie + pstruvium
MODA
А 90 è 28
QUARTILE - divide in 4 il numero delle oss
DECILE - divide in 10 il n oss
PERCENTILE - "100"
Indici di dispersione
1. Campo di variazione
2. Scarto per mezzo assoluto
3. Varianza
(scarto quadratico medio)
4. deviazione standard
Campo di variazione
R differenza tra l'oss + grande e + piccola R = Xmax - Xmin
Scarto
rispetto ad un'osservazione xi Si = xi - gx numeri >= i
di = k · di
di = ΣSi/n = 0
d'amo = (xi - gx)
gx = Σxi/n
Scarto medio-assoluto
è il medio degli scarti assoluti
Varianza
σ2= S12 S22 Sn2
σ = √(Σ(xi - gx)2/n)
σ2
Minore è la varianza, meno i dati sono dispersi
La varianza è una misura quadratica - Se le oss sono in cm σ² è in cm² - si esprime radice.
♀ Deviazione standard o scarto quadr. medio
♂ EsempioAnna = 30, 30, 28, 30, 26Stefano = 21, 30, 30, 30, 30
Più variabili
Oss. con n variab. i fenomeni - abbiamo coppie di osservazioni (Xi, Yi).
Esempio
- n = 6
- h176158145167171
- kg6542436457
si nota che Sh, kg
cov (h, kg) = 133.9
osservare
Covarianza
\(\mu_x = \frac{\sum x_i}{n}\)
\(\mu_y = \frac{\sum y_i}{n}\)
\(\text{COV}(x,y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu_x)(y_i - \mu_y)\)
Se cov > 0 al crescere di x cresce anche y
Se cov < 0 al crescere di x decresce y
\(\text{COV}(x,x) = \sigma^2_x\)
\(\text{COV}(x,y) = \text{COV}(y,x)\) ASIMMETRICA
MATRICE DI COVARIANZA
- \(x \quad \sigma^2_x \quad \text{cov}(x,y)\)
- \(y \quad \text{cov}(y,x) \quad \sigma^2_y\)
\(x\)
\(y\)
valori pari di cov indicano l'energia fra le 2 var.
cov = 0 variabili non hanno legame
Coefficiente di correlazione lineare
Quando le variabili saranno su una retta
\(r_{xy} = \frac{\text{cov}(x,y)}{\sigma_x \sigma_y}\) asimm
\(r_{xx} = \frac{\sigma^2_x}{\sigma^2_x} = 1\)
\(-1 \leq r_{xy} \leq 1\)
I valori
\(r = +1\)
\(r = -1\)
\(r = 0\)
variabili sono legate secondo una retta con m > 0
variabili sono legate secondo una retta con m < 0
indipendenza tra le due variabili
MATRICE
- \(x \quad \sigma^2_x \quad \text{cov}(x,y)\)
- \(y \quad \text{cov}(y,x) \quad \sigma^2_y\)
- \(x \quad r_{xy}\)
- \(y \quad r_{yx} \quad 1\)
un esempio pr.: \(\text{cov}(x,y) = 13.3\)
\(\sigma_x = 12.13 \quad \sigma_y = 12\)
\(r_{xy} = \frac{13.3}{12 \times 12.13}\)
\(r = 0.92\)
\(\text{calc}\) \(0.92\)
Esercizio di esame Rispondi con V e F, motivando
- La f.c. e' sempre >1 F e' sempre 0
- - tutta l'area sotto a p(x) deve essere = 1 ...
- - l'area sotto a un ... (finito) ...
- P(x ≤ k) = Pc(k)
- se x → ±∞ Pc(x) → 1
- P(x ≥ k) = 1 - Pc(k)
- P(c(kc) = Pc(h) da val. compreso
- pc(x) = 0 x < a
- pc(x) = x-a/b-a a < x < b
- pc(x) = 1 x > b
- di scegliere un ombrellone < 100 cm
- di "" " " compreso tra 200 e 400 cm
... VALORE ATTESO E(x) o medio ...
VARIANZA
Var(x)
Var(x) = ∫-∞+∞ (x - E(x))2 p(x) dx
Var(x) = ∑i=1q (xi - E(x ))2 ρ(xi)
PROBABILITÀ CUMULATA
Pc(x) = ∫-∞x ρ(y) dy
fornisce la probabilità di avere un valore minore o uguale a x
MEDIANA
Pc(Xm) = ∫-∞+∞ p(x) dx = 0,5 (2˚caratt. d'un prob.)
MODA
valore a cui corrisponde un massimo della p(x) determinata dalle iterazioni dei max var.
NB! P(x ≤ b) - P(x ≤ h) P(x ≤ b) P(x ≤ h)
Distribuzione Uniforme
P(x) = 1/b-a a ≤ x ≤ b
ρ(x) = 0 x ≤ a x > b
Seguita da una var. continua in [a,b]
Δ=1
E(x) = Xm = a+b/2
Var(x) = σ2 = (b-a)2/12
Esercizio
L'ombrellone (cm) con cui si misurano le durate di vita sperimentali è distribuito secondo una uniforme con parametro a = 100 e b = 500. Calcula prob.
Mi manca p(x) = 1/b-a = 1/400
400-200/400 = 0,5
Distribuzione normale o Gaussiana
P(x) = 1/σ√2π e -(x-µ)2/2σ2
∞ <= x <= ±∞
La normale è simmetrica e asimmetrica
Valore ≈ µ dev. standard: σ
μ = x = modo
Intorno al σ i valori sono più densi attorno ad µ
Intervallo amplia 2σ
Area = 0.68
Distribuzione normale standard
µ = 0
σ = 1
P(z) = 1/√2π e -z2/2
-∞ < z < +∞