STAT. DESCRITTIVA
X = matrice dei dati
X = [xij]
elementi della matrice
- (non per forza numeri)
v2 = risultato blu
v1 = risultato rosso
x -> minuscolax -> maiuscola
campione = insieme unita' statistiche
righe -> omogeneecolonne -> non sempre omogenee
STAT. UNIVARIATA
1 sola colonna omogeneita' delle features
X =
(x1, x2, x3, .., xn) (Xi) i = 1,.. n
tipi di dati
Qualitativi (categorici)
nominali: (es. maschio/femmina) -> Xi e' una categoriaXi ∈ {c1, c2, ...}
ordinali: (es. taglie vestiti categorie che hanno un ordine)Xi ∈ {c1, c2, ... ck}con c1 ≤ c2 ≤ ... ≤ ck
Xi ∈ una categoria "ordinata"
Quantitativi (numerici)
discreti: Xi ∈ insieme finito/infinito numerabile e CR (es. eta’ angrafica) voto in 30esimi
continui: Xi ∈ insieme infinito e non numerabile e CR (cardinalita' infinita) tonalita’ infinita(es. temperatura stelle nella galassia)
STAT. DESCRITTIVA
X = matrice dei dati
X = [ xij ]
elementi della matrice
vz = risultato blu
v1 = risultato rosso
NB
x → minuscola
X → maiuscola
campione = insieme unità statistiche
STAT. UNIVARIATA
1 sola colonna omogeneità delle features
X -
(x1, x2, x3, ..., xn) (Xi) i = 1, ..., n
tipi di dati
Qualitativi (categorici)
- nominali: (es. maschio/femmina) → Xi è una categoriaXi ∈ {c1, c2, ...}
- ordinali: (es. taglie vestiti) categorie che hanno un ordine, → Xi ∈ {c1, c2, ..., ck}con c1 ≤ c2 ≤ ... ≤ ck
Quantitativi (numerici)
- discreti: Xi ∈ insieme finito/infinito numerabile e CR (es. età anagrafica) (voto in 30esimi)
- continui: Xi ∈ insieme infinito e non numerabile e CR (cardinalità infinita) (temperatura stelle nella galassia)
Indici Statistici
dati numerici
indici di posizione
- media campionaria: n1 ∑ i=1n xi (baricentro, migliore approssimazione deterministica dei dati)
indici di dispersione
- varianza campionaria: S2 = n-11 ∑ i=1n (xi - ∑)2 (quadrato perché >= sempre > 0 )
- deviazione standard campionaria: s = √ S2
→ Indici robusti (robusti rispetto alla presenza di outlier nel dataset)
- medie trimmed
- mediana campionaria = med(X)
dato un dataset di n punti, → se n = dispari, c'è un numero che divide in due parti di ugual peso il dataset
- Q1(X) = QX) = intervallo interquartile
Quartili Campionari
- Q1 (25%/75%)
- Q2 (50%/50%)
- Q3 (75%/25%)
dividono la nuvola di punti in 4 parti (25%) di igual peso
n = 3
0.25 = 1.75
Questi quartili possono essere punti/intervalli
- tendenzialmente punto centrale
dataset
Indici Statistici
dati categorici
x1, x2, x3, ... xn ∈ {C1, C2, ... Cs}
i = 1, ..., n g = 1, ..., G
numero dati
numero possibili categorie
Frequenze assolute campionarie
ng = n⁄i=1Σ 1xi = Cg
Funzione indicatrice
→ valore SE la condizione in input è vera, valore 0 se è falsa
NB
La somma delle Freq. ass. è n
G⁄g=1Σ ng = n
Frequenze relative campionarie
Fg = ng⁄n
→ proporzione di volte che ho osservato classe g-esima
NB
G⁄g=1Σ Fg = 1
Moda campionaria = valore che massimizza le frequenze assolute relative
fmoda = max Fg g= 1, ..., G
(se la maggior parte sono bocciati → fmoda = bocciato)
Entropia campionaria (Dispersione)
entropy = G⁄g=1Σ g2
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.