vuoi
o PayPal
tutte le volte che vuoi
COMPONENTI BASE DELLA STATISTICA DESCRITTIVA
- CARATTERE: INFORMAZIONE DI INTERESSE
- UNITÀ STATISTICA: ENTITÀ ELEMENTARE A CUI SI RIFERISCONO LE INFORMAZIONI DI INTERESSE
- MODALITÀ DEL CARATTERE: MODO IN CUI IL CARATTERE SI MANIFESTA IN UNA PARTICOLARE UNITÀ STATISTICA
- COLLETTIVO STATISTICO: L'INSIEME DELLE UNITÀ STATISTICHE OMOGENEE RISPETTO A QUALCHE CIRCOSTANZA DI INTERESSE
ESEMPIO:
CLASSIFICA DEI MARCATORI DI SERIE A
- CARATTERE: NUMERO DI GOL SEGNATI
- POPOLAZIONE: TUTTI I GIOCATORI DELLE SQUADRE DI SERIE A
- UNITÀ STATISTICA: OGNI SINGOLO GIOCATORE
- MODALITÀ: NUMERO INTERO > 0
CARATTERI
QUALITATIVI QUANTITATIVI
CONNESSI ORDINE: LICENZA MEDIA, DIPLOMA SUP., LAUREA, ECC.
ORDINATI DISTRIBUTORI DI FREQUENZA
DISCRETI (MODALITÀ F): NUMERO ARRIVI A TIVOLI
CONTINUI (MODALITÀ R): ALTEZZA, PESO, ECC.
SIMBOLOGIA
- FREQUENZA ASSOLUTA: ni
- FREQUENZA RELATIVA: fi = ni / N
- FREQUENZA PERCENTUALE: pi = fi . 100
- AMPIEZZA DELLA CLASSE: αi = (Ci+1 - Ci)
- DENSITÀ ASSOLUTA: Hi = ni / αi
- DENSITÀ RELATIVA: hi = fi / αi
- DENSITÀ PERCENTUALE: hi% = pi / αi
- FREQUENZE CUMULATE ASSOLUTE: Nk = n1 + n2 + ... + nk
- FREQUENZE CUMULATE RELATIVE: Fk = f1 + f2 + ... + fk = Nk / N
N.B. LE FREQUENZE CUMULATE RELATIVE POSSONO ESSERE RAPPRESENTATE GRAFICAMENTE DANDO LUOGO ALLA FUNZIONE DI RIPARTIZIONE
SERIE STORICA: PARTICOLARE DISTRIBUZIONE SEMPLICE IN CUI I DATI SONO DISTRIBUITI IN BASE AL TEMPO (ES. ANNO)
SERIE SPAZIALE: CASO PARTICOLARE DI DISTRIBUZIONE SEMPLICE IN CUI I DATI SONO DISTRIBUITI IN BASE ALLO SPAZIO (ES. REGIONI ITALIANE)
Funzione di Ripartizione
Caratteri Quantitativi Discreti con Modalità Non Raggruppate
- x: 0 | ni: 7 | fi: 0,35
- x: 1 | ni: 4 | fi: 0,2
- x: 2 | ni: 1 | fi: 0,05
- x: 3 | ni: 5 | fi: 0,25
- x: 4 | ni: 2 | fi: 0,1
- x: 5 | ni: 1 | fi: 0,05
Carattere Quantitativo con Modalità Raggruppate in Classi
CLASSI DI ETÀ ni fi Ni Fi hi 10-30 6 0,30 6 0,15 30-50 7 0,35 13 0,0175 50-70 4 0,20 17 0,015 70-90 3 0,15 20 0,0075TOT: 20 | 1
Possiamo dire quale è la percentuale degli individui d'età compresa tra 30 e 70 anni?
FA = 0,85 − 0,30 = 0,55
5% / 2
Possiamo calcolare:
F(10) = 0
F(30) = 6/20 = 0,30
F(90) = (6 + 7 + 4 + 3) / 20 = 1
Ma se voglio trovare un dato che si trova all'interno di una classe e non ai suoi estremi utilizzo la seguente formula:
F(x) = Fi−1 + hi(x − ci−1)
Formula
Esempio:
F(20) = F(10) + 0,015( x − 10 ) = 0 + 0,015 x (15)
= 0,015 x 20 − 0,05 x 3 = 0,015 x 19 = 0,3
Es. Qual è la percentuale di età compresa tra 38 e 55 anni?
F(38) = F(30) + 0,0175 (38 − 30) =
= 0,3 + 0,07 x 5 = 0,44
F(55) = F(50) + 0,015 (55 − 50) =
= 0,65 + 0,05 = 0,7
Risposta:
F(55) − F(38) = 0,26
26%
Proprietà (condizioni di coerenza)
1. Un valore medio M è consistente se data una distribuzione x1, x2, x3, ... xn →
2. Monotono se, date 2 distribuzioni unitarie x &y=. Si ha che x1x →
→ M(x) < M(y) (y è statisticamente più grande) →
← Debolmente monotono se M(x) ≈ M(y)
3. Internalità. M è intesa se risulta xmin ≤ M ≤ xmax.
Proprietà fondamentali di un indice di variabilità
a) Quando tutte le unità hanno la stessa modalità l'indice deve essere nullo.
b) Il valore dell'indice di variabilità deve crescere al crescere della dispersione del carattere.
Variabilità intorno ad una media
Preso la media come riferimento si vuole calcolare di quanto le modalità dei caratteri del collettivo si discostano da essa.
La varianza è data dalla media del quadrato degli scarti dalla media aritmetica e si indica con σ².
Distribuzione unitaria
σ² = 1/NΣi=1N(xi - μ)² = 1/NΣi=1N(xi - 2xiμ + μ²) = …
Distribuzioni di frequenze
σ² = 1/NΣi=1N(xi - μ²)ni = …
Distribuzioni in classi di modalità (xi = Cini + Ci/2)
Proprietà della varianza
- La varianza è una quantità non negativa in quanto è una media di quadrati.
- G = 0 se e solo se tutte le unità hanno la stessa modalità (x1 = x2 = x3 = … = xn = x = …)
Scostamento (scarto) quadratico medio = Deviazione standard
Distribuzione unitaria
Distribuzione di frequenze
Distribuzioni in classi di modalità
Proprietà dello scostamento quadratico medio
- Lo scarto quadratico medio non varia al cambiamento di unità di misura e non risente traslazioni (si riflette anche sulla varianza)
Valori di sintesi delle distribuzioni doppie
Se X e Y sono qualitativi: ordinati → si calcola il punto mediano
Se X e Y sono entrambi quantitativi → si calcola il baricentro o punto medio
N.B.: Valgono le stesse regole del calcolo delle medie nelle distribuzioni semplici, anche distribuzioni in cui prendi il valore centrato.
Se X è qualitativo ordinato e Y quantitativo il valore di sintesi è un punto di coordinate (Me(x), My)
Se sono entrambi quantitativi si può calcolare un indice di variabilità che è un punto avente coordinate (σmx2, σmy2) cioè le rispettive varianze delle distribuzioni marginali.
Media di una distribuzione doppia
- X | Y = yj (X dato Y = yj)
- Y | X = xi
μxi0yi1 = 1/h ∑i=1s xi nij
μy|x=xi = 1/ni. ∑j=1t yj nij
Varianza condizionata
- X | Y = yj (X dato Y = yj)
- Y | X = xi (Y dato X = xi)
σx|y=yj2 = 1/n.j ∑i=1s (xi - μx|y=yj)2 nij = 1/n.j ∑i=1s xi2 nij - μx|y=yj2
σy|x=xi2 = 1/ni. ∑j=1t (yj - μy|x=xi)2 nij = 1/ni. ∑j=1t yj2 nij - μy|x=xi2
Per lo studio della dipendenza - indipendenza vedere schemi allegato.
Covarianza (formula nello schema) punta di misura (unità di misura x) * x (unità di x)
Trasformazione lineare X e Y
U = a*X + b*Y → trasforma → σuv = b*d*σxy