i STATISTICADES.CI
lTtVA 25
Settembre
La statistica fornisce gli strumenti che consentono di analizzare un fenomeno nella popolazione oggetto di studio e il
suo obiettivo è quello di individuare le caratteristiche fondamentali di tale fenomeno.
La statistica descrittiva prende in considerazione un’intera popolazione di cui, attraverso un censimento, vengono
raccolti dei dati che saranno poi analizzati.
Popolazione o Collettivo Statistico (U)= insieme delle unità statistiche
Unità statistiche ( )= singole unità della popolazione
mi
Fenomeno o Variabile Statistica (X)= fenomeno di interesse distribuito presso le unità statistiche
Insieme dei dati grezzi o Insieme dei dati elementari = insieme degli N dati
Xi
X Yin
mln ultimi
raccolti presso le unità statistiche.
Supporto della variabile ( ) = insieme delle modalità possibili della variabile
Sx in
Xi
Le scale di misura sono modi attraverso i quali si rileva il fenomeno all’interno della popolazione. Dalla tipologia di scala
di misura utilizzata derivano le classificazioni delle variabili statistiche in quanto le 4 fondamentali scale di misura
differiscono in base al loro grado di precisione.
scaledimisurati
Le principali scale di misura sono:
1) SCALA NOMINALE
È la scala che stabilisce solo se due variabili sono uguali o diverse.
X
2 X'e Ha
2) SCALA ORDINALE
È la scala che in aggiunta alla scala nominale, stabilisce anche se una delle due osservazioni precede o succede l’altra.
X
1
2 X'e Ha
InElia
3
3) SCALA INTERVALLARE
È la scala che in aggiunta alla scala ordinale, quantifica anche la differenza tra due osservazioni.
Nota: è necessario che le variabili siano numeriche.
Xi t'a
X'a Xi
1 4
X'e
2 Ha
Elia
In
3
Inoltre in questo caso l’origine della scala viene fissato in modo soggettivo (non naturale).
Esempio: X=temperatura città ; considero le città A e B. Per misurare la temperatura si possono usare più metodi come Celsius o Kelvin
E
io domanda: la temperatura in B è doppia rispetto ad A? NO, perché dipende dalle scale di
273 278 283
t t misura utilizzate
B
a
città città
4) SCALA PROPORZIONALE (O DI RAPPORTO)
È la scala che, in aggiunta alla scala intervallare, stabilisce il rapporto tra le osservazioni cioè l’intensità di quanto una
differisce dall’altra.
Xi t'a
X'a Xi
4
1 ti
2 Ha 5
3 1h E
Nota: il rapporto è calcolabile perché in questo caso l’origine è fissata in modo naturale.
cassificazionedenevariabilistatisti 26 Settembre
In base alla scala di misura utilizzata seguono due categorie di variabili:
• VARIABILI QUALITATIVE: esse esprimono una qualità dell’unità statistica. Si distinguono tra:
- NOMINALI
- ORDINALI
• VARIABILI QUANTITATIVE: esse esprimono una quantità dell’unità statistica. Si distinguono tra:
- DISCRETE: sono frutto di un conteggio. Presentano un numero di modalità finito oppure infinito ma numerabile
- CONTINUE: sono frutto di una misurazione. Presentano un numero infinito di modalità e non numerabile. Esse
posso essere: - raggruppate in classi
- teoriche
2i
STRUMENTieopen.TO sonnatoRiaEPRodutc
Sommatoria
La SOMMATORIA è un modo sintetico per indicare la somma di n numeri.
Xi In
12,113 lafine
della
indica somma
If
Xs
Xa
Xi in ti l'inizio
e della
indica somma
PROPRIETÀ DELLA SOMMATORIA:
1) Xe
se tn È
Xi a a ma
Anni
una
2) se È È
anni
ix a xix
i
a xn.in ma
3) se 1pm pin ftp.t Xnl p.ffXi
plX1t
pXi pXn
i
4) Xe Yi
Xm tn
se e È
FINI mi
linklyre
Ha iynl.mx
lxn
yi ri yi
5) Html
se pt
3Xnl nuove
È fXi
apud im p
Xix
di na
p
a
NOTA BENE: È È I
• Yil
lXi È
FINII t.is
xiyii
È
Xi
• Yi
Xi.yi
La produttoria è un modo sintetico per indicare il prodotto di n numeri.
Prodottonialgia
Essa non gode di proprietà generiche come la sommatoria tranne nel caso:
Xml lgf.fi
ti È
ti
18 boh
È
lenti egli µ
L’analisi statistica inizia con la RILEVAZIONE ciò con la misurazione del fenomeno X rispetto alla popolazione.
Dopo la rilevazione si effettua la SISTEMAZIONE DEI DATI cioè si va ad organizzare i dati dell’insieme dei dati grezzi e
questa operazione comprende 3 fasi:
1) DISTRIBUZIONE DI FREQUENZA
2) RAPPRESENTAZIONE GRAFICA
3) FUNZIONE DI RIPARTIZIONE
ANAUSIDEIDATINDISTRIBUZIONEDIFREQUENZAVI
La distribuzione di frequenza di un’indagine statistica è una tabella di due colonne:
• colonna sx: sono presenti i distinti elementi (cioè non si possono ripetere) dell’insieme dei dati grezzi.
L’insieme dei distinti elementi è detto supporto della variabile o del fenomeno mentre il generico elemento del supporto
della variabile è detto modalità della variabile ;
• colonna dx: sono presenti le frequenze assolute che indicano il numero delle volte che viene osservata la i-esima
modalità all’interno dell’insieme della variabile.
FREQUENZE ASSOLUTE
Xii
4
o
SUPPORTO
DELLA 8 X: numero di figli per famiglia
VARIABILE X. {1,1,2,1,0,1,0,1,2,2,2,1,2,0,1,2,3,2,01} N=20
e
MODALITÀ DELLA VARIABILE
PROPRIETÀ FREQUENZE ASSOLUTE:
• 70
mi
EI
mi n
• (condizione di normalizzazione) mi
pi
FREQUENZE RELATIVE
n N
Xini.nu La frequenza relativa è una frequenza normalizzata ed è utile per
ai
4
o confrontare l’incidenza di una determinata modalità del supporto quando si
1 p o analizzano popolazioni con N differenti.
a
2 0,35 PROPRIETÀ FREQUENZE RELATIVE:
1 0,05
1
2 Pia
o
È (condizione di normalizzazione)
1
pi
Dimostrazione della condizione di normalizzazione per frequenze relative:
È Èn ne
Io
I 1
pi
Drappresentazionegratiti
• VARIABILE QUALITATIVA:
- diagramma circolare (A)
- diagramma a rettangoli distanziali (B)
mi
Xi angolo= frequenza relativa x 360
c µ
o.gl o
fa o
no µ
0µg µ Ooo
230,4 21,6
360
0,06
252 cnp as
occ
• VARIABILE QUANTITATIVA DISCRETA:
- diagramma per ordinata
mipi
Xi on
o io oro oro
non
e
a io o
a 0,08 i
i i
i i
s a
a
e
• VARIABILE QUANTITATIVA CONTINUA:
- istogramma osservato fi
no
xifi.fi
Xiii
mi
Xi pi ai.xi.n ops
o aria
noi 2.8 ftp.ff.fi
p p
p
non son
mago io a
60 oasi
a
ss
140,28 X
io io ho co
fi è la densità di frequenza detta così perché esprime quanto è concentrata la frequenza all’interno della classe.
PROPRIETÀ FUNZIONE DI DENSITÀ:
• fiso
k
• Cioè l’area sottostante la funzione di densità è pari a 1
f
E r
fidei
verificare la densità
di
della
di funzione
esempio normalizzazione
condizione
nexus
ai È
ÌÈdx di
8
nei
l caos Iei Iaia
ora i
aosta
is
0,2 q.ir
14iae.zo
o.z.io qos.is aos
qq.on.xa.i.r.ir
ag
La proporzione è un intervallo generico di valori della variabile.
= somma di tutte le frequenze relative all’interno dell’intervallo.
La funzione di ripartizione F(x) fa riferimento solo alle variabili numeriche. Essa è la funzione che associa ad ogni
valore la somma delle frequenze accumulate da a
Dunque, la funzione di ripartizione è definita su tutto l’asse dei reali.
È necessario, per il calcolo della funzione di ripartizione, che il supporto della variabile sia ordinato in modo crescente.
Def: F(x) è una funzione definita nell’insieme dei Reali che associa ad ogni elemento di questo insieme un numero tra 0
e 1. la funzione di ripartizione è la proporzione dei casi più piccoli o al massimo uguali al soggetto
considerato
La funzione di ripartizione F(x) di variabile discrete è una funzione a gradini e presenta dei salti in corrispondenza dei
valori cui è associata frequenza relativa non nulla.
Dall’esempio sottostante si vede che F(x) è calcolata per intervalli. Nel primo intervalli vale sempre F(x)=0 mentre
nell’ultimo intervallo F(x)=1. Ue Fui fetide
funziomedinipartizionedivariabili
In generale per le variabili continue su dustinguono 2 casi:
A) se i dati elementari sono noti allora si va ad utilizzare lo stesso medoto valido per le variabili discrete;
B) se la distribuzione di frequenza è nota ma i dati elementari non sono noti si utilizza l’integrale.
al
caso
caso
B 4
ottobre
PROPRIETÀ FUNZIONE DI RIPARTIZIONE: È
• F(x) è monotona non crescente Finished
ex
x
se
dimostrazione Patriarchi
pnlxsxd.pnlxc.nl
Fini I
Hai è
sempre
• him fine lim 1
Fin
o e
Xiao r 00
• Continuità da destra: hm Fui hai
at Nota:
se la variabile è continua allora F(x) è continua anche da sinistra
se la variabile è discreta allora si può verificare la continuità solo da destra.
• Legame con le frequenze relative: FIX
Fini
Phil Xi
X discreta Pala ti find
X continua b Fia
Fib
e fai
Esempio i
arts
o no
aix ones a
a a_
11
1 ha i l I
l bias
Palacio Figi
Richiesta flute
6,5 0,475
Xi Xiii Fuit fi
• Per Fuit devi
xii vale
ix fi.fi
che
w
I i
Renawennata coeficiente
angolare
Positivamente
Quasi
Il quantile è una costante indicata con Xp 0C poi
Il quantile divide la distribuzione in 2 sottoinsiemi: nel primo sottoinsieme c’è una frequenza di casi pari a mentre
P
nel secondo sottoinsieme c’è una frequenza dei casi pari a 1
p
P p
i as
p.o.sx.is 2
se sottoinsiemi
esempio as
io an
p.orsxo.rs a
se sottoinsiemi 1 0,75
0.25
Dati grezzi —> Distribuzione di frequenza—> Indice di posizione
L’indice di posizione è una sorta di compressione totale cioè un unico valore che esprime la totalità dei dati.
Argomenti:
- Medie potenziate
- media aritmetica
- media geometrica
- media armonica
- media quadratica
...
-Medie Lasche:
- quantili (mediana, quartili)
- moda
-momenti della variabile
-metodo di Chisini per la scelta della media potenziata
La media è una costante che ha lo scopo di sintetizzare la distribuzione di un fenomeno e deve anche rispondere a una
Indicidiposizionen
serie di vincoli imposti dalla natura del problema.
Esistono 2 approcci per la determinazione della media:
1) metodo del minimo danno;
2) metodo di Chisini.
1) METODO DEL MINIMO DANNO
Il metodo del minimo danno si occupa di determinare la costante di sintesi c in modo tale che la perdita di informazioni
(cioè il danno) sia la più piccola possibile.
Esempio: X={occ, occ, occ, occ, occ}
c = occ in questo caso c’è sempre coincidenza tra le 5 osservazioni e la c quindi la costante c
riassume perfettamente il problema. Si dice che la sintesi è avvenuta in modo perfetto senza perdita di
informazioni
X={occ, occ, occ, occ, dis}
c = occ in questo caso non si ha una sintesi perfetta
DANNO= g (Xi, c) 2 casi:
-DANNO= g (Xi, c)= 0 se X’i=c Se gh'i
danno c
-DANNO= g (Xi, c)>0 se X’i≠ c totale
X= {occ, occ, occ, dis, cnp, cnp, cnp, cnp}
esempio
rimino S= g(occ, c)+ g(occ, c)+ g(occ, c)+ g(dis, c)+ g(cnp, c)+ g(cnp, c) +g(cnp, c) +g(cnp, c)=
3 = 3g(occ, c)+ 1g(dis, c)+ 4g(cnp, c)
µ 4
ne e genericanosauia.aeuavaaaa.ee
operazione xs
n n
S'È È
givi giri mi
c
c
quindi È È
S glxi.cl qui pi
c cioè invece che minimizzare su c si preferisce usare S’
2
casi ci ii
giri e
se
i gcxi.ci ti e
so se
A questo punto è necessario esplicitare il valore del danno. Esistono vari metodi.
Primo metodo per esplicitare il danno (segue: moda) 9
ottobre
giù ii
o se
c e
giri vi e
e se
c 1
esempio I
S
occasi 1 o a
gis.ais
disse
ora
S'egioco
se 0,50
diso.is c isis 0,37 0,87
caso
gicnp.us
riposo i 1 o
aso
S'egiococnet.asa ais
cup gldis.cnai.qis.io o
a3a
e se a dannato
minore
valore
Nota: ogni S’ è dato dalla differenza tra la somma di tutte le frequenze relative (=1) e la frequenza della modalità che è
stata scelta come costante c: È
S 1
pi
se ci Po
Xp Funzione
dannoglobale i
i si
S’ è minima quando si sceglie la costante c con la frequenza relativa massima a piè
max
minimo MODA
Moda: variabili qualitative
La moda è il valore della X tale che la sua frequenza relativa è massima.
Essa è l’unica costante che può essere calcolata per le variabili qualitative.
Difetti:
1) ci possono essere distribuzioni con più mode;
2) ci possono essere distribuzioni senza moda perché la moda corrisponde a tutto il supporto.
Moda: variabili continue
La moda di una variabile continua è la classe che ha la densità di frequenza più alta detta classe modale.
Moda: variabili teoriche
La moda di una variabile teorica è il massimo della funzione di densità f(x).
È dunque necessario studiare la funzione f(x).
Metodo grafico: disegnare il grafico della f(x) e vedere dov’è il massimo
Metodo analitico:
1) calcolare la derivata prima cioè f’(x)
2) risolvere f’(x)>0
Secondo metodo per esplicitare il danno (solo variabili numeriche) (segue: mediana)
c
ti
giri o
c se r
Zhi
S ci pi
i i
4
giri Xi
c ti e
se
In questo secondo metodo il danno viene calcolato in modo proporzionale.
Per semplificare le derivate viene tolto il valore assoluto:
ti e ti e
se
lti.cl rise
se
Xi c
Ll In Xx
S'e d Hi
xi È
pi
c È pi
PK
lxi.ci.pe c c pi
0c.pi
ficxi.pi pi
piu eri e
e
un e'un
numero a
c numero numero numero
aeriuataaimmumoo.io
M
M
II È
fieri
o o
ai c
derivata numero f Di
0,5
Fcc
pi mediana
Quantile
as
pi
pongo
studio Della
i segni derivataprima
È.fi s
Epi co
se as s'a
Epi sei
se so
xix
via as
Epi sei s
se ae
na na
Mediana
La mediana è il valore del supporto che taglia a metà la distribuzione.
Essa è un quantile.
La mediana è il primo valore del supporto per cui la funzione di distribuzione è pari o superiore a 0.5.
Def: sia X una variabile numerica il cui supporto è ordinato in maniera crescente. La mediana della variabile X è il più
piccolo valore del supporto tale che la funzione di ripartizione in quel punto è maggiore o uguale a 0,5.
Analiticamente si ha che: sx finto
e
è xi 5
min
mediana
Mediana: variabili continue
Procedimento:
1) individuare la classe dove cade la mediana
2) F(x)=0.5 cioè eguagliare la funzione di ripartizione a 0.5
Nota: tale procedimento vale per tutti i quantili nel caso di variabili continue cioè bisogna eguagliare la funzione di
ripartizione con il valore della frequenza cumulata espressa dal quantile stesso.
Mediana: variabili discrete
caso: infiniti valori di mediana
I 4 5
2
1 c=mediana= 3 ma in generale vale che la mediana è qualsiasi infinito valore tra 3 e
i
t 4 cioè [3,4) perché in tale intervallo vale F(x)=0,5
nota: in questi casi conviene sempre scegliere il valore più piccolo di mediana
caso: non esiste la mediana
Xiii
pi condizionenormalizzazione
1
ftp
or
or
or or
or
f i
si
siasi
s'cos'io
1 1
ti primavolta
sputa
3 tasso
anchedove
ed
e è
minimo
3
e mediana
Terzo metodo per esplicitare il danno (segue media aritmetica)
giti c o ti e
se ti
giri e
c so se È
S
ci Ivi.cl
Iii
giri pi
gixi.ci
c pidaI
fki pitD pi
c
2 2 flxi c
II ai
o pi.co
È poi
xi.pi.ci
c'i.fm.pe Ehi
aritmetica
media µ
MEDIA ARITMETICA
• è la media potenziata di ordine S=1; mi m
• è il valore atteso (expected) della variabile. Eni
Calcolo media aritmetica noti i dati grezzi
taxi
µ 2
4 ne
4,5
1112,2
in 2
esempio somma
Calcolo media aritmetica nota la distribuzione di frequenza
mi
Xi È tipi vinixinipixi
µ esempio 3
3 as
or
i E 2,7
µ io
o
s o
a o
8
2 or
4 or
e io
s e
o
a
iv io zia
Calcolo della media aritmetica di variabili teoriche fia
Inizialmente si svolge un calcolo approssimato che poi viene raffinato. Ir
111
1) divido il supporto in classi contigue
h=numero di classi i
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.