Estratto del documento

i STATISTICADES.CI

lTtVA 25

Settembre

La statistica fornisce gli strumenti che consentono di analizzare un fenomeno nella popolazione oggetto di studio e il

suo obiettivo è quello di individuare le caratteristiche fondamentali di tale fenomeno.

La statistica descrittiva prende in considerazione un’intera popolazione di cui, attraverso un censimento, vengono

raccolti dei dati che saranno poi analizzati.

Popolazione o Collettivo Statistico (U)= insieme delle unità statistiche

Unità statistiche ( )= singole unità della popolazione

mi

Fenomeno o Variabile Statistica (X)= fenomeno di interesse distribuito presso le unità statistiche

Insieme dei dati grezzi o Insieme dei dati elementari = insieme degli N dati

Xi

X Yin

mln ultimi

raccolti presso le unità statistiche.

Supporto della variabile ( ) = insieme delle modalità possibili della variabile

Sx in

Xi

Le scale di misura sono modi attraverso i quali si rileva il fenomeno all’interno della popolazione. Dalla tipologia di scala

di misura utilizzata derivano le classificazioni delle variabili statistiche in quanto le 4 fondamentali scale di misura

differiscono in base al loro grado di precisione.

scaledimisurati

Le principali scale di misura sono:

1) SCALA NOMINALE

È la scala che stabilisce solo se due variabili sono uguali o diverse.

X

2 X'e Ha

2) SCALA ORDINALE

È la scala che in aggiunta alla scala nominale, stabilisce anche se una delle due osservazioni precede o succede l’altra.

X

1

2 X'e Ha

InElia

3

3) SCALA INTERVALLARE

È la scala che in aggiunta alla scala ordinale, quantifica anche la differenza tra due osservazioni.

Nota: è necessario che le variabili siano numeriche.

Xi t'a

X'a Xi

1 4

X'e

2 Ha

Elia

In

3

Inoltre in questo caso l’origine della scala viene fissato in modo soggettivo (non naturale).

Esempio: X=temperatura città ; considero le città A e B. Per misurare la temperatura si possono usare più metodi come Celsius o Kelvin

E

io domanda: la temperatura in B è doppia rispetto ad A? NO, perché dipende dalle scale di

273 278 283

t t misura utilizzate

B

a

città città

4) SCALA PROPORZIONALE (O DI RAPPORTO)

È la scala che, in aggiunta alla scala intervallare, stabilisce il rapporto tra le osservazioni cioè l’intensità di quanto una

differisce dall’altra.

Xi t'a

X'a Xi

4

1 ti

2 Ha 5

3 1h E

Nota: il rapporto è calcolabile perché in questo caso l’origine è fissata in modo naturale.

cassificazionedenevariabilistatisti 26 Settembre

In base alla scala di misura utilizzata seguono due categorie di variabili:

• VARIABILI QUALITATIVE: esse esprimono una qualità dell’unità statistica. Si distinguono tra:

- NOMINALI

- ORDINALI

• VARIABILI QUANTITATIVE: esse esprimono una quantità dell’unità statistica. Si distinguono tra:

- DISCRETE: sono frutto di un conteggio. Presentano un numero di modalità finito oppure infinito ma numerabile

- CONTINUE: sono frutto di una misurazione. Presentano un numero infinito di modalità e non numerabile. Esse

posso essere: - raggruppate in classi

- teoriche

2i

STRUMENTieopen.TO sonnatoRiaEPRodutc

Sommatoria

La SOMMATORIA è un modo sintetico per indicare la somma di n numeri.

Xi In

12,113 lafine

della

indica somma

If

Xs

Xa

Xi in ti l'inizio

e della

indica somma

PROPRIETÀ DELLA SOMMATORIA:

1) Xe

se tn È

Xi a a ma

Anni

una

2) se È È

anni

ix a xix

i

a xn.in ma

3) se 1pm pin ftp.t Xnl p.ffXi

plX1t

pXi pXn

i

4) Xe Yi

Xm tn

se e È

FINI mi

linklyre

Ha iynl.mx

lxn

yi ri yi

5) Html

se pt

3Xnl nuove

È fXi

apud im p

Xix

di na

p

a

NOTA BENE: È È I

• Yil

lXi È

FINII t.is

xiyii

È

Xi

• Yi

Xi.yi

La produttoria è un modo sintetico per indicare il prodotto di n numeri.

Prodottonialgia

Essa non gode di proprietà generiche come la sommatoria tranne nel caso:

Xml lgf.fi

ti È

ti

18 boh

È

lenti egli µ

L’analisi statistica inizia con la RILEVAZIONE ciò con la misurazione del fenomeno X rispetto alla popolazione.

Dopo la rilevazione si effettua la SISTEMAZIONE DEI DATI cioè si va ad organizzare i dati dell’insieme dei dati grezzi e

questa operazione comprende 3 fasi:

1) DISTRIBUZIONE DI FREQUENZA

2) RAPPRESENTAZIONE GRAFICA

3) FUNZIONE DI RIPARTIZIONE

ANAUSIDEIDATINDISTRIBUZIONEDIFREQUENZAVI

La distribuzione di frequenza di un’indagine statistica è una tabella di due colonne:

• colonna sx: sono presenti i distinti elementi (cioè non si possono ripetere) dell’insieme dei dati grezzi.

L’insieme dei distinti elementi è detto supporto della variabile o del fenomeno mentre il generico elemento del supporto

della variabile è detto modalità della variabile ;

• colonna dx: sono presenti le frequenze assolute che indicano il numero delle volte che viene osservata la i-esima

modalità all’interno dell’insieme della variabile.

FREQUENZE ASSOLUTE

Xii

4

o

SUPPORTO

DELLA 8 X: numero di figli per famiglia

VARIABILE X. {1,1,2,1,0,1,0,1,2,2,2,1,2,0,1,2,3,2,01} N=20

e

MODALITÀ DELLA VARIABILE

PROPRIETÀ FREQUENZE ASSOLUTE:

• 70

mi

EI

mi n

• (condizione di normalizzazione) mi

pi

FREQUENZE RELATIVE

n N

Xini.nu La frequenza relativa è una frequenza normalizzata ed è utile per

ai

4

o confrontare l’incidenza di una determinata modalità del supporto quando si

1 p o analizzano popolazioni con N differenti.

a

2 0,35 PROPRIETÀ FREQUENZE RELATIVE:

1 0,05

1

2 Pia

o

È (condizione di normalizzazione)

1

pi

Dimostrazione della condizione di normalizzazione per frequenze relative:

È Èn ne

Io

I 1

pi

Drappresentazionegratiti

• VARIABILE QUALITATIVA:

- diagramma circolare (A)

- diagramma a rettangoli distanziali (B)

mi

Xi angolo= frequenza relativa x 360

c µ

o.gl o

fa o

no µ

0µg µ Ooo

230,4 21,6

360

0,06

252 cnp as

occ

• VARIABILE QUANTITATIVA DISCRETA:

- diagramma per ordinata

mipi

Xi on

o io oro oro

non

e

a io o

a 0,08 i

i i

i i

s a

a

e

• VARIABILE QUANTITATIVA CONTINUA:

- istogramma osservato fi

no

xifi.fi

Xiii

mi

Xi pi ai.xi.n ops

o aria

noi 2.8 ftp.ff.fi

p p

p

non son

mago io a

60 oasi

a

ss

140,28 X

io io ho co

fi è la densità di frequenza detta così perché esprime quanto è concentrata la frequenza all’interno della classe.

PROPRIETÀ FUNZIONE DI DENSITÀ:

• fiso

k

• Cioè l’area sottostante la funzione di densità è pari a 1

f

E r

fidei

verificare la densità

di

della

di funzione

esempio normalizzazione

condizione

nexus

ai È

ÌÈdx di

8

nei

l caos Iei Iaia

ora i

aosta

is

0,2 q.ir

14iae.zo

o.z.io qos.is aos

qq.on.xa.i.r.ir

ag

La proporzione è un intervallo generico di valori della variabile.

= somma di tutte le frequenze relative all’interno dell’intervallo.

La funzione di ripartizione F(x) fa riferimento solo alle variabili numeriche. Essa è la funzione che associa ad ogni

valore la somma delle frequenze accumulate da a

Dunque, la funzione di ripartizione è definita su tutto l’asse dei reali.

È necessario, per il calcolo della funzione di ripartizione, che il supporto della variabile sia ordinato in modo crescente.

Def: F(x) è una funzione definita nell’insieme dei Reali che associa ad ogni elemento di questo insieme un numero tra 0

e 1. la funzione di ripartizione è la proporzione dei casi più piccoli o al massimo uguali al soggetto

considerato

La funzione di ripartizione F(x) di variabile discrete è una funzione a gradini e presenta dei salti in corrispondenza dei

valori cui è associata frequenza relativa non nulla.

Dall’esempio sottostante si vede che F(x) è calcolata per intervalli. Nel primo intervalli vale sempre F(x)=0 mentre

nell’ultimo intervallo F(x)=1. Ue Fui fetide

funziomedinipartizionedivariabili

In generale per le variabili continue su dustinguono 2 casi:

A) se i dati elementari sono noti allora si va ad utilizzare lo stesso medoto valido per le variabili discrete;

B) se la distribuzione di frequenza è nota ma i dati elementari non sono noti si utilizza l’integrale.

al

caso

caso

B 4

ottobre

PROPRIETÀ FUNZIONE DI RIPARTIZIONE: È

• F(x) è monotona non crescente Finished

ex

x

se

dimostrazione Patriarchi

pnlxsxd.pnlxc.nl

Fini I

Hai è

sempre

• him fine lim 1

Fin

o e

Xiao r 00

• Continuità da destra: hm Fui hai

at Nota:

se la variabile è continua allora F(x) è continua anche da sinistra

se la variabile è discreta allora si può verificare la continuità solo da destra.

• Legame con le frequenze relative: FIX

Fini

Phil Xi

X discreta Pala ti find

X continua b Fia

Fib

e fai

Esempio i

arts

o no

aix ones a

a a_

11

1 ha i l I

l bias

Palacio Figi

Richiesta flute

6,5 0,475

Xi Xiii Fuit fi

• Per Fuit devi

xii vale

ix fi.fi

che

w

I i

Renawennata coeficiente

angolare

Positivamente

Quasi

Il quantile è una costante indicata con Xp 0C poi

Il quantile divide la distribuzione in 2 sottoinsiemi: nel primo sottoinsieme c’è una frequenza di casi pari a mentre

P

nel secondo sottoinsieme c’è una frequenza dei casi pari a 1

p

P p

i as

p.o.sx.is 2

se sottoinsiemi

esempio as

io an

p.orsxo.rs a

se sottoinsiemi 1 0,75

0.25

Dati grezzi —> Distribuzione di frequenza—> Indice di posizione

L’indice di posizione è una sorta di compressione totale cioè un unico valore che esprime la totalità dei dati.

Argomenti:

- Medie potenziate

- media aritmetica

- media geometrica

- media armonica

- media quadratica

...

-Medie Lasche:

- quantili (mediana, quartili)

- moda

-momenti della variabile

-metodo di Chisini per la scelta della media potenziata

La media è una costante che ha lo scopo di sintetizzare la distribuzione di un fenomeno e deve anche rispondere a una

Indicidiposizionen

serie di vincoli imposti dalla natura del problema.

Esistono 2 approcci per la determinazione della media:

1) metodo del minimo danno;

2) metodo di Chisini.

1) METODO DEL MINIMO DANNO

Il metodo del minimo danno si occupa di determinare la costante di sintesi c in modo tale che la perdita di informazioni

(cioè il danno) sia la più piccola possibile.

Esempio: X={occ, occ, occ, occ, occ}

c = occ in questo caso c’è sempre coincidenza tra le 5 osservazioni e la c quindi la costante c

riassume perfettamente il problema. Si dice che la sintesi è avvenuta in modo perfetto senza perdita di

informazioni

X={occ, occ, occ, occ, dis}

c = occ in questo caso non si ha una sintesi perfetta

DANNO= g (Xi, c) 2 casi:

-DANNO= g (Xi, c)= 0 se X’i=c Se gh'i

danno c

-DANNO= g (Xi, c)>0 se X’i≠ c totale

X= {occ, occ, occ, dis, cnp, cnp, cnp, cnp}

esempio

rimino S= g(occ, c)+ g(occ, c)+ g(occ, c)+ g(dis, c)+ g(cnp, c)+ g(cnp, c) +g(cnp, c) +g(cnp, c)=

3 = 3g(occ, c)+ 1g(dis, c)+ 4g(cnp, c)

µ 4

ne e genericanosauia.aeuavaaaa.ee

operazione xs

n n

S'È È

givi giri mi

c

c

quindi È È

S glxi.cl qui pi

c cioè invece che minimizzare su c si preferisce usare S’

2

casi ci ii

giri e

se

i gcxi.ci ti e

so se

A questo punto è necessario esplicitare il valore del danno. Esistono vari metodi.

Primo metodo per esplicitare il danno (segue: moda) 9

ottobre

giù ii

o se

c e

giri vi e

e se

c 1

esempio I

S

occasi 1 o a

gis.ais

disse

ora

S'egioco

se 0,50

diso.is c isis 0,37 0,87

caso

gicnp.us

riposo i 1 o

aso

S'egiococnet.asa ais

cup gldis.cnai.qis.io o

a3a

e se a dannato

minore

valore

Nota: ogni S’ è dato dalla differenza tra la somma di tutte le frequenze relative (=1) e la frequenza della modalità che è

stata scelta come costante c: È

S 1

pi

se ci Po

Xp Funzione

dannoglobale i

i si

S’ è minima quando si sceglie la costante c con la frequenza relativa massima a piè

max

minimo MODA

Moda: variabili qualitative

La moda è il valore della X tale che la sua frequenza relativa è massima.

Essa è l’unica costante che può essere calcolata per le variabili qualitative.

Difetti:

1) ci possono essere distribuzioni con più mode;

2) ci possono essere distribuzioni senza moda perché la moda corrisponde a tutto il supporto.

Moda: variabili continue

La moda di una variabile continua è la classe che ha la densità di frequenza più alta detta classe modale.

Moda: variabili teoriche

La moda di una variabile teorica è il massimo della funzione di densità f(x).

È dunque necessario studiare la funzione f(x).

Metodo grafico: disegnare il grafico della f(x) e vedere dov’è il massimo

Metodo analitico:

1) calcolare la derivata prima cioè f’(x)

2) risolvere f’(x)>0

Secondo metodo per esplicitare il danno (solo variabili numeriche) (segue: mediana)

c

ti

giri o

c se r

Zhi

S ci pi

i i

4

giri Xi

c ti e

se

In questo secondo metodo il danno viene calcolato in modo proporzionale.

Per semplificare le derivate viene tolto il valore assoluto:

ti e ti e

se

lti.cl rise

se

Xi c

Ll In Xx

S'e d Hi

xi È

pi

c È pi

PK

lxi.ci.pe c c pi

0c.pi

ficxi.pi pi

piu eri e

e

un e'un

numero a

c numero numero numero

aeriuataaimmumoo.io

M

M

II È

fieri

o o

ai c

derivata numero f Di

0,5

Fcc

pi mediana

Quantile

as

pi

pongo

studio Della

i segni derivataprima

È.fi s

Epi co

se as s'a

Epi sei

se so

xix

via as

Epi sei s

se ae

na na

Mediana

La mediana è il valore del supporto che taglia a metà la distribuzione.

Essa è un quantile.

La mediana è il primo valore del supporto per cui la funzione di distribuzione è pari o superiore a 0.5.

Def: sia X una variabile numerica il cui supporto è ordinato in maniera crescente. La mediana della variabile X è il più

piccolo valore del supporto tale che la funzione di ripartizione in quel punto è maggiore o uguale a 0,5.

Analiticamente si ha che: sx finto

e

è xi 5

min

mediana

Mediana: variabili continue

Procedimento:

1) individuare la classe dove cade la mediana

2) F(x)=0.5 cioè eguagliare la funzione di ripartizione a 0.5

Nota: tale procedimento vale per tutti i quantili nel caso di variabili continue cioè bisogna eguagliare la funzione di

ripartizione con il valore della frequenza cumulata espressa dal quantile stesso.

Mediana: variabili discrete

caso: infiniti valori di mediana

I 4 5

2

1 c=mediana= 3 ma in generale vale che la mediana è qualsiasi infinito valore tra 3 e

i

t 4 cioè [3,4) perché in tale intervallo vale F(x)=0,5

nota: in questi casi conviene sempre scegliere il valore più piccolo di mediana

caso: non esiste la mediana

Xiii

pi condizionenormalizzazione

1

ftp

or

or

or or

or

f i

si

siasi

s'cos'io

1 1

ti primavolta

sputa

3 tasso

anchedove

ed

e è

minimo

3

e mediana

Terzo metodo per esplicitare il danno (segue media aritmetica)

giti c o ti e

se ti

giri e

c so se È

S

ci Ivi.cl

Iii

giri pi

gixi.ci

c pidaI

fki pitD pi

c

2 2 flxi c

II ai

o pi.co

È poi

xi.pi.ci

c'i.fm.pe Ehi

aritmetica

media µ

MEDIA ARITMETICA

• è la media potenziata di ordine S=1; mi m

• è il valore atteso (expected) della variabile. Eni

Calcolo media aritmetica noti i dati grezzi

taxi

µ 2

4 ne

4,5

1112,2

in 2

esempio somma

Calcolo media aritmetica nota la distribuzione di frequenza

mi

Xi È tipi vinixinipixi

µ esempio 3

3 as

or

i E 2,7

µ io

o

s o

a o

8

2 or

4 or

e io

s e

o

a

iv io zia

Calcolo della media aritmetica di variabili teoriche fia

Inizialmente si svolge un calcolo approssimato che poi viene raffinato. Ir

111

1) divido il supporto in classi contigue

h=numero di classi i

Anteprima
Vedrai una selezione di 10 pagine su 90
Appunti Statistica Pag. 1 Appunti Statistica Pag. 2
Anteprima di 10 pagg. su 90.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 6
Anteprima di 10 pagg. su 90.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 11
Anteprima di 10 pagg. su 90.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 16
Anteprima di 10 pagg. su 90.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 21
Anteprima di 10 pagg. su 90.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 26
Anteprima di 10 pagg. su 90.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 31
Anteprima di 10 pagg. su 90.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 36
Anteprima di 10 pagg. su 90.
Scarica il documento per vederlo tutto.
Appunti Statistica Pag. 41
1 su 90
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher michisantini di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Politecnica delle Marche - Ancona o del prof Ricciardo Lamonica Giuseppe.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community