Estratto del documento

STATISTICA I

STATISTICA = insieme di strumenti matematico-probabilistici per raccolta, misura e trattamento dei dati.

Utilizzata per fare previsioni, per prendere decisioni in condizione di incertezza (con calcolo della

probabilità) ma non per predire con sicurezza il futuro.

Utilizzi:

- Controllo qualità di un processo produttivo

- Studio affidabilità di un prodotto

- Attività finanziarie

- Andamento borsa

- Analisi di mercato

- Medicina, ambito farmaceutico

- Demografia

Strumenti per ottenere, analizzare, interpretare correttamente i risultati delle analisi statistiche.

STATISTICA DESCRITTIVA = sintesi delle osservazioni campionarie/dati censuari.

Insieme di tecniche e strumenti finalizzati a descrivere, rappresentare, sintetizzare in maniera opportuna un

insieme di dati relativi ad una popolazione statistica oggetto di studio.

STATISTICA PROBABILISTICA = calcolo della probabilità, studio del meccanismo generatore delle

realizzazioni campionarie (modello -> campione).

STATISTICA INFERENZIALE = dal campione al suo meccanismo generatore (campione -> modello).

Studia come estendere i risultati e le conclusioni che provengono dall’analisi di un campione di osservazioni

alla popolazione da cui il campione (sottoinsieme della popolazione oggetto di studio) è stato estratto (in

modo casuale).

Indagine campionaria = indagine effettuata rilevando alcune caratteristiche/parametri sule unità statistiche

di un sottoinsieme della popolazione, detto campione, con l’obiettivo di estendere i risultati ottenuti

(campionari) alla popolazione attraverso la stima di una o più parametri (caratteristiche) della popolazione.

FASI DI UN’INDAGINE STATISTICA

1) Definizione degli obiettivi

2) Scelta variabili da analizzare

3) Individuazione popolazione statistica (oggetto di studio, persone)

4) Rilevazione dati(misurare, rilevare valori)

5) Spoglio dei dati per la costruzione di tabelle/distribuzioni

6) Elaborazione dati (calcolo indici/parametri per la distribuzione statistica)

7) Analisi e interpretazione dei dati

La rilevazione dei dati può essere effettuata tramite:

- Sperimentazioni (misurazioni)

- Questionari

- Basi di dati aziendali

- Internet (finanza Yahoo Finance e Quandl)

ANALISI UNIVARIATA = analisi descrittiva di un solo carattere.

ANALISI BIVARIATA = analisi descrittiva di due caratteri congiuntamente considerati.

ANALISI MULTIVARIATA = analisi descrittiva di più caratteri (più efficace).

TERMINOLOGIA E SIMBOLOGIA

Unità statistica Supporto su cui rilevo le variabili oggetto di studio

Popolazione Insieme delle unità statistica

statistica

Campione Sottoinsieme della popolazione

N N° unità statistiche Quantità di popolazione N = n + n + n + + n

1 2 3 i

X Modalità/intensità Manifestazione della variabile

i

n Frequenza assoluta Numero di volte che si presenta la modalità desiderata

i di X i

f Frequenza relativa Percentuale di unità statistiche che presentano la f =

i i

di X modalità desiderata

i

N Frequenza assoluta somma n stessa più le

i i

Numero di osservazioni con modalità non superiore a

cumulata di X precedenti

i quella considerata

F Frequenza relativa somma f stessa più le

i i

cumulata di X precedenti

i

A Ampiezza Ampiezza delle classi d’intervallo A = X - X

i i sup inf

d Densità di frequenza rappresenta la frequenza a seconda dell’ampiezza d =

i i

SOMMATORIA : Esprime in forma compatta una somma n termini q – p + 1 = n° addendi

=

∑ + +. . + +

Proprietà:

 

+ = * ≠

∑ ∑ ∑ ∑ ∑ ∑

( + )

 = k

∑ ∑

≠0 ∑

 ≠ ∑

 = (q – p + 1) k

∑  2

(∑ ) ≠ ∑

( )

 = +

∑ ∑ ∑

 

∑ ∑

= =

PRODUTTORIA : Esprime in forma compatta un prodotto q – p + 1 = n° fattori

=

∏ ∗ ∗. .∗ ∗

Proprietà:

 

(∏ ) (∏ ) = K ≠ 0 =

∏ ∏

 ln [ ] = = logaritmo del prodotto = somma dei logaritmi

∏ ∑ ∑

( ) ( ∗ ln )

VARIABILI – CARATTERI

QUALITATIVI (attributi, parole)

 - SCONNESSI (non ordinabili, colori, sesso, partito politico)

- ORDINABILI (titolo di studio, grado d’interesse)

QUANTITATIVI (numeri)

 - DISCRETI (insieme di modalità finito o numerabile: dosi, n° libri letti, n° macchine vendute)

- CONTINUI (insieme di modalità ad intervallo: reddito, peso, altezza)

I valori quantitativi continui si possono suddividere in intervalli CLASSI DI INTERVALLO. Per le quali non è

possibile fare frequenze relative, ma bisogna utilizzare la DENSITA’ DI FREQUENZA. Non sono sempre

omogenee le classi, poiché non sempre hanno la stessa ampiezza.

ESEMPIO ANALISI UNIVARIATA

X n f N

i i i i

X 0 3 3/10 = 0,3 = 30 % 3

1

X 1 2 2/10 = 0,2 = 20% 5

2

X 2 3 3/10 = 0,3 = 30 % 8

3

X 3 2 2/10 = 0,2 = 20% 10

4 10 1

Se provo a fare la media di x , ottengo che x = 1,5 perché non tengo conto di quante volte compaiono

i i

quelle modalità per questo ho bisogno delle frequenze.

In particolare la frequenza cumulata sarà necessaria per la mediana.

Per la X per esempio posso dire che il numero 2 compare 3 volte (30% dei numeri totali) e ci sono 8 unità

3

statistiche che hanno un valore ≤ 2.

ESEMPIO DI RILEVAZIONE STATISTICA

ID SESSO CITTADINANZA ANNO ISTRUZIONE STIPENDIO CONTRATTO € RICHIESTI

1 M IT 1986 MEDIE 24 000 DETERMINATO 150 000

2 F IT 1978 DIPLOMA 28 000 INDETERMINATO 180 000

3 M UE 1982 DIPLOMA 24 000 DETERMINATO 120 000

4 M EX 1980 MEDIE 22 000 DETERMINATO 150 000

5 F IT 1977 LAUREA 45 000 INDETERMINATO 200 000

6 M IT 1983 DIPLOMA 34 000 DETERMINATO 150 000

7 M IT 1972 LAUREA 36 000 INDETERMINATO 180 000

8 F IT 1977 DIPLOMA 45 000 DETERMINATO 150 000

9 M UE 1969 LAUREA 64 000 INDETERMINATO 200 000

10 M EX 1984 DIPLOMA 24 000 DETERMINATO 120 000

11 F IT 1987 LAUREA 36 000 DETERMINATO 150 000

12 M EX 1975 MEDIE 28 000 INDETERMINATO 180 000

GRADO ISTRUZIONE X n f N F

i i i i i

MEDIE 3 3/12 = 0,25 = 25 % 3 0,25

DIPLOMA 5 5/12 = 0,42 = 42% 8 0,67

LAUREA 4 4/12 = 0,33 = 33 % 12 1

12 1

Grado di istruzione è un carattere qualitativo ordinabile. Per quanto riguarda la variabile diploma, in 5

persone hanno raggiunto questo grado, ovvero il 42 % della popolazione statistica, e 8 persone hanno come

grado d’istruzione medie o diploma (67%).

STIPENDIO X n N A d

i i i i i

18 000 24 000 4 4 6 000 0,00067

24 000 30 000 2 6 6 000 0,00033

30 000 40 000 3 9 10 000 0,0003

40 000 50 000 2 11 10 000 0,0002

50 000 70 000 1 12 20 000 0,00005

 12

A = ampiezza della classe ( X – X )

i sup inf

d = densità di frequenza ( n / A )

i i i

Non posso fare le frequenze relative con le classi d’intervallo poiché non sono omogenee.

RAPPRESENTAZIONE GRAFICA DI UNA RILEVAZIONE STATISTICA

Caratteri qualitativi sconnessi Diagramma circolare/a torta α = f * 360 = (n / N)* 360

 i i i

Tot = 360°

SESSO X n f

i i i 60 : 360 = 36 : α α = 36/60 * 360 = 216° M

40%

M 36 36/60 = 0,6 1 1

60% 60 : 360 = 24 : α α = 24/60 * 360 = 144° F

F 24 24/60 = 0,4 2 2

60 1 M F

Caratteri qualitativi sconnessi o ordinabili Diagramma a rettangoli

2000 - Base uguale

TIPO FRUTTA Produzione n

i 1500 - Inserisco i dati

Mele 10000 - Posso separarli o affiancarli

1000

Pere 500 (meglio per carattere

Pesche 200 500 continui, ad es 2015-2017)

altro 100 0 - Possiamo anche sovrapporli

Mele Pere Pesche Altro

Se le grandezze sono diverse, per rappresentarli nello stesso grafico posso spezzare il valore “anomalo”

Carattere quantitativo discreto Diagramma a barre (segmenti o punti)

40

N° FIGLI n

i

0 30 30

1 20 20

2 30 10

3 20 0

100 0 1 2 3 4

SERIE STORICA varia al variare del tempo (t variabile) unisco i punti

 

250

ANNO i FATTURATO x i 200

2012 120

2013 135 150

2014 170 100

2015 190 50

2016 200 0

2011 2012 2013 2014 2015 2016 2017

Dati finanziari (indice MIB di borsa) Diagramma a barre

 Analisi tecnica = analisi dei

GIORNO min max chiusura 12 prezzi di borsa sulla base di

1 5 8 7 10 analisi grafiche.

2 7,5 10 9,3 8

6 Analisi fondamentale = analisi

4 dello stesso indice/società,

2 analisi dei dati di bilancio.

0 05/01/2002 06/01/2002

Classi di intervallo Istogramma

FATTURATO X n A d

i i i i

17 000 25 000 13 8 000 1,62

25 000 35 000 32 10 000 3,2

35 000 45 000 81 10 000 8,1

45 000 50 000 8 5 000 1,6

 134

Hanno basi diverse a seconda delle ampiezze delle classi

l’area rappresenta la frequenza Aret = b *h n = A * h h = n /A = d , quindi serve la densità.

   

i i i i i

INDICI DI POSIZIONE α(x)

UTILIZZO : Sintetizzare diversi valori rilevati con una sintesi (media) per fare confronti.

NON ANALITICI = tenendo conto solo di alcuni valori della distribuzione, tipo la frequenza

 - Moda

- Mediana

ANALITICI = medie potenziate

 - Media aritmetica

- Media quadratica

- Media armonica

- Media geometrica

PROPRIETA’

- Di internalità = X ≤ α(x) ≤ X

min max

- Di monotonicità = X ≤ Y α(X) ≤ α(Y)

- Di molteplicità = α(c X) = c α(X)

MODA = modalità/intensità (X ) a cui è associata la massima frequenza (assoluta, relativa o densit di freq).

i

Per le classi di frequenza devo guardare quale intervallo ha densità di frequenza maggiore, e questo si

chiamerà intervallo modale (x’ -> x’ ) , la moda è il valore centrale Mo =

i-1 i

MEDIANA

La mediana si può trovare per valori quantitativi, o per valori qualitativi ordinabili.

E’ un valore della variabile che divide la popolazione statistica in 2 gruppi ugualmente numerosi.

Devo ordinare i valori per trovare la mediana.

Se N dispari Valore che corrisponde alla posizione = Me =

 

Se N pari Valore centrale tra i due valori alle posizioni = e +1 Me =

 

Se ho una distribuzione con diverse frequenze uso per convenzione per N pari.

Se N è piccolo con frequenza 1 contare quale valore si trova a quella posizione (in base a N pari/dispari)

Se N è piccolo con diverse frequenze guardo la frequenza cumulata maggiore o uguale alla posizione

trovata, e il valore corrispondente è la mediana.

Se N è maggiore di 30 è sufficiente trovare una sola posizione, senza vedere se è pari o dispari

valore che ha frequenza assoluta cumulata maggiore uguale a

FATTUR n A d

i i i

SESSO X n

Es MODA Mo = M Int mod = 35 45

17 25 13 8 1,62

i i

M 36 La M ha n maggiore. Perché d maggiore

25 35 32 10 3,2

i i

F 24 Mo = 35+45/2 = 40

35 45 81 10 8,1

60 45 50 8 5 1,6

134

Es MEDIANA

X = 3, 5, 10, 15, 22 N=5 P centr = = 3° che corrisponde al 10 Me = 10

i

X = 3, 5, 10, 15, 22, 30 N=6 P centr = e +1 = 3° e 4° che corrispondono a 10 e 15 Me = = 12,5

i

X n N N = 100 p centr = 100/2 = 50 ° X n N

i i i = 5° ; +1 = 6°

i i i

10 20 20 30 3 3

Trovo la frequenza assoluta cumulata 5° = 50

15 60 80 50 2 5

maggiore o uguale a 50 N = 80

 i 6° = 100

20 18 98 100 4 9

Che corrisponde al valore 15 Me = 15

 Me = = 75

30 2 100 250 1 10

100 10

Per quanto riguarda le distribuzioni per classi di intervallo:

Non ci preoccupiamo se pari o dispari frequenze relative cumulate ≥ 0,5

 F ≥ 0,5 0,93

FATTUR n A d f F 

i

i i i i i

17 25 13 8 1,62 0,1 0,1 corrisponde a intervallo 35 000 45 000

 

25 35 32 10 3,2 0,23 0,33

 Questo intervallo di A =10 ha una frequenza di 0,93–0,33 = 0,6

i

35 45 81 10 8,1 0,6 0,93

 E 0,5 sta tra 0,33 e 0,93 da 0,33 a 0,5 manca 0,17

45 50 8 5 1,6 0,07 1

 134 1

Devo trovare il valore che corrisponde a 0,5 10 : 0,6 = x : 0,17 x = 0,17 = 2,8 Me = 35 + 2,8 = 37,8

  

,

,

A’ : f’ = Me : (0,5 Oppure Me = X’ + A’

 

− )

i i inf i

f i AB = a BC = f

C i i

F

F 0,5 F SUP ED = 0,5 – F

i-1 i i-1

E AB : AD = BC : ED

0,5

X Me x

inf sup ( , )

F AD = =

B

INF D

A

0,5 - F i-1 X X

INF SUP

Int modale = 10 30 perché gli corrisponde F = 0,6 ≥ 0,5

Classe A f F  i

i i i

0 10 10 0,3 0,3 La mediana sta quindi tra 10 e 30.

10 30 20 0,3 0,6

 20 : 0,3 = x : (0,5 – 0,3) x = (0,5 – 0,3) * 20 / 0,3 = 13,33

30 60 30 0,4 1

 Me = 10 + 13,3 = 23,3

PROPRIETA’ DELLA MEDIANA PROPRIETA’ DI MINIMO

*n = minima se α = mediana (posso usare n oppure f )

∑ | − | i i i

Verifica: Mo = 1

X n N |X – Me| n |X – Mo| n

i i i i i i i

1 5 5 5 0 P = = 8° Me = 2

2 4 9 0 4

3 4 13 4 8 *n = 13

∑ | − | i

4 2 15 4 6 *n = 18 13 < 18

∑ | − | i

15 13 18

LA MEDIANA IN PERCENTILI

La mediana è il percentile di ordine 0,5.

Percentili = modalità

Anteprima
Vedrai una selezione di 7 pagine su 28
Appunti Statistica I - completi Pag. 1 Appunti Statistica I - completi Pag. 2
Anteprima di 7 pagg. su 28.
Scarica il documento per vederlo tutto.
Appunti Statistica I - completi Pag. 6
Anteprima di 7 pagg. su 28.
Scarica il documento per vederlo tutto.
Appunti Statistica I - completi Pag. 11
Anteprima di 7 pagg. su 28.
Scarica il documento per vederlo tutto.
Appunti Statistica I - completi Pag. 16
Anteprima di 7 pagg. su 28.
Scarica il documento per vederlo tutto.
Appunti Statistica I - completi Pag. 21
Anteprima di 7 pagg. su 28.
Scarica il documento per vederlo tutto.
Appunti Statistica I - completi Pag. 26
1 su 28
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher aina.belloni di informazioni apprese con la frequenza delle lezioni di Statistica I e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Carugati Umberto.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community