STATISTICA I
STATISTICA = insieme di strumenti matematico-probabilistici per raccolta, misura e trattamento dei dati.
Utilizzata per fare previsioni, per prendere decisioni in condizione di incertezza (con calcolo della
probabilità) ma non per predire con sicurezza il futuro.
Utilizzi:
- Controllo qualità di un processo produttivo
- Studio affidabilità di un prodotto
- Attività finanziarie
- Andamento borsa
- Analisi di mercato
- Medicina, ambito farmaceutico
- Demografia
Strumenti per ottenere, analizzare, interpretare correttamente i risultati delle analisi statistiche.
STATISTICA DESCRITTIVA = sintesi delle osservazioni campionarie/dati censuari.
Insieme di tecniche e strumenti finalizzati a descrivere, rappresentare, sintetizzare in maniera opportuna un
insieme di dati relativi ad una popolazione statistica oggetto di studio.
STATISTICA PROBABILISTICA = calcolo della probabilità, studio del meccanismo generatore delle
realizzazioni campionarie (modello -> campione).
STATISTICA INFERENZIALE = dal campione al suo meccanismo generatore (campione -> modello).
Studia come estendere i risultati e le conclusioni che provengono dall’analisi di un campione di osservazioni
alla popolazione da cui il campione (sottoinsieme della popolazione oggetto di studio) è stato estratto (in
modo casuale).
Indagine campionaria = indagine effettuata rilevando alcune caratteristiche/parametri sule unità statistiche
di un sottoinsieme della popolazione, detto campione, con l’obiettivo di estendere i risultati ottenuti
(campionari) alla popolazione attraverso la stima di una o più parametri (caratteristiche) della popolazione.
FASI DI UN’INDAGINE STATISTICA
1) Definizione degli obiettivi
2) Scelta variabili da analizzare
3) Individuazione popolazione statistica (oggetto di studio, persone)
4) Rilevazione dati(misurare, rilevare valori)
5) Spoglio dei dati per la costruzione di tabelle/distribuzioni
6) Elaborazione dati (calcolo indici/parametri per la distribuzione statistica)
7) Analisi e interpretazione dei dati
La rilevazione dei dati può essere effettuata tramite:
- Sperimentazioni (misurazioni)
- Questionari
- Basi di dati aziendali
- Internet (finanza Yahoo Finance e Quandl)
ANALISI UNIVARIATA = analisi descrittiva di un solo carattere.
ANALISI BIVARIATA = analisi descrittiva di due caratteri congiuntamente considerati.
ANALISI MULTIVARIATA = analisi descrittiva di più caratteri (più efficace).
TERMINOLOGIA E SIMBOLOGIA
Unità statistica Supporto su cui rilevo le variabili oggetto di studio
Popolazione Insieme delle unità statistica
statistica
Campione Sottoinsieme della popolazione
N N° unità statistiche Quantità di popolazione N = n + n + n + + n
1 2 3 i
X Modalità/intensità Manifestazione della variabile
i
n Frequenza assoluta Numero di volte che si presenta la modalità desiderata
i di X i
f Frequenza relativa Percentuale di unità statistiche che presentano la f =
i i
di X modalità desiderata
i
N Frequenza assoluta somma n stessa più le
i i
Numero di osservazioni con modalità non superiore a
cumulata di X precedenti
i quella considerata
F Frequenza relativa somma f stessa più le
i i
cumulata di X precedenti
i
A Ampiezza Ampiezza delle classi d’intervallo A = X - X
i i sup inf
d Densità di frequenza rappresenta la frequenza a seconda dell’ampiezza d =
i i
SOMMATORIA : Esprime in forma compatta una somma n termini q – p + 1 = n° addendi
=
∑ + +. . + +
Proprietà:
+ = * ≠
∑ ∑ ∑ ∑ ∑ ∑
( + )
= k
∑ ∑
≠0 ∑
≠ ∑
∑
= (q – p + 1) k
∑ 2
(∑ ) ≠ ∑
( )
= +
∑ ∑ ∑
∑ ∑
= =
PRODUTTORIA : Esprime in forma compatta un prodotto q – p + 1 = n° fattori
=
∏ ∗ ∗. .∗ ∗
Proprietà:
(∏ ) (∏ ) = K ≠ 0 =
∏ ∏
ln [ ] = = logaritmo del prodotto = somma dei logaritmi
∏ ∑ ∑
( ) ( ∗ ln )
VARIABILI – CARATTERI
QUALITATIVI (attributi, parole)
- SCONNESSI (non ordinabili, colori, sesso, partito politico)
- ORDINABILI (titolo di studio, grado d’interesse)
QUANTITATIVI (numeri)
- DISCRETI (insieme di modalità finito o numerabile: dosi, n° libri letti, n° macchine vendute)
- CONTINUI (insieme di modalità ad intervallo: reddito, peso, altezza)
I valori quantitativi continui si possono suddividere in intervalli CLASSI DI INTERVALLO. Per le quali non è
possibile fare frequenze relative, ma bisogna utilizzare la DENSITA’ DI FREQUENZA. Non sono sempre
omogenee le classi, poiché non sempre hanno la stessa ampiezza.
ESEMPIO ANALISI UNIVARIATA
X n f N
i i i i
X 0 3 3/10 = 0,3 = 30 % 3
1
X 1 2 2/10 = 0,2 = 20% 5
2
X 2 3 3/10 = 0,3 = 30 % 8
3
X 3 2 2/10 = 0,2 = 20% 10
4 10 1
Se provo a fare la media di x , ottengo che x = 1,5 perché non tengo conto di quante volte compaiono
i i
quelle modalità per questo ho bisogno delle frequenze.
In particolare la frequenza cumulata sarà necessaria per la mediana.
Per la X per esempio posso dire che il numero 2 compare 3 volte (30% dei numeri totali) e ci sono 8 unità
3
statistiche che hanno un valore ≤ 2.
ESEMPIO DI RILEVAZIONE STATISTICA
ID SESSO CITTADINANZA ANNO ISTRUZIONE STIPENDIO CONTRATTO € RICHIESTI
1 M IT 1986 MEDIE 24 000 DETERMINATO 150 000
2 F IT 1978 DIPLOMA 28 000 INDETERMINATO 180 000
3 M UE 1982 DIPLOMA 24 000 DETERMINATO 120 000
4 M EX 1980 MEDIE 22 000 DETERMINATO 150 000
5 F IT 1977 LAUREA 45 000 INDETERMINATO 200 000
6 M IT 1983 DIPLOMA 34 000 DETERMINATO 150 000
7 M IT 1972 LAUREA 36 000 INDETERMINATO 180 000
8 F IT 1977 DIPLOMA 45 000 DETERMINATO 150 000
9 M UE 1969 LAUREA 64 000 INDETERMINATO 200 000
10 M EX 1984 DIPLOMA 24 000 DETERMINATO 120 000
11 F IT 1987 LAUREA 36 000 DETERMINATO 150 000
12 M EX 1975 MEDIE 28 000 INDETERMINATO 180 000
GRADO ISTRUZIONE X n f N F
i i i i i
MEDIE 3 3/12 = 0,25 = 25 % 3 0,25
DIPLOMA 5 5/12 = 0,42 = 42% 8 0,67
LAUREA 4 4/12 = 0,33 = 33 % 12 1
12 1
Grado di istruzione è un carattere qualitativo ordinabile. Per quanto riguarda la variabile diploma, in 5
persone hanno raggiunto questo grado, ovvero il 42 % della popolazione statistica, e 8 persone hanno come
grado d’istruzione medie o diploma (67%).
STIPENDIO X n N A d
i i i i i
18 000 24 000 4 4 6 000 0,00067
24 000 30 000 2 6 6 000 0,00033
30 000 40 000 3 9 10 000 0,0003
40 000 50 000 2 11 10 000 0,0002
50 000 70 000 1 12 20 000 0,00005
12
A = ampiezza della classe ( X – X )
i sup inf
d = densità di frequenza ( n / A )
i i i
Non posso fare le frequenze relative con le classi d’intervallo poiché non sono omogenee.
RAPPRESENTAZIONE GRAFICA DI UNA RILEVAZIONE STATISTICA
Caratteri qualitativi sconnessi Diagramma circolare/a torta α = f * 360 = (n / N)* 360
i i i
Tot = 360°
SESSO X n f
i i i 60 : 360 = 36 : α α = 36/60 * 360 = 216° M
40%
M 36 36/60 = 0,6 1 1
60% 60 : 360 = 24 : α α = 24/60 * 360 = 144° F
F 24 24/60 = 0,4 2 2
60 1 M F
Caratteri qualitativi sconnessi o ordinabili Diagramma a rettangoli
2000 - Base uguale
TIPO FRUTTA Produzione n
i 1500 - Inserisco i dati
Mele 10000 - Posso separarli o affiancarli
1000
Pere 500 (meglio per carattere
Pesche 200 500 continui, ad es 2015-2017)
altro 100 0 - Possiamo anche sovrapporli
Mele Pere Pesche Altro
Se le grandezze sono diverse, per rappresentarli nello stesso grafico posso spezzare il valore “anomalo”
Carattere quantitativo discreto Diagramma a barre (segmenti o punti)
40
N° FIGLI n
i
0 30 30
1 20 20
2 30 10
3 20 0
100 0 1 2 3 4
SERIE STORICA varia al variare del tempo (t variabile) unisco i punti
250
ANNO i FATTURATO x i 200
2012 120
2013 135 150
2014 170 100
2015 190 50
2016 200 0
2011 2012 2013 2014 2015 2016 2017
Dati finanziari (indice MIB di borsa) Diagramma a barre
Analisi tecnica = analisi dei
GIORNO min max chiusura 12 prezzi di borsa sulla base di
1 5 8 7 10 analisi grafiche.
2 7,5 10 9,3 8
6 Analisi fondamentale = analisi
4 dello stesso indice/società,
2 analisi dei dati di bilancio.
0 05/01/2002 06/01/2002
Classi di intervallo Istogramma
FATTURATO X n A d
i i i i
17 000 25 000 13 8 000 1,62
25 000 35 000 32 10 000 3,2
35 000 45 000 81 10 000 8,1
45 000 50 000 8 5 000 1,6
134
Hanno basi diverse a seconda delle ampiezze delle classi
l’area rappresenta la frequenza Aret = b *h n = A * h h = n /A = d , quindi serve la densità.
i i i i i
INDICI DI POSIZIONE α(x)
UTILIZZO : Sintetizzare diversi valori rilevati con una sintesi (media) per fare confronti.
NON ANALITICI = tenendo conto solo di alcuni valori della distribuzione, tipo la frequenza
- Moda
- Mediana
ANALITICI = medie potenziate
- Media aritmetica
- Media quadratica
- Media armonica
- Media geometrica
PROPRIETA’
- Di internalità = X ≤ α(x) ≤ X
min max
- Di monotonicità = X ≤ Y α(X) ≤ α(Y)
- Di molteplicità = α(c X) = c α(X)
MODA = modalità/intensità (X ) a cui è associata la massima frequenza (assoluta, relativa o densit di freq).
i
Per le classi di frequenza devo guardare quale intervallo ha densità di frequenza maggiore, e questo si
chiamerà intervallo modale (x’ -> x’ ) , la moda è il valore centrale Mo =
i-1 i
MEDIANA
La mediana si può trovare per valori quantitativi, o per valori qualitativi ordinabili.
E’ un valore della variabile che divide la popolazione statistica in 2 gruppi ugualmente numerosi.
Devo ordinare i valori per trovare la mediana.
Se N dispari Valore che corrisponde alla posizione = Me =
Se N pari Valore centrale tra i due valori alle posizioni = e +1 Me =
Se ho una distribuzione con diverse frequenze uso per convenzione per N pari.
Se N è piccolo con frequenza 1 contare quale valore si trova a quella posizione (in base a N pari/dispari)
Se N è piccolo con diverse frequenze guardo la frequenza cumulata maggiore o uguale alla posizione
trovata, e il valore corrispondente è la mediana.
Se N è maggiore di 30 è sufficiente trovare una sola posizione, senza vedere se è pari o dispari
valore che ha frequenza assoluta cumulata maggiore uguale a
FATTUR n A d
i i i
SESSO X n
Es MODA Mo = M Int mod = 35 45
17 25 13 8 1,62
i i
M 36 La M ha n maggiore. Perché d maggiore
25 35 32 10 3,2
i i
F 24 Mo = 35+45/2 = 40
35 45 81 10 8,1
60 45 50 8 5 1,6
134
Es MEDIANA
X = 3, 5, 10, 15, 22 N=5 P centr = = 3° che corrisponde al 10 Me = 10
i
X = 3, 5, 10, 15, 22, 30 N=6 P centr = e +1 = 3° e 4° che corrispondono a 10 e 15 Me = = 12,5
i
X n N N = 100 p centr = 100/2 = 50 ° X n N
i i i = 5° ; +1 = 6°
i i i
10 20 20 30 3 3
Trovo la frequenza assoluta cumulata 5° = 50
15 60 80 50 2 5
maggiore o uguale a 50 N = 80
i 6° = 100
20 18 98 100 4 9
Che corrisponde al valore 15 Me = 15
Me = = 75
30 2 100 250 1 10
100 10
Per quanto riguarda le distribuzioni per classi di intervallo:
Non ci preoccupiamo se pari o dispari frequenze relative cumulate ≥ 0,5
F ≥ 0,5 0,93
FATTUR n A d f F
i
i i i i i
17 25 13 8 1,62 0,1 0,1 corrisponde a intervallo 35 000 45 000
25 35 32 10 3,2 0,23 0,33
Questo intervallo di A =10 ha una frequenza di 0,93–0,33 = 0,6
i
35 45 81 10 8,1 0,6 0,93
E 0,5 sta tra 0,33 e 0,93 da 0,33 a 0,5 manca 0,17
45 50 8 5 1,6 0,07 1
134 1
Devo trovare il valore che corrisponde a 0,5 10 : 0,6 = x : 0,17 x = 0,17 = 2,8 Me = 35 + 2,8 = 37,8
,
,
A’ : f’ = Me : (0,5 Oppure Me = X’ + A’
− )
i i inf i
f i AB = a BC = f
C i i
F
F 0,5 F SUP ED = 0,5 – F
i-1 i i-1
E AB : AD = BC : ED
0,5
X Me x
inf sup ( , )
F AD = =
B
INF D
A
0,5 - F i-1 X X
INF SUP
Int modale = 10 30 perché gli corrisponde F = 0,6 ≥ 0,5
Classe A f F i
i i i
0 10 10 0,3 0,3 La mediana sta quindi tra 10 e 30.
10 30 20 0,3 0,6
20 : 0,3 = x : (0,5 – 0,3) x = (0,5 – 0,3) * 20 / 0,3 = 13,33
30 60 30 0,4 1
Me = 10 + 13,3 = 23,3
PROPRIETA’ DELLA MEDIANA PROPRIETA’ DI MINIMO
*n = minima se α = mediana (posso usare n oppure f )
∑ | − | i i i
Verifica: Mo = 1
X n N |X – Me| n |X – Mo| n
i i i i i i i
1 5 5 5 0 P = = 8° Me = 2
2 4 9 0 4
3 4 13 4 8 *n = 13
∑ | − | i
4 2 15 4 6 *n = 18 13 < 18
∑ | − | i
15 13 18
LA MEDIANA IN PERCENTILI
La mediana è il percentile di ordine 0,5.
Percentili = modalità
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Appunti Completi di Statistica economica I
-
Appunti Completi di Statistica I
-
Appunti completi del corso di Matematica applicata e statistica
-
Appunti di Statistica I