STATISTICA AZIENDALE
Prof. Di Marzio
All’interno dell’azienda ci sono delle figure che si occupano dei problemi formulati dal
manager in maniera corretta. Per prendere le decisioni si utilizza la statistica:
l’azienda ripete nel tempo sempre le stesse operazioni che genera naturalmente un
approccio frequentistico siccome l’azienda ha bisogno di decisioni che sono sempre le
stesse. Queste scelte sono ripetute tante volte, costantemente, e allora la statistica si
inserisce con i dati statistici frequentistici. Il manager ripete le stesse operazioni, serve
uno strumento per capire se le tecniche di decisione sono adeguate. Non è facile
perché ci sono molte variabili che concorrono a complicare il contesto.
I dati sono caratterizzati da continuità, costanza e omogeneità.
Il manager opera in condizioni di incertezza quindi il modello di esperimento casuale di
cui non si conosce l’esito esprime la vita decisionale del manager.
Processo di reperimento di dati
Le fonti dei dati possono essere:
- Interne all’azienda: descrivono l’azienda;
- Esterne all’azienda: descrivono fenomeni che hanno a che fare con l’azienda,
tra queste ricordiamo:
Fonti classiche come quelle provenienti dall’ISTAT o dalla Banca d’Italia
o Fonti locali/regionali come quelle delle camere di commercio, osservatori
o regionali (CRESA), istituto Tagliacarne…
Banche dati nazionali/mondiali come l’AIDA
o
Inoltre i dati vengono reperiti anche attraverso tecniche di benchmarking: confronto
tra le quantità del proprio processo aziendale e le quantità del processo dei
competitors considerati i migliori nel settore.
Come ottenere i dati: IL CAMPIONAMENTO
Per campionamento si intende quell’atto del reperire unità statistiche su cui si osserva
il fenomeno d’interesse; lo scopo è quello di ottenere stime precise a seconda di dove
si opera. Non si può conoscere tutte le unità perché troppo costoso. Con il
campionamento si vogliono avere pochi dati che non fanno perdere informazioni sulla
popolazione studiata: si estrae un campione che si spera sia il rappresentativo della
popolazione. Prima di effettuare il campionamento bisogna conoscere la popolazione.
Esistono vari tipi di campionamento:
1. Di tipo probabilistico: hanno sempre e comunque una forma di casualità,
casualità come sinonimo di imparzialità.
a. Campionamento casuale semplice: dalla popolazione a caso scegliamo un
individuo, ogni individuo ha la stessa probabilità di essere estratto; la
probabilità di estrazione è pari a 1/N. Il campionamento casuale semplice
può essere con ripetizione quando una volta estratto l’individuo poi lo
rimetto “nell’urna” quindi si potrebbe ripetere lo stesso individuo nel
campione, e può essere senza ripetizione che è considerato migliore in
quanto riduce la variabilità.
b. Campionamento stratificato: abbiamo una popolazione di cui conosciamo
H variabili, e queste variabili che conosco sono d’aiuto per ottenere un
campione rappresentativo in termini di varianza più bassa. In base alle
variabili che conosco si costruiscono gli strati, dopodiché si va a
campionare proporzionalmente dagli strati per avere un campione più
rappresentativo possibile. Abbiamo una popolazione rappresentata da H
variabili stratificate, solitamente si usano tanti criteri di stratificazione
(sesso, età, stato occupazionale, residenza…). Poi si estrae casualmente
dagli strati; quanto estraggo? In proporzione dallo strato dato dalla
numerosità del campione e dalla numerosità della popolazione
H N
∑ H =1
N
h=1
Il campionamento stratificato può essere proporzionale: estraggo una
percentuale del campione in ogni strato pari al rapporto tra la numerosità
del campione e la numerosità della popolazione. Può essere non
proporzionale quando a seconda di quanto è grande lo strato in
proporzione si prendono più elementi.
Esempio di campione stratificato proporzionale:
Popolazione di 3000 individui di cui conoscono le seguenti variabili: sesso,
età, cifra spesa in media in 12 mesi. Ritenendo che c’è connessione tra le
variabili, il proprietario del negozio decide di procedere con un
campionamento stratificato della popolazione. Gli strati sono incrociati
con le caratteristiche conosciute dal proprietario.
Fascia d’età
Sesso Fascia di 18-39 40-59 60+
spesa
F <= 50 350
euro
>50 240
M <=50 180 330
>50 162 300 183 3000
Gli strati sono le celle gialle, ci sono 12 strati e dentro ogni strato quante
persone appartengono allo strato.
Vogliamo creare un campione di 350 individui su 3000 che è la
popolazione:
n 350
= =0,12
N 3000
0,12 è la frazione di campionamento; utilizziamo la frazione di
campionamento per estrarre da goni strato: es. primo strato
350*0,12=35 e così avanti per tutti gli strati. Come estraggo? Estraggo a
caso con una modalità senza ripetizione.
c. Campionamento sistematico: ordiniamo gli individui secondo qualche
variabile, poi definiamo due quantità: un numero scelto a caso J e il
“passo di campionamento” K. Si parte dall’individuo a cui corrisponde il
numero scelto a caso e da quello si aggiunge sempre K, tutto per essere
imparziali.
d. Campionamento a grappoli: è un campionamento molto utilizzato
dall’ISTAT, consiste nel dividere la popolazione in gruppi omogenei e poi
si osserva integralmente alcuni gruppi scelti a caso (grappoli). Es. divide
la popolazione in comuni italiani, estraggo dei comuni e osservo tutti gli
elementi appartenenti al comune estratto.
e. Campionamento a Stati: sempre utilizzato dall’ISTAT, suddivisione in
gruppi omogenei e dentro il gruppo si individuano altri gruppi che
vengono estratti a caso e da questi si estraggono gli individui.
2. Di tipo non probabilistico: altamente discutibili;
a. Campionamento di comodo: come quello degli exit pole, non è affidabile;
b. Campionamento ragionato: gli elementi sono scelti uno a uno
dall’intervistatore ad esempio per misurare l’inflazione si guarda al
paniere di beni selezionati per motivi socio-economici da esperti, non
sono beni scelti a caso.
Esistono modi alternativi di ottenere un campione. In corrispondenza di ogni modalità
esiste una formula diversa per lo stimatore (stimare la media su un campione casuale
con ripetizione diverso da senza ripetizione diverso dalla stratificazione).
Per ogni tipo di campione esistono stimatori diversi sia puntuali sia per intervallo.
Fondamentalmente conosciamo:
- Campione casuale semplice con ripetizione: si rimette l’elemento estratto
- Campione casuale senza ripetizione: si estrae un elemento e non si rimette
nella popolazione; la differenza è che il primo può avere campioni che
contengono lo stesso elemento più volte, questo no.
Nella realtà pratica si ricorre tuttavia alla ripartizione della popolazione in strati
- Campionamento stratificato
Noi abbiamo tutta la popolazione a disposizione, ad ogni elemento si attribuisce
un’etichetta; poi si opera il campionamento estraendo le etichette
Esempio
Un’ impresa idraulica che vuole stimare il tempo medio di attesa degli interventi
realizzati nell’ultimo mese (utile in termini di ottimizzazione) sulla base di un campione
di clienti. L’azienda dispone di una lista di clienti, 115 clienti ciascuno contrassegnato
da un numero progressivo (da uno a 115, queste sono le etichette). A ogni
questionario c’è un costo quindi è preferibile, in termini di risparmio, intervistare
poche persone con un campionamento efficiente: un campione poco numeroso più
rappresentativo possibile del totale della popolazione.
Estraiamo due campioni:
A. Campione casuale semplice con n=25
B. Campione stratificato proporzionalmente con n=25
Dobbiamo trovare la variabile di stratificazione più adatta. In questo caso è la fascia
oraria della chiamata d’intervento: n e n sono gli strati, il primo fatto da 10 persone
1 2
che hanno telefonato dalle 20 alle 8, e il secondo da 15 che hanno chiamato dalle 8
alle 20.
{ =10(20.00−8.00)
n 1 =15(8.00−20.00)
n 2
Campione semplice
Etichett 2 2 11 4 8 2 6 11
a 0 8 0 4 1 1 8 0
Y=tem 1 4 3 4 0 3 3 0 4 1 2 0 2 3 2 4 3 3 1 1
po
attesa
Campione stratificato
Etichett 8 49 115 18 109 112 99 95
a
Strato 1 2 2 1 1 1 2 2
Y 0 5 2 4 2 1 5 4
Etichet 93 76 103 68 15 25 27 69
ta
Strato 2 2 1 2 1 2 2 1
Y 2 5 1 3 4 3 4 2
Etichet 28 22 20 81 46 69 93 109
ta
Strato 2 2 1 1 2 2 2 1
Y 2 3 2 0
Come calcolo la media di attesa (in ore)? Somme le ore di tutti quelli appartenenti alla
fascia e divido per il numero (10 se è la prima fascia e 15 per la seconda fascia)
Media fascia 1: quanto hanno aspettato le persone che hanno aspettato nella fascia
uno (dalle 20 alle 8)? Ymedio1=1,9
Media fascia 2: quanto hanno aspettato le persone che hanno aspettato nella fascia
due (dalle 8 alle 20)? Ymedio2= 3,14
Come si calcola la media per il campione casuale semplice
La sommatoria degli elementi diviso N: N
1 ∑
ý= y i
N i=1
La varianza campionaria:
∑ 2
( )
−
y ý
1
2 =
s y n−1
La varianza stimata della media campionaria:
2
s
2 y
=
s ý n
La precisione dello stimatore sulla media
La prima formula ci stima la media; la terza ci dice quando è precisa stima della
media, l’auspicio è che piccolo. La terza formula misura della precisione della media
campionaria. Valori molto lontani dalla media è impossibile sotto la distribuzione 1 ma
è probabile sotto la distribuzione 2 [grafico curve]. Questo è l’errore di stima. Se la
varianza dello stimatore media campionaria è più o meno alta allora errori di
stima più o meno grandi sono più probabili.
La varianza su campioni stratificati deve essere minore di campioni non stratificati.
Nel caso di un campione casuale senza ripetizione si dovrebbe guadagnare in termini
di efficienza in quanto non si ripete l’informazione quindi, in termini di errore standard:
errore campione casuale senzaripetizione
√ 2
s ý
( )
ES ý= 1−f n
n
=
f N ( )
errore varianza dello stimatore campionecasuale con rip
2
s ý
ES ý= n
“f” è la frazione di campionamento; il fattore di destra è uguale al campionamento
senza ripetizione. Se estraggo un solo elemento, il campione ha dimensione uno,
estrarre con o senza ripetizione non cambia niente. Con e senza ripetizione tendono
ad essere diversi con campioni di grandi dimensioni (se estraggo 80 da 100 con
ripetizione è possibile che mi ricapita lo stesso individuo). Tanto è più grande il
campione tanto è più probabile che lo stesso individuo compaia più volte nel
caso di campionamento casuale semplice.
Tanto più il campione cresce tanto più il campionamento senza ripetizione guadagna in
termini efficienza. Vediamo se questo concetto è rispettato dalle formule della
varianza. Tanto più “f” cresce tanto più scende la varianza dello stimatore basato sul
campione senza ripetizione quindi è più preciso tanto più è alta la numerosità
campionaria. Varianza più bassa significa più preciso e allora la varianza dello
stimatore con ripetizione tende ad essere più preciso all’aumentare della numerosità
campionaria N.
Tra con ripetizione e senza la media dei campioni si stima con la stessa forma, la
varianza no.
Stimatore della proporzione campionaria
Nelle indagini di opinione non è tanto importante la media (ad esempio nelle indagini
di marketing). Le risposte ai questionari non sono numeriche ma alternative di tipo
categoriale quindi si guarda alla proporzione delle risposte date. La proporzione ci dice
la % di persone che preferiscono una certa proposta tra quelle presentate.
La proporzione può essere vista come un’osservazione dicotomica: si da 1 e 0.
La proporzione si calcola con una media dove le persone che hanno scelto
una data opzione hanno valore 1 del carattere dicotomico usato per
descrivere la scelta, e 0 se non hanno scelta quella caratteristica.
{ =0
Z
z=variabiledicotomica Z=1
n
1 ∑
stimatore della proporzionae p= Zi
n i=1
Vediamo se e come cambia la formula della varianza; errore standard della
proporzione del campione casuale semplice senza ripetizione
√ (1−π )
π
( )= (1−f )
ES p n−1
Ci sta una parta (rossa) che è la parte della varianza su campione con ripetizione.
La proporzione è definibile come media di un carattere dicotomico con modalità 0 e 1.
Esempio
Abbiamo una variabile dicotomica Z definita come:
Z=0 se le ore di attesa minore uguale a 3
Z=1 se le ore sono maggiore di 3
Z=0 quando y= 0,1,2,3
Z=1 quando y=4
Questa variabile Z mi porta a rispondere a questa domanda: qual è la percentuale di
persone che aspettano massimo tre ore? Che aspettano più di tre ore?
Abbiamo visto fino ad ora i metodi di stima puntuale solo per il campione casuale
semplice con e senza ripetizione.
Metodo di stima puntuale (media e varianza) per campionamento stratificato
Nel caso di estrazione campionamento stratificato la media è una media ponderata
delle medie di strato n
H H 1 h
∑ ∑ ∑
´ ´
= =
Y W Y W Y
STR h h h hi
n
h=1 h=1 i=1
h
La media stratificata è uguale alla sommatoria delle medie degli strati per il “peso”
degli strati. Nelle medie ponderate non c’è diviso n perché c’è il peso. SI vede che è la
media di uno strato acchesimo.
W = peso dell’acchesimo strato
h
Y = media dell’h-strato
h
n = numerosità dell’h-strato
h
H= numero di strati
Y =i-esima osservazione dell’h-esimo strato.
hi N num . dello strato della popolazione
h =
Wh= N num tot della popolazione
Questa formula del peso (una possibile forma) è costruita con dati della popolazione o
comunque del campione. Non si usa quasi mai perché se W =N /N si dimostra che
h h
tutte le formule del campionamento stratificato vengono a coincidere con le formule
del campione casuale senza ripetizione.
È la frequenza relativa dello strato nella popolazione = quante osservazione sono nello
strato sul totale della popolazione
n h =frazione
fh= di campionamento
N h
Frequenza relativa dello strato NEL campione.
Varianza del campionamento stratificato
È uguale a quello del campionamento semplice senza ripetizione dove si considerano
le varianze dei singoli strati (mi aspetto una media ponderata delle varianze):
Varianza della media = errore standard della media =
y str
´
¿
¿ ¿
1¿=ES 2
In particolare è lo stimatore corretto della varianza all’interno dell’h-strato:
S n
n
1 h
∑ ´ 2
2 ( )
= − =¿
S Y Y
n ih h
−1
n i=1
h '
¿ stimatore corretto della varianza dell h−strato
Stimatore corretto della varianza del carattere nel caso di campionamento con
ripetizione:
n
1 ∑
2 ( )
= −
S y ý
i
n−1 i=1
Questa è uno stimatore della varianza della popolazione E NON DELLA MEDIA.
Stimatore corretto della varianza della media nel caso di campionamento casuale
semplice senza ripetizione:
√ 2
S ý
( )= ( )
¿
3 ES ý 1−f n
Stimatore corretto della varianza della media con campionamento casuale semplice
con ripetizione:
√ 2
S ý
( )
¿ =
2 ES ý n
Discutiamo tutte queste formule, prima ricordiamo una cosa della statistica di base:
la varianza della media campionaria era sigma quadro su n:
2
σ
( )=
var ý n
L’errore standard o scarto quadratico medio era la radice di questa quantità. Noi ora
stiamo parlando della varianza delle medie e quindi saranno tutte divise n perché tutte
ritorneranno a questa formula; tutte varianze di media che rispettano la struttura della
varianza diviso n.
Le tre formule cerchiate sono le varianze della media. ES(STR) ES(y segnato) senza
ripetizione sono delle modificazioni. Nella varianza della media per css senza
ripetizione (1-f) è il fattore di correzione dovuto al mancato reinserimento
dell’individuo osservato.
1) media delle varianze per ogni strato. In questa c’è la formula 3 calcolata per h-
strato.
È sempre la stessa formula ma inseriamo quei fattori che variano a seconda della
tecnica di campionamento usato.
Ricordiamo che ci sono due tipi di varianza:
- Del carattere: non c’è diviso n;
- Della media: varianza del carattere diviso n.
Media
Media del campione casuale semplice con ripetizione:
n
1 ∑
ý= y i
n =1
i
Senza ripetizione:
n
1 ∑
y= y i
n =1
i
Campione stratificato:
H
∑ ´
ý= W Y
h h
h=1 n y
h
∑ ih
=¿
Y h n
i=1 h
´¿
dove
Per la media la modalità di campionamento incide solo nel caso stratificato dove si
deve fare la media ponderata degli strati, mentre per con e senza ripetizione la media
è uguale.
Abbiamo visto come la logica di campionamento influenza le formule di media e
varianza.
Per quanto riguarda la proporzione dobbiamo ricordarci della dicotomia del carattere:
√ ( )
−1
π π
( )=
<Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.