STATISTICS FOR MANAGEMENT
–
LEZIONE 9.02.2021 9-11 INTRODUZIONE AL CORSO
Testi di riferimento (vedi Syllabus) e modalità esame:
Primo argomento che affronteremo: statistica descrittiva. Ripasso molto veloce poiché sono gli argomenti
più facilmente ripassabili.
La statistica descrittiva è semplice, è una conoscenza consolidata e stratificata negli anni, e c’è una diretta
analogia con il foglio elettronico di Excel. Il foglio elettronico di Excel rappresenta la versione informatizzata
dati, in cui ogni riga del foglio elettronico tipicamente corrisponde a un’unità statistica, cioè
della matrice dei
un’osservazione intesa come un’unità statistica su cui viene fatta la rivelazione, e ogni colonna del foglio
elettronico corrisponde a una variabile.
che possiamo pensare sono innumerevoli: tra i materiali forniti dal prof c’è una tabella Excel in
Gli esempi
cui è riportato il risultato di un’analisi di mercato sul mercato immobiliare. Per una certa città sono riportate
alcune informazioni riferite agli appartamenti in vendita nei differenti isolati della città. Ogni riga rappresenta
un isolato e ogni colonna rappresenta una variabile di interesse per la ricerca di mercato che riguarda gli
appartamenti di quel quartiere.
Di database di questo tipo sicuramente ne abbiamo visti molti e ne vedremo molti: i database che nascono
dall’analisi dei dati delle carte fedeltà delle insegne. Un database di questo tipo identifica ogni riga con un
cliente dell’insegna, e ogni riga del file di Excel con un cliente dell’insegna, e ogni colonna del file di Excel
con una variabile relativa al comportamento di acquisto di quel cliente, quanto ha comprato in una certa
categoria, quanto ha comprato di prodotti in promozione, quanto ha comprato di prodotti di marca
commerciale e così via. Quindi Excel rappresenta lo strumento di base per rappresentare questo tipo di
1
informazioni, l’analogo informatico della matrice dei dati. E la cella, che è l’unità fondamentale del foglio
elettronico, è l’incrocio di una riga e di una colonna, e rappresenta il valore osservato della variabile colonna
osservato in corrispondenza dell’unità riga.
Excel oltre a consentirci di rappresentare in modo informatico la matrice dei dati e a consentirci di gestire i
dati (la gestione dei dati in Excel non è oggetto del corso poiché ci vorrebbe un corso specifico solo su quello,
però guardiamo i paragrafi del capitolo 1 dove sono spiegati), Excel ha una serie di funzioni statistiche che
consentono di fare le analisi elementari e prendere decisioni fondate sui dati.
Quindi Excel è uno strumento utile perché è uno strumento a disposizione realmente di tutti, non ha la
possibilità di svolgere analisi statistiche sofisticate ma ha comunque la possibilità di svolgere tutte le analisi
statistiche di base che possono comunque essere utili per le decisioni quantitative. Questo motiva il fatto che
abbiamo deciso di affiancare Excel al ripasso dei concetti. Il corso si svolgerà su due binari: da un lato il
ripasso dei concetti, e dall’altro l’implementazione delle analisi, dei calcoli in Excel.
Alle funzioni statistiche di Excel si accede attraverso il menu formule:
Compare l’opzione “inserisci funzione” e se scegliamo la categoria “statistiche” ne troviamo molte, è una
categoria corposa dove possiamo trovare oltre 100 funzioni statistiche differenti. Se vogliamo un elenco
completo delle funzioni possiamo sfruttare questo link alla pagina di supporto di Office, in italiano in questo
caso, in cui c’è l’elenco delle funzioni e una spiegazione (cliccando su ognuna delle funzioni):
https://support.office.com/it-it/article/funzioni-statisticheriferimento-624dac86-a375-4435-bc25-
76d659719ffd
Questa lista è utile per avere una lista delle funzioni e per capire quello che fanno, se non sappiamo qualcosa
di vedere l’help, le possibilità di implementazione sono estremamente numerose
il suggerimento del prof è
quindi è del tutto ragionevole che non si sappia tutto a memoria. Non è un problema andare a vedere l’help,
all’help (soprattutto in italiano)!
ma richiede attenzione, quindi attenzione Molte spiegazioni fornite in italiano
vengono tradotte con traduttori automatici e possono non essere tradotte correttamente. Anche in inglese
possono esserci errori.
In sintesi, le funzioni statistiche sono tante, ma Excel è effettivamente uno strumento semplice e alla portata
di tutti che ci consente moltissime analisi statistiche. Basta una semplice navigazione in internet per sapere
le funzioni e che cosa fanno, certo è che però il contenuto informativo dei siti che incontriamo online deve
vagliato accuratamente perché la qualità dell’informazione non è detto che sia adeguata.
essere
Poi in Excel c’è un componente aggiuntivo che raggruppa le funzioni. Questo componente aggiuntivo si
chiama “Analisi qui sotto nella foto c’è il percorso per
Dati”, installarlo disponibile in tutte le versioni di Excel
(se non c’è è perché non è stato installato, ma si può installare come già detto facendo file > opzioni >
componenti aggiuntivi), e una volta installato il componente aggiuntivo è disponibile attraverso il menu dati.
2
Analisi Dati è uno strumento più sofisticato rispetto alle singole funzioni, perché mette insieme tante funzioni
diverse: il motore di base è rappresentato dalle singole funzioni, ma le singole funzioni, se vogliamo fare
analisi più sofisticate, dobbiamo usarle in sequenza, dobbiamo usarne tante in sequenza. Attraverso Analisi
Dati, invece, questo raggruppamento delle funzioni viene fatto dal software, e quindi tante funzioni in
sequenza usate in modo appropriato consentono, attraverso un semplice clic in Analisi Dati, analisi più
sofisticate, ad esempio le statistiche descrittive che vediamo ora, ma anche l’inferenza, la regressione
lineare, il campionamento, la generazione di numeri casuali, etc., tutte funzioni che sono disponibili
singolarmente ma che aggregate danno la possibilità di svolgere analisi più complete, più sofisticate.
Iniziamo ora a vedere le statistiche descrittive. Qui sotto intanto alcune funzioni che corrispondono alle
statistiche descrittive più semplici:
Il conteggio, il minimo, il massimo, il calcolo della media, il calcolo della mediana, il calcolo della varianza e
della deviazione standard. Questi sono concetti di base della statistica descrittiva.
La media aritmetica è il concetto più di base: noi cerchiamo un valore, usiamo come sintesi una serie di
valori numerici (la media aritmetica si calcola solo per variabili quantitative), e cerchiamo come sintesi quel
valore che sostituito ai singoli valori osservati ne lascia invariata la somma. Quindi se ad esempio pensiamo
al comportamento di acquisto, lo scontrino medio, il valore medio acquistato di un certo prodotto in un insieme
di consumatori è quell’ammontare che se fosse stato speso in modo uniforme da tutti i consumatori avrebbe
mantenuto invariato l’ammontare totale degli acquisti che ha quel prodotto. Usare quindi la media aritmetica
come sintesi di un fenomeno: quella formula è somma dei valori diviso il loro numero.
La mediana è il valore centrale di una serie di valori ordinati, dobbiamo ordinare i valori dal più piccolo al più
grande e la mediana è il valore centrale. Qual è il senso di questa sintesi diversa dalla media? Abbiamo un
obiettivo di sintesi diverso, cioè vogliamo rappresentare una serie di valori con un valore specifico, che è
quello centrale, quindi si ordinano i valori e la mediana è il valore centrale.
Un’altra sintesi ancora è la moda, che invece è legata alla frequenza. Se prendiamo il fenomeno
dell’ammontare dello scontrino per un certo prodotto, avrebbe senso calcolare la moda? No, perché se i
3
valori sono tutti diversi hanno tutti frequenza uguale a 1, quindi la moda non è definita, se i valori sono tutti
diversi fra di loro e la moda è il valore con la massima frequenza non ha senso calcolare la massima
frequenza quando le frequenze sono tutte uguali a 1. Quindi per un fenomeno quantitativo continuo come
l’ammontare dello scontrino il calcolo della moda non ha interesse. La moda è un indice di sintesi per
fenomeni tipicamente qualitativi.
La varianza e la deviazione standard non hanno lo stesso obiettivo conoscitivo della media e della mediana
perché sono indici di variabilità. Media, mediana ed eventualmente moda sono indici che hanno l’obiettivo di
rappresentare l’ordine di grandezza di un fenomeno, mentre varianza e scostamento quadratico medio sono
indici di variabilità, quindi misurano le differenze fra i valori. In che modo lo misurano? Lo scostamento
quadratico medio misura le differenze non tra le coppie di valori, bensì tra i valori e la media aritmetica. Quindi
questi indici, scostamento quadratico medio e varianza, sono costruiti in funzione degli scostamenti tra i
singoli valori osservati e la media aritmetica. Sostanzialmente noi prendiamo la somma dei quadrati degli
scostamenti tra i singoli valori osservati e la media aritmetica. Sommatoria degli xᵢ quindi la sommatoria degli
–
scarti dei valori osservati la media aritmetica al quadrato si chiama devianza. Se dividiamo per n abbiamo
la varianza, quindi facciamo la media di questi scarti e abbiamo la varianza, mentre se estraiamo la radice
quadrata della varianza abbiamo lo scostamento quadratico medio. Quindi la varianza e lo scostamento
quadratico medio sono indici di variabilità che si differenziano sostanzialmente per l’unità di misura, perché
espresso nell’unità di misura del fenomeno, la varianza è espressa nel
lo scostamento quadratico medio è
quadrato dell’unità di misura. Da un punto di vista interpretativo lo scostamento quadratico medio è
preferibile, dal punto di vista dei ‘calcoli’ è preferibile la varianza perché non si estrae la radice quadrata e
quindi alcune formule risultano semplificate.
Per calcolare la varianza e lo scostamento quadratico medio ci sono due funzioni differenti: VAR.P e
DEV.ST.P, e poi ho VAR.C e DEV.ST.C. La formula che abbiamo appena enunciato è quella che fa
riferimento alle funzioni .P, perché .P fa riferimento alla popolazione, quindi il calcolo della varianza della
popolazione è il calcolo che utilizza la definizione di varianza che abbiamo appena enunciato, quindi somma
degli scarti al quadrato tra valori osservati e la media diviso il loro numero, quindi diviso n.
Quando però siamo in un problema di inferenza, quindi quando abbiamo a che fare con un campione, la
stima della varianza si ottiene dividendo non più per n, ma per n-1. Quindi la varianza campionaria non è più
la somma degli scarti al quadrato diviso n, ma è la somma degli scarti al quadrato diviso n-1. La varianza
campionaria viene calcolata attraverso la funzione di Excel VAR.C, e la sua radice quadrata è DEV.ST.C.
–
LEZIONE 9.02.2021 14-16 RICHIAMI DI STATISTICA DESCRITTIVA
Screen file caricato in Elly che possiamo utilizzare per illustrare l’applicazione degli indici di statistica
descrittiva. È un file che contiene la variabile MEDV che è un valore di sintesi in migliaia di dollari delle
abitazioni occupate in un certo isolato.
Questo dataset ci può servire per fare i calcoli dei vari indici, commentarli e capirne l’interpretazione. In
questo file ci sono 507 righe, la prima riga è l’intestazione della variabile e quindi ci sono 506 osservazioni,
506 unità statistiche (quello che di solito indichiamo con n) per la variabile MEDV, che è un valore di sintesi
4
delle abitazioni occupate in ciascun isolato. Quindi ogni riga corrisponde a un isolato (ce ne sono 506 come
e dentro ogni cella abbiamo il valore di sintesi delle abitazioni di quell’isolato.
abbiamo detto),
Siamo all’interno dell’argomento di statistica descrittiva, e o facciamo le analisi una ad una inserendo le
funzioni che ci servono di volta in volta, quindi andiamo in alto su formule > inserisci funzione > guardiamo
la lista delle funzioni statistiche (ce ne sono tante) e scegliamo quella che ci serve.
Se volessimo calcolare la media, selezioniamo media, e poi si seleziona l’area dei valori che vogliamo
utilizzare. c’è il componente aggiuntivo a destra
Altra cosa molto utile è analisi dati. Dentro al menu Dati Analisi dati.
Dopo aver selezionato Analisi dati seleziono ‘statistica e dopo aver schiacciato ok come
descrittiva’
dove l’intervallo dei dati, l’input, è selezionato > spunto ‘etichette
vediamo qui sotto a destra appare la tabella
nella prima riga’ > si preme ok.
Attraverso Analisi dati si possono fare molte analisi, in particolare ci focalizziamo sulle statistiche descrittive.
la statistica descrittiva, cioè l’insieme di tecniche della statistica descrittiva,
Quindi, una volta selezionata è
sufficiente inserire l’intervallo di input dei valori (possiamo inserire anche l’etichetta con la legenda della
variabile, basta spuntare la cella), quindi selezionare tutti i valori a sinistra, cioè tutte le celle che
corrispondono ai valori > nuovo foglio di valori > possiamo mettere come output ad esempio riepilogo delle
statistiche > con un solo clic sono stati calcolati tutti gli indici della statistica descrittiva anziché una alla volta.
5 ‘media’,
È ovvio che la media (della seconda foto a dx) è calcolata attraverso la funzione Analisi dati trae
beneficio dalle singole funzioni statistiche, però le applica in un modo coerente e coordinato. Vediamo poi
infatti la mediana, la moda (che qui abbiamo detto non abbia particolare senso perché siamo in presenza di
una variabile quantitativa e continua, quindi saranno poche, ammesso che ci siano, le unità con valori ripetuti
del fenomeno), deviazione standard e varianza campionaria. Nella lezione della mattina si era illustrato due
possibili funzioni per calcolare varianza e deviazione standard, le funzioni .P e .C.
Quali sono le funzioni utilizzate da Analisi dati? Lo capiamo anche dalla legenda della varianza, mentre per
la variazione standard chi ha progettato l’output della funzione ha scritto semplicemente devianza standard,
nell’output della varianza è stato scritto varianza campionaria. Questo ci anticipa che le funzioni utilizzate per
fare questi due calcoli sono le funzioni che nella lezione di questa mattina abbiamo definito come funzioni
campionarie, cioè la funzione VAR.C e DEV.ST.C.
E poi ci sono altri indici come asimmetria e curtosi che fanno riferimento alla forma della distribuzione, l’indice
di asimmetria essendo positivo ci rappresenta una distribuzione con asimmetria positiva, in cui la coda di
destra è più ‘allungata’ della coda di sinistra.
Quello che è chiamato intervallo è il range, la differenza tra il massimo e il minimo, quindi 45 nello screen.
E poi c’è il conteggio che è il numero totale di osservazioni, cosicché non ci sia bisogno di tornare a controllare
i dati per vedere quante erano le righe della matrice dei dati, quindi il conteggio riporta già in valore di n, il
numero totale di osservazioni.
Se non abbiamo ‘Analisi dati’ nella barra in alto andiamo su file > opzioni di Excel > componenti aggiuntivi e
installarlo attraverso questo percorso. 6
Questo qui sotto è lo screen di quello che abbiamo appena ottenuto:
Argomento successivo: il calcolo della distribuzione di frequenza.
È una delle applicazioni meno riuscite di Excel, perché ottenere una distribuzione di frequenza in Excel non
è particolarmente difficile ma richiede un livello di elaborazione sicuramente superiore a quello necessario
per gli altri indici sintetici, o anche per tutte le altre analisi. Una distribuzione di frequenza non si ottiene con
un solo clic, anzi bisogna stare attenti perché se non si fanno i passaggi correttamente si ottiene un errore.
Merita comunque di essere vista essendo un’analisi di base. Sicuramente comunque se mi serve ottenere
una distribuzione di frequenza, non apro Excel, ma uso un altro strumento. Nel primo screen è presente la
descrizione teorica, i vari passi, e nel secondo screen a destra ciò che si ottiene in Excel.
Per quello che riguarda la distribuzione di frequenza, come già detto non è a livello di semplicità delle altre
procedure di Excel, e non c’è un comando unico come in Analisi dati. Per costruire una distribuzione di
frequenza dobbiamo definire prima gli estremi delle classi di intervallo. Facendo un piccolo passo indietro,
una distribuzione di frequenza è una distribuzione in cui partiamo dai dati originari, andiamo a contare il
conteggio, la distribuzione di frequenze, però c’è la variabile continua, come nel
risultato delle operazioni di
caso di questo esempio, dove non possiamo contare la frequenza dei singoli valori, quindi per dare un senso
all’operazione di conteggio affinché l’operazione di conteggio sia utile, dobbiamo definire delle classi di
7
intervallo. La prima informazione che ci chiede Excel sono gli estremi di queste classi, quindi le classi non
vengono determinate in automatico, come invece viene fatto dalla maggior parte dei software, ma dobbiamo
essere noi a specificarle. Nell’esempio qui sopra sono state specificate le classi da 0 a 10, da 10 a 20, da 20
a 30, da 30 a 40 e da 40 a 50, e in questa parte di foglio elettronico sono stati indicati gli estremi superiori
delle classi.
Quindi per costruire la distribuzione di frequenza la prima cosa da fare è definire le classi di intervallo, e
scrivere in un insieme di celle gli estremi superiori di queste classi. Per creare il risultato, se
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Appunti Statistics for experiment in inglese
-
Appunti Statistics for experiments in italiano
-
Appunti statistics for finance
-
Statistics for experiments