Appunti Statistics for management

Name: Appunti Statistics for management
Rating: 5.0 (2 reviews)
Author: leovia88

Revisionato il 25/06/2026

di leovia88

Publisher

Vota 5,0/5 (2)

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Appunti completi del corso Statistics for Management, ho scritto esattamente tutto ciò che veniva detto e fatto a lezione, con aggiunta di screen e procedimenti dettagliati anche degli …

Esame Statistics for Management

Facoltà Economia

Dal corso del Prof. Cerioli Andrea

Università Università degli Studi di Parma

A.A. 2020-2021

108 pagine

Appunto

Scarica

Estratto del documento

STATISTICS FOR MANAGEMENT

–

LEZIONE 9.02.2021 9-11 INTRODUZIONE AL CORSO

Testi di riferimento (vedi Syllabus) e modalità esame:

Primo argomento che affronteremo: statistica descrittiva. Ripasso molto veloce poiché sono gli argomenti

più facilmente ripassabili.

La statistica descrittiva è semplice, è una conoscenza consolidata e stratificata negli anni, e c’è una diretta

analogia con il foglio elettronico di Excel. Il foglio elettronico di Excel rappresenta la versione informatizzata

dati, in cui ogni riga del foglio elettronico tipicamente corrisponde a un’unità statistica, cioè

della matrice dei

un’osservazione intesa come un’unità statistica su cui viene fatta la rivelazione, e ogni colonna del foglio

elettronico corrisponde a una variabile.

che possiamo pensare sono innumerevoli: tra i materiali forniti dal prof c’è una tabella Excel in

Gli esempi

cui è riportato il risultato di un’analisi di mercato sul mercato immobiliare. Per una certa città sono riportate

alcune informazioni riferite agli appartamenti in vendita nei differenti isolati della città. Ogni riga rappresenta

un isolato e ogni colonna rappresenta una variabile di interesse per la ricerca di mercato che riguarda gli

appartamenti di quel quartiere.

Di database di questo tipo sicuramente ne abbiamo visti molti e ne vedremo molti: i database che nascono

dall’analisi dei dati delle carte fedeltà delle insegne. Un database di questo tipo identifica ogni riga con un

cliente dell’insegna, e ogni riga del file di Excel con un cliente dell’insegna, e ogni colonna del file di Excel

con una variabile relativa al comportamento di acquisto di quel cliente, quanto ha comprato in una certa

categoria, quanto ha comprato di prodotti in promozione, quanto ha comprato di prodotti di marca

commerciale e così via. Quindi Excel rappresenta lo strumento di base per rappresentare questo tipo di

informazioni, l’analogo informatico della matrice dei dati. E la cella, che è l’unità fondamentale del foglio

elettronico, è l’incrocio di una riga e di una colonna, e rappresenta il valore osservato della variabile colonna

osservato in corrispondenza dell’unità riga.

Excel oltre a consentirci di rappresentare in modo informatico la matrice dei dati e a consentirci di gestire i

dati (la gestione dei dati in Excel non è oggetto del corso poiché ci vorrebbe un corso specifico solo su quello,

però guardiamo i paragrafi del capitolo 1 dove sono spiegati), Excel ha una serie di funzioni statistiche che

consentono di fare le analisi elementari e prendere decisioni fondate sui dati.

Quindi Excel è uno strumento utile perché è uno strumento a disposizione realmente di tutti, non ha la

possibilità di svolgere analisi statistiche sofisticate ma ha comunque la possibilità di svolgere tutte le analisi

statistiche di base che possono comunque essere utili per le decisioni quantitative. Questo motiva il fatto che

abbiamo deciso di affiancare Excel al ripasso dei concetti. Il corso si svolgerà su due binari: da un lato il

ripasso dei concetti, e dall’altro l’implementazione delle analisi, dei calcoli in Excel.

Alle funzioni statistiche di Excel si accede attraverso il menu formule:

Compare l’opzione “inserisci funzione” e se scegliamo la categoria “statistiche” ne troviamo molte, è una

categoria corposa dove possiamo trovare oltre 100 funzioni statistiche differenti. Se vogliamo un elenco

completo delle funzioni possiamo sfruttare questo link alla pagina di supporto di Office, in italiano in questo

caso, in cui c’è l’elenco delle funzioni e una spiegazione (cliccando su ognuna delle funzioni):

https://support.office.com/it-it/article/funzioni-statisticheriferimento-624dac86-a375-4435-bc25-

76d659719ffd

Questa lista è utile per avere una lista delle funzioni e per capire quello che fanno, se non sappiamo qualcosa

di vedere l’help, le possibilità di implementazione sono estremamente numerose

il suggerimento del prof è

quindi è del tutto ragionevole che non si sappia tutto a memoria. Non è un problema andare a vedere l’help,

all’help (soprattutto in italiano)!

ma richiede attenzione, quindi attenzione Molte spiegazioni fornite in italiano

vengono tradotte con traduttori automatici e possono non essere tradotte correttamente. Anche in inglese

possono esserci errori.

In sintesi, le funzioni statistiche sono tante, ma Excel è effettivamente uno strumento semplice e alla portata

di tutti che ci consente moltissime analisi statistiche. Basta una semplice navigazione in internet per sapere

le funzioni e che cosa fanno, certo è che però il contenuto informativo dei siti che incontriamo online deve

vagliato accuratamente perché la qualità dell’informazione non è detto che sia adeguata.

essere

Poi in Excel c’è un componente aggiuntivo che raggruppa le funzioni. Questo componente aggiuntivo si

chiama “Analisi qui sotto nella foto c’è il percorso per

Dati”, installarlo disponibile in tutte le versioni di Excel

(se non c’è è perché non è stato installato, ma si può installare come già detto facendo file > opzioni >

componenti aggiuntivi), e una volta installato il componente aggiuntivo è disponibile attraverso il menu dati.

Analisi Dati è uno strumento più sofisticato rispetto alle singole funzioni, perché mette insieme tante funzioni

diverse: il motore di base è rappresentato dalle singole funzioni, ma le singole funzioni, se vogliamo fare

analisi più sofisticate, dobbiamo usarle in sequenza, dobbiamo usarne tante in sequenza. Attraverso Analisi

Dati, invece, questo raggruppamento delle funzioni viene fatto dal software, e quindi tante funzioni in

sequenza usate in modo appropriato consentono, attraverso un semplice clic in Analisi Dati, analisi più

sofisticate, ad esempio le statistiche descrittive che vediamo ora, ma anche l’inferenza, la regressione

lineare, il campionamento, la generazione di numeri casuali, etc., tutte funzioni che sono disponibili

singolarmente ma che aggregate danno la possibilità di svolgere analisi più complete, più sofisticate.

Iniziamo ora a vedere le statistiche descrittive. Qui sotto intanto alcune funzioni che corrispondono alle

statistiche descrittive più semplici:

Il conteggio, il minimo, il massimo, il calcolo della media, il calcolo della mediana, il calcolo della varianza e

della deviazione standard. Questi sono concetti di base della statistica descrittiva.

La media aritmetica è il concetto più di base: noi cerchiamo un valore, usiamo come sintesi una serie di

valori numerici (la media aritmetica si calcola solo per variabili quantitative), e cerchiamo come sintesi quel

valore che sostituito ai singoli valori osservati ne lascia invariata la somma. Quindi se ad esempio pensiamo

al comportamento di acquisto, lo scontrino medio, il valore medio acquistato di un certo prodotto in un insieme

di consumatori è quell’ammontare che se fosse stato speso in modo uniforme da tutti i consumatori avrebbe

mantenuto invariato l’ammontare totale degli acquisti che ha quel prodotto. Usare quindi la media aritmetica

come sintesi di un fenomeno: quella formula è somma dei valori diviso il loro numero.

La mediana è il valore centrale di una serie di valori ordinati, dobbiamo ordinare i valori dal più piccolo al più

grande e la mediana è il valore centrale. Qual è il senso di questa sintesi diversa dalla media? Abbiamo un

obiettivo di sintesi diverso, cioè vogliamo rappresentare una serie di valori con un valore specifico, che è

quello centrale, quindi si ordinano i valori e la mediana è il valore centrale.

Un’altra sintesi ancora è la moda, che invece è legata alla frequenza. Se prendiamo il fenomeno

dell’ammontare dello scontrino per un certo prodotto, avrebbe senso calcolare la moda? No, perché se i

valori sono tutti diversi hanno tutti frequenza uguale a 1, quindi la moda non è definita, se i valori sono tutti

diversi fra di loro e la moda è il valore con la massima frequenza non ha senso calcolare la massima

frequenza quando le frequenze sono tutte uguali a 1. Quindi per un fenomeno quantitativo continuo come

l’ammontare dello scontrino il calcolo della moda non ha interesse. La moda è un indice di sintesi per

fenomeni tipicamente qualitativi.

La varianza e la deviazione standard non hanno lo stesso obiettivo conoscitivo della media e della mediana

perché sono indici di variabilità. Media, mediana ed eventualmente moda sono indici che hanno l’obiettivo di

rappresentare l’ordine di grandezza di un fenomeno, mentre varianza e scostamento quadratico medio sono

indici di variabilità, quindi misurano le differenze fra i valori. In che modo lo misurano? Lo scostamento

quadratico medio misura le differenze non tra le coppie di valori, bensì tra i valori e la media aritmetica. Quindi

questi indici, scostamento quadratico medio e varianza, sono costruiti in funzione degli scostamenti tra i

singoli valori osservati e la media aritmetica. Sostanzialmente noi prendiamo la somma dei quadrati degli

scostamenti tra i singoli valori osservati e la media aritmetica. Sommatoria degli xᵢ quindi la sommatoria degli

–

scarti dei valori osservati la media aritmetica al quadrato si chiama devianza. Se dividiamo per n abbiamo

la varianza, quindi facciamo la media di questi scarti e abbiamo la varianza, mentre se estraiamo la radice

quadrata della varianza abbiamo lo scostamento quadratico medio. Quindi la varianza e lo scostamento

quadratico medio sono indici di variabilità che si differenziano sostanzialmente per l’unità di misura, perché

espresso nell’unità di misura del fenomeno, la varianza è espressa nel

lo scostamento quadratico medio è

quadrato dell’unità di misura. Da un punto di vista interpretativo lo scostamento quadratico medio è

preferibile, dal punto di vista dei ‘calcoli’ è preferibile la varianza perché non si estrae la radice quadrata e

quindi alcune formule risultano semplificate.

Per calcolare la varianza e lo scostamento quadratico medio ci sono due funzioni differenti: VAR.P e

DEV.ST.P, e poi ho VAR.C e DEV.ST.C. La formula che abbiamo appena enunciato è quella che fa

riferimento alle funzioni .P, perché .P fa riferimento alla popolazione, quindi il calcolo della varianza della

popolazione è il calcolo che utilizza la definizione di varianza che abbiamo appena enunciato, quindi somma

degli scarti al quadrato tra valori osservati e la media diviso il loro numero, quindi diviso n.

Quando però siamo in un problema di inferenza, quindi quando abbiamo a che fare con un campione, la

stima della varianza si ottiene dividendo non più per n, ma per n-1. Quindi la varianza campionaria non è più

la somma degli scarti al quadrato diviso n, ma è la somma degli scarti al quadrato diviso n-1. La varianza

campionaria viene calcolata attraverso la funzione di Excel VAR.C, e la sua radice quadrata è DEV.ST.C.

–

LEZIONE 9.02.2021 14-16 RICHIAMI DI STATISTICA DESCRITTIVA

Screen file caricato in Elly che possiamo utilizzare per illustrare l’applicazione degli indici di statistica

descrittiva. È un file che contiene la variabile MEDV che è un valore di sintesi in migliaia di dollari delle

abitazioni occupate in un certo isolato.

Questo dataset ci può servire per fare i calcoli dei vari indici, commentarli e capirne l’interpretazione. In

questo file ci sono 507 righe, la prima riga è l’intestazione della variabile e quindi ci sono 506 osservazioni,

506 unità statistiche (quello che di solito indichiamo con n) per la variabile MEDV, che è un valore di sintesi

delle abitazioni occupate in ciascun isolato. Quindi ogni riga corrisponde a un isolato (ce ne sono 506 come

e dentro ogni cella abbiamo il valore di sintesi delle abitazioni di quell’isolato.

abbiamo detto),

Siamo all’interno dell’argomento di statistica descrittiva, e o facciamo le analisi una ad una inserendo le

funzioni che ci servono di volta in volta, quindi andiamo in alto su formule > inserisci funzione > guardiamo

la lista delle funzioni statistiche (ce ne sono tante) e scegliamo quella che ci serve.

Se volessimo calcolare la media, selezioniamo media, e poi si seleziona l’area dei valori che vogliamo

utilizzare. c’è il componente aggiuntivo a destra

Altra cosa molto utile è analisi dati. Dentro al menu Dati Analisi dati.

Dopo aver selezionato Analisi dati seleziono ‘statistica e dopo aver schiacciato ok come

descrittiva’

dove l’intervallo dei dati, l’input, è selezionato > spunto ‘etichette

vediamo qui sotto a destra appare la tabella

nella prima riga’ > si preme ok.

Attraverso Analisi dati si possono fare molte analisi, in particolare ci focalizziamo sulle statistiche descrittive.

la statistica descrittiva, cioè l’insieme di tecniche della statistica descrittiva,

Quindi, una volta selezionata è

sufficiente inserire l’intervallo di input dei valori (possiamo inserire anche l’etichetta con la legenda della

variabile, basta spuntare la cella), quindi selezionare tutti i valori a sinistra, cioè tutte le celle che

corrispondono ai valori > nuovo foglio di valori > possiamo mettere come output ad esempio riepilogo delle

statistiche > con un solo clic sono stati calcolati tutti gli indici della statistica descrittiva anziché una alla volta.

5 ‘media’,

È ovvio che la media (della seconda foto a dx) è calcolata attraverso la funzione Analisi dati trae

beneficio dalle singole funzioni statistiche, però le applica in un modo coerente e coordinato. Vediamo poi

infatti la mediana, la moda (che qui abbiamo detto non abbia particolare senso perché siamo in presenza di

una variabile quantitativa e continua, quindi saranno poche, ammesso che ci siano, le unità con valori ripetuti

del fenomeno), deviazione standard e varianza campionaria. Nella lezione della mattina si era illustrato due

possibili funzioni per calcolare varianza e deviazione standard, le funzioni .P e .C.

Quali sono le funzioni utilizzate da Analisi dati? Lo capiamo anche dalla legenda della varianza, mentre per

la variazione standard chi ha progettato l’output della funzione ha scritto semplicemente devianza standard,

nell’output della varianza è stato scritto varianza campionaria. Questo ci anticipa che le funzioni utilizzate per

fare questi due calcoli sono le funzioni che nella lezione di questa mattina abbiamo definito come funzioni

campionarie, cioè la funzione VAR.C e DEV.ST.C.

E poi ci sono altri indici come asimmetria e curtosi che fanno riferimento alla forma della distribuzione, l’indice

di asimmetria essendo positivo ci rappresenta una distribuzione con asimmetria positiva, in cui la coda di

destra è più ‘allungata’ della coda di sinistra.

Quello che è chiamato intervallo è il range, la differenza tra il massimo e il minimo, quindi 45 nello screen.

E poi c’è il conteggio che è il numero totale di osservazioni, cosicché non ci sia bisogno di tornare a controllare

i dati per vedere quante erano le righe della matrice dei dati, quindi il conteggio riporta già in valore di n, il

numero totale di osservazioni.

Se non abbiamo ‘Analisi dati’ nella barra in alto andiamo su file > opzioni di Excel > componenti aggiuntivi e

installarlo attraverso questo percorso. 6

Questo qui sotto è lo screen di quello che abbiamo appena ottenuto:

Argomento successivo: il calcolo della distribuzione di frequenza.

È una delle applicazioni meno riuscite di Excel, perché ottenere una distribuzione di frequenza in Excel non

è particolarmente difficile ma richiede un livello di elaborazione sicuramente superiore a quello necessario

per gli altri indici sintetici, o anche per tutte le altre analisi. Una distribuzione di frequenza non si ottiene con

un solo clic, anzi bisogna stare attenti perché se non si fanno i passaggi correttamente si ottiene un errore.

Merita comunque di essere vista essendo un’analisi di base. Sicuramente comunque se mi serve ottenere

una distribuzione di frequenza, non apro Excel, ma uso un altro strumento. Nel primo screen è presente la

descrizione teorica, i vari passi, e nel secondo screen a destra ciò che si ottiene in Excel.

Per quello che riguarda la distribuzione di frequenza, come già detto non è a livello di semplicità delle altre

procedure di Excel, e non c’è un comando unico come in Analisi dati. Per costruire una distribuzione di

frequenza dobbiamo definire prima gli estremi delle classi di intervallo. Facendo un piccolo passo indietro,

una distribuzione di frequenza è una distribuzione in cui partiamo dai dati originari, andiamo a contare il

conteggio, la distribuzione di frequenze, però c’è la variabile continua, come nel

risultato delle operazioni di

caso di questo esempio, dove non possiamo contare la frequenza dei singoli valori, quindi per dare un senso

all’operazione di conteggio affinché l’operazione di conteggio sia utile, dobbiamo definire delle classi di

intervallo. La prima informazione che ci chiede Excel sono gli estremi di queste classi, quindi le classi non

vengono determinate in automatico, come invece viene fatto dalla maggior parte dei software, ma dobbiamo

essere noi a specificarle. Nell’esempio qui sopra sono state specificate le classi da 0 a 10, da 10 a 20, da 20

a 30, da 30 a 40 e da 40 a 50, e in questa parte di foglio elettronico sono stati indicati gli estremi superiori

delle classi.

Quindi per costruire la distribuzione di frequenza la prima cosa da fare è definire le classi di intervallo, e

scrivere in un insieme di celle gli estremi superiori di queste classi. Per creare il risultato, se

Anteprima

Vedrai una selezione di 20 pagine su 108