D L
OMENICO EOGRANDE
Appunti di Francesca Barbato
!
! STATISTICA I
Università degli Studi di Bari “Aldo Moro”
D IPARTIMENTO DI STUDI AZIENDALI E GIUSPRIVATISTICI
Corso di laurea in Marketing e comunicazione d’azienda
Anno accademico 2014 - 2015
!
! Sommario
1. INTRODUZIONE ALLA STATISTICA 1
1.1. Le fasi dell’indagine statistica 1
1.2. La costruzione del campione 3
1.3. I caratteri 4
1.4. Le scale di misura 4
2. LE TABELLE STATISTICHE 5
2.1. Variabili statistiche 5
2.2. Mutabili statistiche 6
2.3. Serie storiche e serie territoriali 6
2.4. Tabelle statistiche doppie 6
3. LA DISTRIBUZIONE DI FREQUENZA 8
3.1. Le frequenze con Excel 8
4. RAPPRESENTAZIONI GRAFICHE 9
4.1. Rappresentazioni grafiche delle variabili statistiche 9
4.2. Rappresentazioni grafiche delle mutabili statistiche 10
4.3. Rappresentazioni grafiche delle serie storiche 10
4.4. Rappresentazioni grafiche delle variabili o mutabili statistiche doppie 10
5. I RAPPORTI STATISTICI 12
5.1. Confronto mediante differenze e mediante rapporti 12
5.2. Frequenze relative o percentuali 12
5.3. Saggi di incremento o di decremento 12
5.4. Rapporti di composizione o di parte al tutto 13
5.5. Rapporti di derivazione 13
5.6. Rapporto di coesistenza 13
5.7. Rapporto di durata 13
5.8. Rapporti medi 14
5.9. Numeri indici 14
6. MEDIE 16
6.1. Le medie analitiche 16
6.2. Le medie lasche 19
6.3. Le medie con Excel 21
7. VARIABILITÁ MISURE DI DISPERSIONE E DI DISUGUAGLIANZA 22
7.1. Campo di variazione 22
7.2. Differenza interquartilica 22
7.3. Scostamenti medi per la misura della dispersione intorno a valori caratteristici 23
7.4. Scarti standardizzati o scarti ridotti 23
Appunti di Francesca Barbato Statistica I
!
7.5. Scostamento medio dalla mediana 24
7.6. Scomposizione della devianza 24
7.7. Gli indici di dispersione con Excel 25
7.8. Differenza media per la misura della disuguaglianza 25
7.9. Variabilità relativa 26
7.10. Concentrazione 27
8. ASIMMETRIA, CURVA NORMALE E DISNORMALITÀ 29
8.1. Concetto e indici di asimmetria 29
8.2. Distribuzioni empiriche e curve continue 30
8.3. La curva normale 30
8.4. Espressione algebrica della curva normale 31
8.5. Concetto e misura di disnormalità 32
9. RAPPRESENTAZIONE ANALITICA DELLE DISTRIBUZIONI 33
9.1. Scopi della rappresentazione analitica 33
9.2. Le fasi della rappresentazione analitica 33
10. CONCETTI GENERALI SULLE RELAZIONI INTERNE TRA LE COMPONENTI
DI UNA VARIABILE STATISTICA DOPPIA RAPPRESENTAZIONE ANALITICA 36
DELLE DISTRIBUZIONI
10.1. Distribuzioni in due o più variabili 36
10.2. Concetto di indipendenza in generale 37
10.3. Indipendenza in media 37
10.4. Dipendenza e interdipendenza 37
11. ANALISI DELLA DIPENDENZA 39
11.1 Significato del termine regressione e varianza di regressione 39
11.2 Regressione nel caso di variabili statistiche doppie in forma di serie di coppie di valori 39
11.3 Codevianza, Covarianza e formule alternative 40
11.4 Regressione nel caso di variabili statistiche doppie in forma di tabella a doppia entrata 40
11.5 Varianza di regressione 41
11.6 Indice di connessione e rapporto di correlazione 42
12. ANALISI DELL’INTERDIPENDENZA 43
12.1. Concordanza e discordanza. Coefficiente di correlazione 43
12.2. Indici di cograduazione 44
13. ANALISI DELLE MUTABILI STATISTICHE 45
13.1. Indici di mutabilità e di eterogeneità 45
13.2. Indice di connessione e associazione 45
14. FORMULARIO I
14.1. La distribuzione di frequenza I
14.2. I rapporti statistici I
14.3. Le medie I
14.4. Variabilità misure di dispersione e disuguaglianza III
14.5. Asimmetria, curva normale e disnormalità IV
14.6. Rappresentazione analitica delle distribuzioni V
Appunti di Francesca Barbato Statistica I
!
14.7. Concetti generali sulle relazioni interne tra le componenti di una variabile statistica doppia
rappresentazione analitica delle distribuzioni V
14.8. Analisi della dipendenza V
14.9. Analisi dell’ interdipendenza VI
14.10. Analisi delle mutabili statistiche VI
14.11. Tavola B VII
Appunti di Francesca Barbato Statistica I
! 24 febbraio 2015 – lezione 1
1. INTRODUZIONE ALLA STATISTICA
La statistica è la scienza che si occupa della trattazione dei dati rilevati su fenomeni misurabili con lo scopo
di rappresentare e sintetizzare i fenomeni d’interesse, interpretare la natura della relazione fra i fenomeni e
prendere delle decisioni in merito alle ipotesi d’interesse; ad esempio le imprese svolgono delle indagini sta-
tistiche con lo scopo di ottenere informazioni riguardanti la variazione dei prezzi sul mercato, il potere di ac-
quisto della clientela ecc.
Possiamo, poi, parlare di statistica descrittiva intendendo il complesso dei metodi che comprendono la rac-
colta, la presentazione e la caratterizzazione di un insieme di dati con lo scopo di descriverne le varie caratte-
ristiche in maniera appropriata; e statistica inferenziale, quella che riguarda i metodi che permettono di
prendere le informazioni ottenute sui campioni e proiettarli all’intera popolazione. Ovviamente le due stati-
stiche sono contigue fra loro perché quando si effettua un’indagine su un campione prima, sicuramente, bi-
sognerà descrivere i dati.
L’oggetto di studio di un’indagine statistica è detto popolazione; per popolazione si intende il collettivo
composto dalle unità statistiche nonché i casi individuali oggetto di osservazione (esempio: l’insieme delle
imprese italiane è la popolazione, le singole imprese sono le unità statistiche).
1.1. Le fasi dell’indagine statistica
Quando si svolge un’indagine statistica, si vuole, pertanto, conoscere il comportamento di una popolazione.
Tale indagine si può articolare in quattro fasi:
1. Definizione degli obiettivi: è la fase della pianificazione ossia si identifica qual è la popolazione oggetto
di studio e qual è l’obiettivo che si vuole raggiungere con l’indagine statistica (esempio analisi del com-
portamento di acquisto del consumatore) Una popolazione, però, è soggetta a mutamenti nel tempo e as-
sume comportamenti diversi a seconda della località dove è situata; è per tale ragione che quando si ef-
fettua un’indagine statistica bisogna individuare la popolazione dal punto di vista geografico e tempora-
le ed indicare queste informazioni a margine delle tabelle e dei grafici (esempio: indagine condotta sulla
popolazione di Bari nel 2014).
Una volta definita la popolazione, bisognerà individuare cosa si vuole studiare della popolazione, ossia
quali sono le caratteristiche che si vogliono conoscere (esempio: sesso, età, residenza, lavoro ecc.), soli-
tamente indicate con x. Ovviamente sarà necessario individuare delle caratteristiche essenziali, la cui es-
senzialità sarà valutata rispetto alle difficoltà che si riscontra nell’acquisizione delle informazioni.
2. Rilevazione dei dati: è l’insieme delle operazioni con le quali si viene a conoscenza dei dati. I dati pos-
sono pervenire direttamente o indirettamente a seconda della fonte utilizzata:
Fonte diretta: i dati sono rilevati direttamente dalle unità statistiche;
• Fonte indiretta: i dati sono forniti da enti che hanno già condotto un’indagine, pertanto hanno già
• le informazioni. Un esempio è l’ISTAT, un ente di ricerca alle dipendenze del Consiglio dei Mini-
stri che produce delle statistiche per conto dello Stato.
A tal proposito è necessario distinguere il dato dalla informazione: il dato deriva direttamente dalla
singola unità statistica, l’informazione invece è il frutto di un’operazione che è condotta su tutti i dati
che si riferiscono ad una determinata caratteristica (esempio: il dato è l’essere maschio o femmina;
l’informazione è la percentuale di maschi e la percentuale di femmine della popolazione).
Se le informazioni che si cercano non sono state già rilevate da altri enti sarà necessario richiedere i dati
direttamente alle unità statistiche e, per far ciò è necessario predisporre un supporto per la rilevazione
dei dati che solitamente corrisponde con il questionario.
Il questionario contiene delle domande formulate senza che vi possano esserci equivoci nella compren-
sione e in modo che il dato che si acquisisce possa essere classificato in maniera corretta; infatti, spesso
si preferisce utilizzare delle domande chiuse per le quali si è condizionati nel dare risposte prestabilite
Appunti di Francesca Barbato Statistica I 1
!
! rispetto alle domande aperte. Negli anni si sono diffusi altri metodi di rilevazione che richiedono
l’ausilio di un computer e software specializzati, un esempio è la tecnica Cati basata su interviste inte-
rattive mediante l’uso del telefono: un apposito software effettua le chiamate e registra le risposte che
riceve nella memoria elettronica.
Un aspetto importante nella fase della rilevazione dei dati è quello che riguarda la decisione
dell’indagine che si vuole effettuare. Quando si sceglie di avviare un’indagine statistica è necessario co-
noscere i mezzi finanziari e il tempo a disposizione, a seconda dei mezzi che si possiede si può scegliere
se avviare una:
! Indagine totale: i dati da rilevare devono riferirsi a tutta la popolazione oggetto di studio (cd. cen-
simento). Un’indagine totale richiede molto tempo e alte disponibilità monetarie; ma se da un lato
presenta questi svantaggi dall’altro l’indagine offre delle informazioni certe. Le informazioni stati-
stiche calcolate sull’intera popolazione sono detti parametri, ogni parametro corrisponde ad un ca-
rattere.
! Indagine parziale (Indagine campionaria): è lo studio condotto su una parte della popolazione in
esame, cd. campione. È importante sottolineare che l’oggetto di studio resta sempre la popolazio-
ne, nel senso il campione rappresenta solo il mezzo con il quale giungere a conoscenza del feno-
meno. Si suole solitamente indicare con N la numerosità della popolazione e con n quella del cam-
pione.
L’indagine campionaria richiede dei tempi molto più brevi e risorse finanziarie minori rispetto a
quella totale è per tale ragione che è utilizzata più frequentemente: ad esempio, nell’ambito econo-
mico le imprese preferiscono utilizzare un’indagine campionaria perché hanno la necessità di rice-
vere rapidamente delle informazioni per attuare una strategia adeguata. Purtroppo però, le informa-
zioni che si ottengono dall’indagine parziale sono probabili, questo perché il campione su cui si ri-
levano i dati non rappresenta tutta la popolazione; è ovvio, quindi, che si commetteranno degli er-
rori che andranno individuati e ridotti mediante delle tecniche. Un metodo che permette di diminui-
re l’errore è l’aumento delle unità statistiche del campione ma questo comporterebbe un aumento
dei costi e del tempo necessario per l’indagine; per questo è necessario cercare un equilibrio fra
tempo costi ed informazioni che si vogliono ottenere.
Il risultato ottenuto sul campione è detto statistica.
Un esempio di indagine totale condotta dall’ISTAT è il censimento della popolazione ogni 10 anni, è
un’indagine che richiede dei dati che si riferiscono a tutte le unità statistiche della popolazione. Il cen-
simento è un’indagine che richiede tempi molto lunghi sia nella fase di rilevazione ma anche in quella di
elaborazione, presentazione ed interpretazione dei dati. Nell’arco dei 10 anni, però l’ISTAT effettua del-
le indagini campionarie dette intercensuali.
Esistono dei casi in cui, la rilevazione campionaria è una scelta obbligata, si pensi ad esempio al con-
trollo della qualità della produzione che comporta la distruzione del prodotto sottoposto alla verifica: è
ovvio che non tutti i beni prodotti bisogna sottoporli al controllo altrimenti si distruggerebbe l’intera
produzione!
Se il fenomeno viene studiato dall’indagine con riferimento ad un dato momento lo si definisce feno-
meno di stato; un esempio è il censimento della popolazione. Si contrappone a questo un fenomeno ri-
ferito ad un intervallo di tempo, detto fenomeno di flusso.
3. Elaborazione dei dati: dopo aver rilevato i dati, vengono effettuate delle operazioni attraverso le quali i
dati rilevati da grezzi diventano derivati, cioè vengono classificati e sintetizzati in modo da ottenere dati
più espressivi.
4. Presentazione ed interpretazione dei risultati: le informazioni ottenute grazie alla elaborazione dei dati
vengono presentate attraverso dei grafici, delle tabelle o degli indici e spiegati alla luce di ciò che si è
studiato o già si conosceva di quel fenomeno.
Appunti di Francesca Barbato Statistica I 2
!
! 25 Febbraio 2015 – Lezione 2
1.2. La costruzione del campione
Nella costruzione dei campioni, quando si decide di svolgere un’indagine parziale, è possibile utilizzare di-
verse metodologie che distinguiamo in:
1. Scelta casuale delle unità statistiche: è il metodo più diffuso e richiede che ciascuna unità statistica del
collettivo abbia la stessa probabilità di essere inclusa nel campione. In altre parole il campione è costrui-
to in maniera casuale ma che assicura l’imparzialità dell’inclusione di ogni unità della popolazione.
È ovvio che nella costruzione del campione bisogna essere a conoscenza della base, ossia della docu-
mentazione delle unità statistiche del collettivo da utilizzare per la scelta. Nella metodologia della scelta
casuale possiamo, poi, distinguere:
! Campionamento casuale semplice: a ciascuna unità statistica viene affidata un’etichetta che viene
utilizzata per identificarla; mediante un’estrazione o con l’ausilio di particolari software o di tavole
aleatorie, verranno scelte delle etichette. Le unità che corrisponderanno alle etichette estratte com-
porranno il campione. Esistono due tipi di estrazione:
L’estrazione con ripetizione: l’etichetta estratta deve essere reinserita nella base della popola-
• zione; ha così la possibilità di essere estratta per più volte.
L’estrazione senza ripetizione: l’etichetta estratta non viene più reinserita nella base e pertanto
• compare una sola volta.
! Campionamento casuale sistematico: il criterio della casualità è sempre rispettato ma, si differen-
zia dal campionamento semplice in quanto, dopo aver assegnato a ciascuna unità un’etichetta, se ne
estrae solo una. Le altre unità saranno scelte in base ad un intervallo che è stato stabilito; nel senso
che all’etichetta estratta si dovranno aggiungere o sottrarre degli intervalli per poter individuare le
unità successive.
! Campionamento casuale stratificato: tale tipo di costruzione richiede preliminarmente la suddivi-
sione del collettivo in più classi, più propriamente definiti strati, ciascuna con elementi il più pos-
sibile omogenei tra loro. La suddivisione in più strati viene effettuata secondo dei parametri ben
precisi. Da ciascuna delle classi vengono estratti dei campioni casuali.
I vantaggi di effettuare un campionamento stratificato sono sicuramente la rappresentatività del
campione, nel senso che si elimina la possibilità che alcuni strati non siano del tutto rappresentati
(casi che potrebbero presentarsi con il campionamento casuale semplice); la distribuzione comples-
siva nei vari strati permette di ridurre l’eterogeneità del campione (è evidente che se tutte le unità
presentano una stessa modalità, basterebbe esaminarne solo una).
! Campionamento a stadi: il campione lo si costruisce effettuando una doppia estrazione che per-
mette di individuare delle unità primarie e, mediante la seconda estrazione su queste di individuare
delle unità secondarie. Le unità secondarie saranno quelle che formeranno il campione; eventuali
errori commessi nella scelta delle unità primarie non potrà essere corretto nel secondo stadio. Que-
sto tipo di campionamento è molto utilizzato se il territorio della popolazione è vasto.
! Campionamento a grappoli: il campione sarà composto da tutte le unità contigue all’unica che
viene estratta.
2. Scelta ragionata delle unità statistiche (campioni non probabilistici): le unità statistiche vengono indi-
viduate con un procedimento non del tutto casuale. La scelta delle unità si fonda sulla conoscenza che
ha il ricercatore del fenomeno che intende analizzare; in altre parole è una scelta impostata sotto il profi-
lo soggettivo del ricercatore. Questa metodologia viene utilizzata per indagini localizzate su poche unità
territoriali o per ricerche su beni industriali. In questo caso possiamo distinguere:
! Campionamento per quote: il ricercatore divide la popolazione in più strati e successivamente in-
dividua le unità che comporranno il campione. Il campionamento per quote richiede che già si co-
Appunti di Francesca Barbato Statistica I 3
!
! nosca la distribuzione, ossia si conosce la struttura della popolazione in base alla variabile oggetto
di studio. È molto utilizzato nelle ricerche di mercato.
! Campionamento a valanga: il ricercatore non conosce l’intera popolazione ma solo alcune unità,
attraverso queste unità però ottiene informazioni anche sulle altre.
! Campionamento a scelta ragionata: le unità statistiche vengono scelte sulla base di alcune loro
caratteristiche. Viene utilizzato in caso di campioni molto piccoli o per completare le informazioni
raccolte grazie all’importanza di alcune unità.
1.3. I caratteri
Per carattere si intende la caratteristica, l&rs
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.