Statistica - corso C
Anno accademico 2015-2016
Prof. Stefano Marchetti, Prof.ssa Caterina Giusti
Dipartimento di Economia e Management, Università di Pisa
Nozioni preliminari
Medie e variabilità
Sommario: Associazione tra due variabili
Schema del corso
Nozioni preliminari
1. Introduzione
Caratteri (o variabili) statistici
Distribuzioni di frequenza
Rappresentazioni grafiche
Perché è utile conoscere la statistica
- Leggendo un giornale (anche sportivo) si incontra inevitabilmente la statistica.
- Viviamo nell’era dei dati, essi sono costantemente prodotti da ognuno di noi tramite social networks, GPS, acquisti digitali, navigazione su internet, etc.
- La statistica ci fornisce strumenti rigorosi per l’analisi dei dati e la corretta interpretazione dei risultati.
- Se i dati sono raccolti correttamente allora essi tramite le statistiche possono aiutare a capire i problemi e/o a prendere decisioni consapevoli.
- La statistica può aiutare a sostenere o confutare una teoria o una idea.
Medie e variabilità
Le medie
2. Medie analitiche
Medie di posizione
Variabilità
3. Definizione di variabilità
Variabilità rispetto ad un valore medio
Variabilità rispetto alle osservazioni
Associazione tra due variabili
L’associazione tra due variabili
4. Distribuzioni doppie di frequenza
Associazione tra due variabili qualitative
Associazione tra una variabile qualitativa e una quantitativa
Associazione tra due variabili quantitative
Interpolazione lineare
Statistica – corso C
Schema del corso 2013 - 2014
STATISTICA
- Concetti generali
- I Parte
- II Parte
- Dati di popolazione
- Dati campionari
- Statistica descrittiva
- Statistica inferenziale
- Distribuzioni di frequenza
- Relazioni tra 2 variabili qualitative e quantitative
- Aritmetica, Moda, Mediana, Varianza, CV
- Geometrica, Quantili, Quadratica, Armonica
- Interpolazione e Indice di correlazione lineare
- Indice di connessione (V)
- Indice di correlazione di Pearson (!)
Parte I
Nozioni preliminari
Introduzione
Caratteri (o variabili) statistici
Nozioni preliminari
Distribuzioni di frequenza
Rappresentazioni grafiche
La statistica per un economista e per una persona “comune”
- Per un economista: la statistica fornisce gli strumenti indispensabili per analizzare, misurare e interpretare i fenomeni economici, sia a livello sociale che aziendale.
- Per chiunque: aiuta a filtrare e recepire in modo critico l’enorme (spesso eccessiva) mole di dati che ci vengono costantemente comunicati attraverso i mezzi di informazione.
- Accade di frequente (molto più di quanto si pensi) che tali dati vengano comunicati in modo parziale o inesatto al fine di far credere una cosa diversa da ciò che in realtà significano.
- La manipolazione e l’uso scorretto (strumentale) dell’informazione è una pratica comune in politica, economia, pubblicità e non solo...
Definizione formale di statistica
La statistica è la materia che si occupa della raccolta dei dati e della loro elaborazione a fini conoscitivi per quanto riguarda le caratteristiche della variabile su quella popolazione statistica o per quanto riguarda le relazioni tra variabili.
Definizione (in)formale di statistica
In pratica la statistica è una disciplina di carattere metodologico che ha per oggetto l’analisi dei fenomeni collettivi dotati di variabilità.
Un fenomeno collettivo è un fenomeno il cui studio riguarda una pluralità di soggetti od oggetti detti unità statistiche.
Esempi:
- Il motivo della presenza di turisti in una certa località.
- Il grado di soddisfazione degli utenti di un’azienda rispetto al servizio erogato.
- Il reddito e il consumo delle famiglie italiane.
- Il numero dei tifosi di una certa squadra di calcio.
Concetti generali
Unità statistiche: unità elementari omogenee che costituiscono l’oggetto di osservazione e di analisi.
Esempi:
- Individui (clienti di un albergo, turisti, studenti, dipendenti di un’azienda, ecc...)
- Oggetti (automobili, aziende, prodotti di consumo, ecc...)
- Aggregati territoriali (stati, regioni, province, comuni, altro ancora)
- Unità temporali (anni, mesi, giorni, altro ancora)
Caratteri (o variabili) statistici
Sono caratteristiche delle unità analizzate che vengono rilevate (cioè osservate) e studiate in relazione ad un determinato fenomeno.
Esempi di caratteri rilevabili se l’unità statistica è un individuo:
- Statura, stato civile, cittadinanza, peso, colore dei capelli, età, reddito percepito, etc.
Esempi di caratteri rilevabili se l’unità statistica è una azienda:
- Numero di dipendenti, fatturato, utile netto, ragione sociale, settore di attività, etc.
Modalità dei caratteri (o variabili) statistici
Modalità: valori o attributi specifici che può assumere un carattere su un’unità statistica.
Le modalità devono essere:
- Esaustive: devono rappresentare tutti i possibili modi in cui si manifesta il carattere.
- Non sovrapposte: ad ogni unità statistica si può associare una sola modalità.
Esempio di unità statistiche, caratteri (o variabili o mutabili) e dati statistici
| Rango | Nome | Cittadinanza | Età | Patrimonio netto (mld$) | Fonte del reddito |
|---|---|---|---|---|---|
| 1 | Carlos Slim Helu and family | Messico | 74 | 73 | Telecom |
| 2 | Bill Gates | USA | 58 | 67 | Microsoft |
| 3 | Amancio Ortega | Spain | 77 | 57 | Zara |
Classificazione delle variabili (o caratteri) statistici
Le variabili statistiche possono essere:
- Qualitative: se la variabile presenta modalità non numeriche
- Sconnesse (o nominali): le modalità non si possono ordinare
- Ordinate: le modalità presentano un ordine logico
- Quantitative: se la variabile presenta modalità numeriche
- Discrete: scaturiscono da un conteggio
- Continue: scaturiscono da una misurazione
Classificazione delle variabili (o caratteri) statistici
| Variabile | Modalità | Tipologia della variabile |
|---|---|---|
| Rango | 1, 2, 3, ... | Qualitativa ordinale |
| Nome | Slim, Gates, Ortega, ... | Qualitativa nominale |
| Età | 74, 58, 77, ... | Quantitativa discreta |
| Patrimonio | 73, 67, 57, ... | Quantitativa continua |
| Fonte del reddito | Telecom, Microsoft, Zara, ... | Qualitativa nominale |
| Sesso | M, F | Qualitativa nominale |
| Cittadinanza | Messico, USA, Spagna, ... | Qualitativa nominale |
| Continente | Centro america, Nord america, Europa ... | Qualitativa nominale |
Le frequenze
Frequenza assoluta (ni): numero di volte in cui la i-esima modalità di una variabile viene osservata nel collettivo.
Frequenza relativa (fi): frazione di volte in cui la i-esima modalità di una variabile viene osservata nel collettivo.
Frequenza percentuale (pi): percentuale di volte in cui la i-esima modalità di una variabile viene osservata nel collettivo.
Posto N la numerosità del collettivo risulta evidente che fi = ni / N; pi = fi * 100.
Distribuzione di una variabile statistica
Distribuzione di frequenza assoluta
Funzione che associa alla modalità di una variabile, sia essa quantitativa o qualitativa, le corrispondenti frequenze assolute osservate in un collettivo statistico.
Distribuzione di frequenza relativa (o percentuale)
Funzione che associa alla modalità di una variabile, sia essa quantitativa o qualitativa, le corrispondenti frequenze relative (o percentuali) osservate in un collettivo statistico.
Distribuzione di una variabile statistica
Tabella: Distribuzione di frequenza per macro regione geografica di appartenenza dei 197 individui più ricchi nel mondo, anno 2013. Fonte: Forbes
| Macro Regione | ni | fi | pi |
|---|---|---|---|
| Africa | 4 | 4/197=0.02 | 2 |
| Asia | 37 | 37/197=0.19 | 19 |
| Centro-Sud America | 20 | 0.10 | 10 |
| Europa dell’Est | 24 | 0.12 | 12 |
| Europa | 45 | 0.23 | 23 |
| Medio Oriente | 4 | 0.02 | 2 |
| Nord America | 61 | 0.31 | 31 |
| Oceania | 2 | 0.01 | 1 |
| Totale | 197 | 1 | 100 |
Distribuzione di una variabile statistica
Frequenza assoluta cumulata
La frequenza assoluta cumulata di una modalità è pari alla somma della frequenza assoluta della modalità considerata con le frequenze assolute delle modalità precedenti.
Distribuzione di una variabile statistica
Frequenza relativa (percentuale) cumulata
La frequenza relativa (percentuale) cumulata di una modalità è pari alla somma della frequenza relativa (percentuale) della modalità considerata con le frequenze relative (percentuali) delle modalità precedenti.
Distribuzione di una variabile statistica
Tabella: Distribuzione di frequenza della popolazione Italiana di età maggiore 14 anni per titolo di studio (valori in migliaia), febbraio 2014. Fonte: ISTAT
| Titolo di Studio | ni | fi | pi | Nj | Fj | Pj |
|---|---|---|---|---|---|---|
| Lic. Elementare - Nessuno | 10 967 | 0.21 | 21 | 10 967 + 0 = 10 967 | 0.21 | 21 |
| Lic. Media | 16 275 | 0.31 | 31 | 16 275 + 10 967 = 27 242 | 0.31 + 0.21 = 0.52 | 31 + 21 = 52 |
| Diploma | 18 478 | 0.36 | 36 | 18 478 + 27 242 = 45 720 | 0.36 + 0.52 = 0.88 | 36 + 52 = 88 |
| Laurea e Post-laurea | 6 451 | 0.12 | 12 | 6 451 + 45 720 = 52 171 | 0.12 + 0.88 = 1 | 12 + 88 = 100 |
| Totale | 52 171 | 1 | 100 | – | – | – |
Suddivisioni in classi di una variabile quantitativa
Quando una variabile quantitativa presenta molte modalità distinte risulta controproducente organizzare i dati con una distribuzione di frequenza. In questi casi è utile raggruppare le modalità (i valori) in classi. Le classi sono intervalli di valori tra loro disgiunti (cioè che non si sovrappongono). La dimensione dell’intervallo è detta ampiezza della classe.
Non esiste una regola per fissare il numero di classi, il buonsenso vuole che siano comprese tra 4 e 20 (ma non è una regola). Non è necessario che le classi abbiano la medesima ampiezza e non vi è una regola per fissare l’ampiezza ottima per ogni classe. Spesso le classi sono formate in modo da avere la stessa ampiezza, che è pari a: max(X) - min(X) / k, dove X è la variabile, k è il numero di classi.
Suddivisioni in classi di una variabile quantitativa
Raggruppamento in classi di età della stessa ampiezza dei 197 individui più ricchi secondo la classifica di Forbes nel 2013.
Distribuzione di frequenza (non per classi):
| Età | ni | Età | ni | Età | ni |
|---|---|---|---|---|---|
| 29 | 1 | 53 | 2 | 68 | 8 |
| 36 | 1 | 55 | 1 | 69 | 6 |
| 40 | 2 | 56 | 8 | 70 | 5 |
| 41 | 1 | 57 | 7 | 71 | 7 |
| 42 | 1 | 58 | 10 | 72 | 3 |
| 45 | 1 | 59 | 4 | 73 | 6 |
| 46 | 5 | 60 | 4 | 74 | 9 |
| 47 | 5 | 61 | 3 | 75 | 5 |
| 48 | 5 | 62 | 3 | 76 | 2 |
| 49 | 3 | 63 | 5 | 77 | 5 |
| 50 | 4 | 64 | 6 | 78 | 2 |
| 51 | 2 | 65 | 1 | 79 | 4 |
| 52 | 2 | 66 | 6 | 80 | 3 |
| Tot | 188 |
Suddivisioni in classi di una variabile quantitativa
Posto X variabile Età, per la distribuzione in esame risulta
min(X) = 29
max(X) = 94
Si decide di suddividere la variabile in 5 classi di pari ampiezza, quindi k = 5
Ampiezza di classe = (94 - 29) / 5 = 13
Dunque ogni classe ha ampiezza 13 anni.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Statistica descrittiva - Appunti
-
Appunti Statistica descrittiva
-
Statistica descrittiva - Appunti
-
Appunti COMPLETI - Statistica descrittiva e Inferenza Statistica