Statistica
Evoluzione storica della statistica
La parola statistica e la parola stato sono etimologicamente legate. Il termine statistica, inteso come raccolta di informazioni organizzate e gestite dallo stato, viene utilizzato per la prima volta da Gerolamo Ghislini (XVII secolo) che indica la statistica come la "descrizione delle qualità che caratterizzano e degli elementi che compongono uno stato".
Ma la statistica esiste già da diversi secoli avanti Cristo: Egitto, Grecia, Roma, Cina; vi sono inoltre evidenze statistiche nella Bibbia ed in diversi testi sacri. Questa scienza incomincia a formalizzarsi tra la seconda metà del XVI secolo e la seconda metà del secolo successivo.
Vengono alla luce due alternativi approcci:
- Indirizzo investigativo
- Indirizzo descrittivo
In seguito, nel campo della statistica, vennero studiate le leggi inerenti il calcolo delle probabilità (Galilei, Pascal, Bernoulli, Bayes, Laplace). Alla fine dell'Ottocento nasce la statistica inferenziale (studio di variabili statistiche inerenti a determinati campioni della popolazione di un Paese al fine di estenderne i risultati alla popolazione intera).
Definizione di statistica
Una definizione di statistica può essere la seguente, essa è: "un insieme di tecniche che hanno per scopo la conoscenza quantitativa di fenomeni collettivi".
Fenomeni collettivi, per essere conosciuti quantitativamente richiedono – innanzitutto – la variabilità molteplicità di fenomeni individuali.
Conoscenza quantitativa
Cosa significa "fornire una conoscenza quantitativa"? Determinare la consistenza dei fenomeni collettivi e le relazioni tra i fenomeni: descrivere, investigare al fine di trovare delle regolarità in un determinato fenomeno, potendo così formulare precise leggi attraverso le quali lo stesso fenomeno potrà essere studiato ed analizzato.
Branche della statistica
Intervengono qui due branche della statistica:
- Statistica descrittiva: come sintetizzare grandi masse di dati? Come estrarre da un insieme apparentemente caotico di dati le informazioni davvero interessanti, quelle utili a prendere decisioni?
- Inferenza statistica: come è possibile estendere i risultati provenienti dall'analisi di un gruppo relativamente piccolo al collettivo, molto più grande, da cui gli elementi che ho osservato sono stati estratti?
Metodo statistico
Illustreremo ora le fasi del metodo statistico:
- Volontà di aumentare le conoscenze di un fenomeno o necessità di prendere decisioni
- Raccolta di informazioni, rilevazione di dati
- Sintesi, inferenza
- Nuove conoscenze, supporto alle decisioni
Per quanto riguarda, invece, le fasi della ricerca statistica che portano dall'individuazione di un problema alla sua risoluzione, avremo un determinato processo produttivo...
Struttura dei dati e linguaggio statistico
L'oggetto della statistica è l'analisi quantitativa dei fenomeni collettivi → questo implica l'osservazione di caratteristiche riferite ad un insieme di soggetti, caratteristiche che si manifestano con intensità diverse nei vari soggetti.
Si definisce unità statistica l'unità elementare sulla quale viene effettuata la misura del fenomeno o dei fenomeni oggetto di analisi. Si dice collettivo statistico o popolazione l'insieme di tutte le unità statistiche su cui viene effettuata l'osservazione di uno o più caratteri.
Le popolazioni possono essere finite o infinite. L'osservazione può essere esperimento o indagine.
Rilevazione dei dati
Vi è una catalogazione dicotomica anche per quanto riguarda le osservazioni dei caratteri sulle unità del collettivo; la rilevazione può essere totale (si osservano tutte le unità della popolazione N) o parziale (si osserva un sottoinsieme di n unità appartenenti ad N → campione). Si deve ricorrere a rilevazioni parziali quando la popolazione è infinita, quando vi è difficoltà nel definire la stessa e se l'osservazione richiede la distruzione delle unità.
La rilevazione parziale è vantaggiosa poiché:
- Richiede minore tempo
- Ha costi inferiori
- Vi è una maggiore accuratezza (si ottengono informazioni in maniera più chiara)
- Vi è la possibilità di acquisire un maggior numero di dati
Sia per rilevazioni totali che per rilevazioni parziali si avrà come punto di riferimento l'unità statistica di rilevazione, un diverso concetto è l'unità, la quale può non coincidere con l'unità statistica che forma il collettivo (ad es. nel censimento demografico l'unità statistica è l'individuo, l'unità di rilevazione corrisponde alla famiglia).
Caratteri e modalità
Il carattere (o variabile) è il fenomeno oggetto di studio, rilevato o misurato con riferimento ad ogni unità statistica. Il carattere assume, in linea generale, valori diversi per ogni u.s. e dovrà avere i seguenti requisiti:
- Deve poter assumere modalità differenti (requisito di variabilità)
- Più elementi della popolazione possono avere la stessa modalità del carattere
- Devono esistere almeno due elementi della popolazione per cui il carattere si presenta con modalità differenti
La modalità è il valore (per caratteri quantitativi) o l'attributo (per caratteri qualitativi) assunto dal carattere nell'unità statistica. Le modalità devono essere:
- Esaustive, cioè in grado di interpretare/cogliere qualunque manifestazione del carattere
- Mutuamente esclusive (o non sovrapposte), ogni elemento della popolazione deve possedere una sola modalità del carattere
Osservare i caratteri delle unità statistiche implica misurare tali caratteri; occorre quindi definire delle regole per poter assegnare numeri o parole a proprietà di oggetti o eventi. Le regole devono essere definite esplicitamente; per molti fenomeni economico-sociali si dovrà quindi procedere alla definizione di un "metro".
Classificazione dei caratteri
I caratteri possono essere classificati in base alle loro modalità, ovvero in base alla loro "scala di misura":
Caratteri qualitativi
Caratteri qualitativi possono essere espressi attraverso:
- Scale nominali (non ordinate), catalogano caratteri qualitativi le cui modalità sono prive di ordine di successione e di qualunque relazione quantitativa tra esse; sono caratteri nominali il sesso, la nazionalità, la religione, etc. → proprietà di uguaglianza o disuguaglianza.
- Scale ordinali (ordinate), sono rappresentate da caratteri qualitativi le cui modalità sono dotate di un ordine implicito di successione ma non di una grandezza (si tratta infatti di caratteri qualitativi!) – si stabilisce una relazione d'ordine tra le categorie, senza alcuna asserzione numerica sulla differenza fra esse. Si può stabilire quale categoria è la "migliore", la "più grande", ma non di quanto sia "migliore", "più grande"; con queste scale si catalogano le gerarchie, i livelli d'istruzione, etc.
Caratteri quantitativi
Caratteri quantitativi avremo:
- Scale ad intervalli, sono rappresentate da caratteri quantitativi le cui modalità possono non solo essere distinte in maggiori, uguali o minori, ma è possibile definire anche l'entità delle loro differenze → esiste quindi una unità di misura costante della scala che consente di stabilire una distanza tra le modalità (ad es. temperatura, etc.).
- Scale a rapporti, sono riferite a caratteri quantitativi le cui modalità godono delle proprietà definite per scale intervallari. Se la scala consente di identificare anche una posizione corrispondente alla mancanza di misura, cioè a zero, si ha una scala di rapporti (ad es. peso, statura, etc.).
I caratteri quantitativi possono inoltre essere espressi:
- Valori singoli (es. reddito mensile di ciascuna unità)
- Classi di intervalli (es. ciascuna unità è assegnata ad una classe di reddito mensile)
La scala di misurazione, secondo la quale sono espressi i caratteri rilevati, condiziona le metodologie statistiche utilizzabili.
Matrice dei dati e tabelle statistiche
Avendo osservato in n unità statistiche p caratteri qualitativi e/o quantitativi, i dati raccolti potranno essere rappresentati per mezzo di una matrice dei dati X avente n righe e p colonne:
Ogni riga rappresenta un'unità statistica, ossia l'elemento base del collettivo a cui è riferita l'informazione raccolta. Ciascuna colonna rappresenta invece un carattere, ossia uno dei fenomeni oggetto di studio che abbiamo misurato sulle unità della popolazione.
I dati rappresentano la materia prima della statistica. Nel caso di ricerche di mercato possono essere classificati in:
- Primari, sono quei dati prodotti in risposta una specifica esigenza di ricerca definita puntualmente in tutti i suoi aspetti, attraverso un'apposita rilevazione sul campo o una raccolta presso il personale esterno.
- Secondari, sono quei dati già realizzati dall'organizzazione stessa o da altri soggetti, in risposta ad obiettivi conoscitivi diversi e indipendenti.
Fonti dei dati
Le fonti dei dati possono essere interne o esterne e sono classificabili in:
- Fonti orali
- Fonti scritte
- Fonti statistiche (forniscono informazioni sotto forma di dati statistici)
- Dati da rilevazioni automatiche (rilevazioni satellitari, etc.)
Le fonti statistiche in Italia si distinguono in:
- Ufficiali, fonti statistiche preposte a tale funzione dalla normativa vigente (Istat)
- Parallele, fonti statistiche formulate da altri enti
I requisiti delle fonti statistiche ufficiali sono imparzialità, affidabilità, pertinenza, economicità, riservatezza e trasparenza.
Sistan, il Sistema Statistico Nazionale, è costituito dalla rete di soggetti pubblici e privati che fornisce l'informazione statistica ufficiale nel nostro Paese (fonti ufficiali). Fu istituito nel 1926.
Processo di ricerca statistica
Oltre alle fonti ufficiali, possiamo acquisire informazioni attraverso l’indagine statistica che attua attraverso un preciso processo di ricerca (5P):
- Obiettivi della ricerca (purpose of the research)
- Piano della ricerca (plan of the research)
- Conduzione della ricerca (performance of the research)
- Elaborazione dei dati (processing of the research data)
- Preparazione relazione (preparation of the research report)
Metodologia statistica
Riepilogando, quindi, possiamo considerare la statistica una metodologia più che una scienza; metodologia che ci permetterà di analizzare e studiare fenomeni di massa per mezzo di approssimazioni.
Fasi dell'indagine statistica
Statistica descrittiva → Probabilità → Inferenza statistica
Sintetizzando l'analisi dell'indagine statistica, possiamo suddividerla in tre macro-fasi:
- Rilevazione
- Elaborazione
- Interpretazione
Per passare dalla rilevazione all'elaborazione risulta indispensabile una rappresentazione tabellare e grafica dei dati (matrice dei dati → tabelle statistiche).
Rilevazione dei dati: tabelle statistiche
Una tabella statistica cataloga le modalità (dette anche intensità per i caratteri quantitativi) di determinati caratteri. Essa è il punto di partenza per l'analisi dati. Le tabelle univariate contengono le modalità di un singolo carattere, quelle multivariate catalogano – invece – più caratteri, al fine di trovare una eventuale relazione tra essi.
La colonna madre contiene le modalità stesse; nelle colonne figlie ci saranno, innanzitutto, le frequenze – che rappresentano il numero di volte in cui si è ottenuta una data manifestazione di un carattere. Potrebbe, però, non interessarci la frequenza, bensì l'intensità o la quantità del carattere e cioè il numero che esprime la misura o l'ammontare di un dato carattere quantitativo (ad es. elenco delle regioni e relativa superficie).
Solitamente nelle tabelle statistiche...
- x rappresenta il carattere e introduce la colonna madre, contenente le diverse modalità;
- La frequenza assoluta è la con cui si presenta una modalità del carattere;
- La frequenza relativa è detta e si definisce come fi dove Σ fi = 1 = n1 + n2 + ... + nm = N e corrisponde alla somma delle frequenze assolute, pari alla numerosità del collettivo (N);
- m è il numero delle modalità/intensità distinte ed è l'estremo superiore della sommatoria;
- i è detto invece indice della sommatoria ed è l'estremo inferiore, la variabile muta – "dummy" – della sommatoria stessa. Le frequenze relative sono comprese tra 0 ed 1; la loro sommatoria Σ fi = 1.
Alcune proprietà della sommatoria:
- Σ (xi + yi) = Σ xi + Σ yi
- Σ (kxi) = kΣ xi
Non sono proprietà della sommatoria:
- (Σ xi)2 ≠ Σ xi2
- Σ (xiyi) ≠ (Σ xi)(Σ yi)
Le frequenze relative descrivono il "peso", esprimibile anche in percentuale, delle unità statistiche (u.s.) sul totale delle osservazioni.
Solo per i caratteri quantitativi o qualitativi ordinabili (detti anche rettilineari, i quali si distinguono da quelli ciclici poiché hanno un primo elemento naturale, ad es. il livello di gradimento di un prodotto) si possono valutare le frequenze cumulate assolute: Fi = f1 + f2 + ... + fi le quali rappresentano il numero di u.s. del collettivo con intensità del carattere minore o uguale a xi.
Si possono poi valutare le frequenze cumulate relative: F'i = (f1 + f2 + ... + fi)/N che rappresentano la frazione di u.s. del collettivo con intensità del carattere minore o uguale a xi. Si ricordi che per i caratteri qualitativi sconnessi non ha senso calcolare le frequenze cumulate.
Si definisce quindi l'intensità totale per le variabili statistiche come la somma di tutte le intensità del carattere nel collettivo; essa può essere espressa dalla seguente formula: V = Σ xifi = Σ nixi/N dove N è la numerosità delle u.s. mentre m è il numero di modalità distinte osservate.
Le frequenze relative cumulate F definiscono la funzione di ripartizione empirica. Per capire al meglio di cosa si tratti è utile fare un esempio, a partire da questa osservazione.
Esempio
Un ragazzo ha conseguito le seguenti valutazioni per 7 esami universitari: 19, 19, 28, 26, 25, 21, 21.
| m | x | fi |
|---|---|---|
| 1 | 19 | 2 |
| 2 | 21 | 2 |
| 3 | 25 | 1 |
| 4 | 26 | 1 |
| 5 | 28 | 1 |
V = Σ xifi = 19 + 19 + 21 + 21 + 25 + 26 + 28 = Σ (2 × 19) + (2 × 21) + (1 × 25) + (1 × 26) + (1 × 28)
La media aritmetica si otterrà dividendo V per N.
Serie e seriazioni
Le serie sono delle distribuzioni di carattere qualitativo (ad es. serie temporali, per analizzare dati assunti in momenti temporali distinti, serie geografiche, etc.); se invece un carattere è quantitativo la sua distribuzione è detta seriazione e può essere:
- Seriazione di frequenze se la classificazione viene effettuata facendo riferimento alle singole e ben individuate modalità del carattere x – qui il termine frequenza indica che nel collettivo è possibile individuare u.s. con intensità del carattere identiche;
- Seriazione di numerosità per classi di intensità (detta anche per classi di valori) o se il carattere è una variabile statistica continua. In quest'ultimo caso occorre formare classi di intensità del carattere – la qual cosa presuppone la suddivisione della stessa distribuzione in intervalli e il raggruppamento delle u.s. entro i limiti assunti come valori estremi di ogni intervallo. Gli intervalli dovranno essere, ovviamente, mutuamente escludentisi: allora a ciascun intervallo si associa il numero di u.s. che presentano l'intensità del carattere compreso in quel dato intervallo.
Nota Bene: Si possono catalogare per classi anche caratteri quantitativi considerati discreti (ad es. fasce di età).
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Lezioni, Statistica
-
Lezioni, Statistica
-
Lezioni, Statistica Psicometrica
-
Appunti lezioni Statistica aziendale