Statistica: Una panoramica
La statistica è la scienza che studia i fenomeni collettivi attraverso l'elaborazione e la valutazione dei dati riguardanti tali fenomeni. Lo scopo della statistica è offrire il metodo per la conoscenza quantitativa dei fenomeni collettivi.
Fenomeni e collettivi
Un fenomeno è tutto ciò che può essere direttamente o indirettamente osservato (esempio la qualità della vita di una popolazione). Fenomeni collettivi sono i fenomeni naturali o sociali costituiti da una pluralità di unità elementari la cui misura richiede l'osservazione di tali unità (natalità, mortalità).
Il collettivo statistico è l'insieme che si studia. Il fenomeno collettivo è l'aspetto del collettivo sul quale si indaga. Il collettivo statistico è formato da elementi singoli chiamati unità statistiche, che possono essere omogenei rispetto a uno o più aspetti.
Le unità statistiche sono le componenti elementari del collettivo su cui si effettua lo studio e possono essere:
- Semplici
- Composte
- Multiple
I caratteri di una unità statistica sono le caratteristiche presenti in essa e possono essere:
- Quantitativo → indicato mediante espressioni numeriche (età, reddito)
- Qualitativo → indicato mediante espressioni verbali (professione, titolo di studio)
I valori (che sono caratteri quantitativi) e gli attributi (che sono caratteri qualitativi) delle unità statistiche si presentano con modalità diverse da unità a unità.
Statistica sociale e metodi di ricerca
La statistica sociale è una statistica applicata ed è la disciplina che studia i fenomeni sociali sotto l'aspetto quantitativo; attraverso il metodo induttivo, cerca di individuare le regolarità e tutte le possibili relazioni esistenti tra detti fenomeni. Tali regolarità hanno un valore limitato nel tempo e nel luogo.
Il metodo induttivo è un procedimento a posteriori, in quanto dall'esame dei fatti si risale alle leggi che regolano i medesimi.
I fenomeni sociali che riguardano la società sono:
- La demografia
- La struttura sanitaria
- La statistica economica
La ricerca pura comporta la verifica di ipotesi sulla base di concetti astratti e non immediatamente utilizzabili, ma necessari per il perfezionamento di una teoria. La ricerca applicata ha come scopo la risoluzione di problemi sociali di immediato interesse. La ricerca applicata o rilevazione statistica si articola in 4 fasi:
- Programmazione
- Rilevazione
- Elaborazione
- Interpretazione dei dati
Prima di avviare un processo di ricerca bisogna valutare e individuare:
- Lo scopo della ricerca
- Il budget
- Le risorse umane da impiegare
- I tempi necessari alla realizzazione dell'indagine
Occorre, quindi:
- Definire il tema e gli aspetti su cui indagare
- Procedere al riconoscimento del materiale bibliografico
- Formulare delle ipotesi
Fasi della programmazione
La programmazione è la fase in cui si predispone il piano di rilevazione. La definizione delle unità di rilevazione richiede:
- Chiarezza
- Esatta individuazione
- Stabilire i caratteri quantitativi e qualitativi
Il piano di rilevazione deve indicare:
- I supporti da usare (questionario)
- Da chi deve essere eseguita la rilevazione (automatiche dichiarazione spontanea; riflesse questionari auto compilati)
- Estensione territoriale
- Periodo e durata della rilevazione
- Categorie da includere
- Ampiezza della rilevazione
Modalità e frequenza
Modalità descrive il modo in cui si presenta una certa unità statistica. Frequenza indica il numero di volte con cui si presenta una data modalità del carattere.
Il carattere quantitativo di un'unità statistica si chiama variabile statistica (xi) e può essere:
- Discreta (numeri interi)
- Continua (con intervalli)
Il carattere qualitativo si chiama mutabile statistica (ai) e può essere:
- Rettilinea (c'è una successione)
- Ciclica (c'è un ordine, graduatoria)
- Sconnessa (professione, religione)
I caratteri qualitativi sconnessi sono variabili nominali e si presentano con modalità:
- Non numeriche
- Non ordinabili
I caratteri qualitativi ciclici o rettilinei sono variabili ordinali e sono:
- Non numeriche
- Ordinabili
I caratteri quantitativi sono variabili cardinali e sono:
- Numeriche
- Discreti o continui
- Ordinabili
Analisi statistica dei dati
Quando il ricercatore avrà individuato le unità di analisi più appropriate per i suoi obiettivi, le caratteristiche più rilevanti, le modalità di queste e avrà misurato le modalità rispetto a tali caratteristiche, si passerà all'analisi statistica dei dati. Ci sono tipi diversi di analisi, come:
- Univariata
- Bivariata
- Multivariata
La distribuzione costituisce una sintetica descrizione della popolazione studiata rispetto a una o più variabili. La serie è una distribuzione che non presenta frequenze. La distribuzione di frequenze è l'insieme delle modalità-frequenze.
La tabella statistica è utilizzata per rappresentare meglio la distribuzione di frequenza. La frequenza assoluta indica quante volte la modalità di un carattere si ripete.
Due caratteri quantitativi dello stesso tipo si chiamano variabile statistica doppia. Due caratteri qualitativi dello stesso tipo si chiamano mutabile statistica doppia.
La frequenza assoluta indica il numero di unità statistiche che presentano la stessa modalità. La frequenza relativa indica la proporzione di unità statistiche che presentano la stessa modalità, si ottiene dividendo la frequenza assoluta per il numero di unità statistiche.
Tipi di frequenza
La frequenza si divide in 4 tipi:
- Proporzioni → frequenza assoluta / numero totale dei casi (∑ yi = 1)
- Percentuali → frequenza assoluta / numero totale dei casi * 100 (∑ pi = 100)
- Cumulate → indica quale numero di casi non arriva alla categoria successiva
- Retrocumulate → indica quale numero di casi arriva alla categoria successiva e oltre
Tabelle di frequenze
| Modalità del carattere | Frequenza Assoluta | Cumulate | Retrocumulate |
|---|---|---|---|
| x1 | n1 | N1 = n1 | N |
| x2 | n2 | N2 = n1 + n2 | N - N1 |
| x3 | n3 | N3 = n1 + n2 + n3 | N - N2 |
| Totale | N |
| Modalità | Frequenze % | Cumulate | Retrocumulate | |
|---|---|---|---|---|
| Senza titolo | 30 | 2,5 | 30 | 30 |
| Lic. elementare | 509 | 42,4 | 539 | 1170 |
| Lic. media | 342 | 28,5 | 881 | 661 |
| Diploma | 264 | 22 | 1145 | 319 |
| Laurea | 55 | 4,6 | 1200 | 55 |
| Totale | 1200 | 100 |
Riepilogo delle frequenze
- Frequenza assoluta → ∑ ni
- Frequenza relativa → yi = ni/N → ∑ yi = 1
- Frequenza percentuale → pi = ni/N * 100 → ∑ pi = 100
- Frequenza cumulata → Ni
- Frequenza retrocumulata → N - Ni
Rappresentazione grafica e rapporti statistici
Le distribuzioni si possono presentare in forma tabellare o grafica. Prima di procedere alle rappresentazioni grafiche bisogna conoscere il tipo di variabile (nominale, ordinale o cardinale). Ogni variabile ha il suo grafico. Le rappresentazioni possono essere lineari o circolari.
Tipi di grafici:
- Grafici a barre o ortogrammi (a colonna – variabili nominali a nastri)
- Diagrammi circolari (caratteri qualitativi sconnessi)
- Variabili cardinali discrete → diagrammi in coordinate cartesiane (caratteri quantitativi)
- Variabili cardinali continue → diagrammi in coordinate cartesiane (caratteri quantitativi)
- Continue divise in classi → istogrammi (classi di valori - caratteri quantitativi)
Il confronto tra i dati deve essere fatto per differenza o per rapporto. Il rapporto indica quante unità del dato posto al numeratore corrispondono a una unità del dato posto al denominatore.
Rapporto statistico
Il rapporto statistico è un quoziente tra due termini di cui almeno uno è di natura statistica e tale che tra i due termini esista un legame logico ben definito.
Ci sono due condizioni:
- Almeno uno dei due termini si riferisce a un collettivo
- Nesso logico tra due termini
Però non tutti i rapporti sono statistici perché:
- Almeno una delle due quantità poste a confronto deve riferirsi a un collettivo: esempio decessi/popolazione
- Ci deve essere un nesso logico tra i due dati messi a confronto: esempio n.posti letto/ettari coltivati – n.posti letto/popolazione
I rapporti statistici servono a confrontare nel tempo e nello spazio le intensità o le frequenze dei fenomeni. I rapporti statistici trasformano i dati statistici grezzi in indici. I rapporti statistici si distinguono in:
- Rapporto di composizione
- Rapporto di derivazione
- Rapporto di coesistenza
- Rapporti medi (densità)
Tipi di rapporti statistici
I rapporti di composizione vengono detti di parte al tutto e si ottengono rapportando una frequenza parziale alla frequenza totale. Quindi sono delle frequenze relative e assumono i valori compresi tra 0 e 1. Se il valore viene moltiplicato per 100 si ottengono le percentuali. Esempio: popolazione laureata/popolazione.
Il rapporto di coesistenza è il rapporto tra due frequenze. Esempio: rapporto di mascolinità: maschi/femmine. Questo rapporto indica uno sbilanciamento o uno squilibrio e permette di misurare:
- La struttura per sesso della popolazione (rapporto di mascolinità (Pm) e di femminilità (Pf))
- La struttura per età della popolazione = Pa (pop. anziana) – Pg (pop. giovane) Pa/Pg*100 = indice di vecchiaia (Iv).
Il rapporto di derivazione è un rapporto causa-effetto, nel senso che B è il presupposto di A. Esempio: quoziente di natalità= (nati/popolazione)*100.
I rapporti di densità o medi rapportano la frequenza o l'intensità di un fenomeno alle frequenze o intensità di un altro fenomeno. Esempio: popolazione/superficie territoriale. Sono molto diffusi e si hanno ogni volta che il fenomeno posto al numeratore si può associare mediamente ad ogni unità del denominatore.
Studio della variazione
Per confrontare le intensità di due fenomeni collettivi diversi tra i quali esista un nesso logico si può ricorrere alle differenze tra le intensità o le funzioni (invece dei rapporti statistici).
Possono essere:
- Differenze assolute
- D' = I1 - I2
- D'' = I2 - I1
- D'' = |I1 - I2|
- Differenze relative si ottengono facendo la differenza tra i due fenomeni e dividendo per il fenomeno di riferimento e si otterranno due diverse differenze relative:
- D' = (I1 - I2) / I2
- D' = (I1 - I2) / I1
Indici di posizione
Gli indici di posizione sono di due tipologie:
- Medie di calcolo (media aritmetica, armonica e geometrica)
- Medie lasche (mediane, quartili, moda)
Le medie di calcolo si calcolano con operazioni algebriche (variabili cardinali - caratteri quantitativi).
Le medie lasche vengono calcolate in base alla frequenza. Per le variabili nominali/caratteri qualitativi sconnessi = moda. Per le variabili ordinali/caratteri qualitativi = tutti. Per le variabili cardinali/caratteri quantitativi = tutti.
Media aritmetica
La media aritmetica è un indice sintetico e deve essere compreso tra il valore minimo e massimo della distribuzione: x1 < x̅ < xN.
La media aritmetica è la somma dei valori divisa per il totale del collettivo.
N ∑ xi X = ᶙ = i = 1 → è la sommatoria di i che va da 1 a N di xi fratto N.
La media aritmetica semplice è uguale alla somma dei dati divisi per n, cioè: ᶙ = (X1 + X2 + X3 + ... + Xn) / N.
Se i dati si presentano con una certa frequenza si ha la media ponderata:
s ∑ (xi * ni) X = ᶙ = i = 1 / N.
Variabile statistica divisa in intervalli:
N ∑ (v.c. * ni) xi X = ᶙ = i = 1 v.c. = (xi + xi + 1) / 2.
Esempio di media ponderata
| Voti | N. studenti | Xi * ni |
|---|---|---|
| 4 | 2 | 8 |
| 5 | 3 | 15 |
| 6 | 8 | 48 |
| 7 | 5 | 35 |
| 8 | 2 | 16 |
| Totale | 20 | 122 |
Media ponderata = (4*2 + 5*3 + 6*8 + 7*5 + 8*2) / (2+3+8+5+2) = 122 / 20 = 6,1.
Media divisa in classi
Classe n. persone (frequenze) (anni) ni
- 0-20 (x1), (n1)
- 20-40 (x2), (n2)
- 40-60 (x3), (n3)
Totale 40
V.c. n.persone (frequenze) xi ni
V.c. x1 = 0+20 / 2 = 10
10 35 x1 n1
30 4 x2 n2
V.c. x2 = 20+40 / 2 = 30
50 1 x3 n3
Totale 40
V.c. x3 = 40+60 / 2 = 50
Calcola la media ponderata: ᶙ = (x1*n1 + x2*n2 + x3*n3) / (n1 + n2 + n3) = (10*35 + 30*4 + 50*1) / (35+4+1) = 520 / 40 = 13 → età media ponderata
Proprietà della media
La somma degli scarti (differenze) è uguale a 0.
∑ (xi - ᶙ)*ni = 0
| xi | xi - ᶙ |
|---|---|
| 26 | 26-27 = -1 |
| 27 | 27-27 = 0 |
| 28 | 28-27 = 1 |
Esempio: ᶙ = (26+27+28) / 3 = 27 → ∑ 0
Dimostrazione proprietà della media aritmetica
∑ (xi - ᶙ)*ni = 0
- Dimostrazione
(x1 - ᶙ)n1 = x1*n1 - ᶙ*n1
(x2 - ᶙ)n2 = x2*n2 - ᶙ*n2
(x3 - ᶙ)n3 = x3*n3 - ᶙ*n3
∑ xi*ni - ᶙ* ∑ ni = 0
Proprietà della media
La somma dei quadrati degli scarti (xi - ᶙ) è uguale a un minimo.
∑ (xi - ᶙ)²*ni = MINIMO
La somma dei quadrati degli scarti dei valori della media è SEMPRE MINORE della somma dei quadrati degli scarti dei valori da un qualsiasi altro valore K.
∑ (xi - ᶙ)² < ∑ (xi - k)²
Esempio
| xi | (xi - ᶙ)² | (xi - k)² | |
|---|---|---|---|
| 26 | (26-27)² = 1 | (26-25)² = 1 | (26-28)² = 4 |
| 27 | (27-27)² = 0 | (27-25)² = 4 | (27-28)² = 1 |
| 28 | (28-27)² = 1 | (28-25)² = 9 | (28-28)² = 0 |
TOT ᶙ = 27 → ∑ 0
Proprietà associativa
La media aritmetica è associativa perché il risultato della media generale è uguale al risultato ottenuto dividendo in due o più gruppi i valori.
Esempio
Media generale: 20+21+22+23+24+25+26+27+28 = 216/9 = 24
Media parziale 1 gruppo: 20+21+22+23 = 86/4 = 21,5
Media parziale 2 gruppo: 24+25+26+27+28 = 130/5 = 26
Verifica proprietà associativa: 21,5*4 + 26*5 = 86 + 130 = 216/9 = 24
Proprietà traslativa
Se si aggiunge H a ciascun valore anche la media sarà aumentata di H.
Proprietà omogenea
Se si moltiplica ciascuno dei valori per K anche la media risulterà moltiplicata per K.
Media geometrica e medie lasche
Medie lasche: moda, mediana, quartili
La moda è la massima frequenza. La mediana occupa il posto centrale.
Se N è dispari è il valore che occupa il posto centrale (N+1)/2
Se N è pari sono i due valori centrali (N) e (N+1)/2
Calcolo mediana divisa in classi
Me = xi + (xi+1 - xi) (N/2 - Ni-1) / ni
xi= estremo inferiore
xi+1= estremo superiore
ni= frequenza assoluta
Ni-1= frequenza cumulata
N= frequenze complessive
I quartili
I quartili sono tre:
- 1° quartile = valore inferiore al 25% dei casi
- 2° quartile = valore al 50% dei casi
- 3° quartile= valore al 75% dei casi
Q1 = 1/4 * N = N/4
Q2 = 2/4 * N = 1/2N = Me
Q3 = 3/4N = 3N/4
Calcolo
Se N è dispari:
Q1 = x(N+1/4)
Q3 = x(3N+1/4)
Se N è pari:
Q1 = x(N/4) + x(N/4+1)
Q3 = x(3N/4) + x(3n/4+1)/2
Analisi monovariata: Variabilità e mutabilità
La variabilità è l'attitudine del carattere a presentarsi con diverse modalità. Perché utilizzare le misure di variabilità?
- Perché i valori medi non esprimono realmente l'andamento del fenomeno quando nella distribuzione dei dati è presente un valore atipico. I valori medi sono utili quando la variabilità delle osservazioni non è elevata.
- Perché le misure di tendenza centrale indicano solo il baricentro della distribuzione e non dicono niente sul modo di collocarsi delle altre modalità intorno a questo baricentro.
La variabilità fa riferimento solo ai caratteri quantitativi, mentre la mutabilità fa riferimento solo ai caratteri qualitativi.
La misura della variabilità deve avere due condizioni:
- La vari...
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.