STATISTICA
1 SLIDE
La statistica è la scienza che studia i fenomeni collettivi attraverso l’elaborazione e la valutazione dei dati
riguardanti tali fenomeni.
Lo scopo della statistica è offrire il metodo per la conoscenza quantitativa dei fenomeni collettivi.
Fenomeno è tutto ciò che può essere direttamente o indirettamente osservato (esempio la qualità della vita di
una popolazione).
Fenomeni collettivi sono i fenomeni naturali o sociali costituiti da una pluralità di unità elementari la cui
e misura richiede l’osservazione di tali unità (natalità, mortalità)
conoscenza
Collettivo statistico è l’insieme che si studia.
Fenomeno collettivo è l’aspetto del collettivo sul quale si indaga.
Il collettivo statistico è formato da elementi singoli chiamati Unità statistiche, che possono essere omogenee
rispetto a uno o più aspetti.
Le unità statistiche sono le componenti elementari del collettivo su cui si effettua lo studio e possono essere:
SEMPLICI
COMPOSTE
MULTIPLE
I caratteri di una unità statistica sono le caratteristiche presenti in essa e possono essere:
QUANTITATIVO→ indicato mediante espressioni numeriche (età, reddito)
1. QUALITATIVO→ indicato mediante espressioni verbali (professione, titolo di studio)
2.
I VALORI (che sono caratteri quantitativi) e gli ATTRIBUTI (che sono caratteri qualitativi) delle unità
statistiche si presentano con modalità diverse da unità a unità.
La STATISTICA SOCIALE è una statistica applicata ed è la disciplina che studia i fenomeni sociali sotto
l’aspetto quantitativo; attraverso il METODO INDUTTIVO, cerca di individuare le REGOLARITÀ e tutte le
possibili relazioni esistenti tra detti fenomeni.
Tali regolarità hanno un valore limitato nel tempo e nel luogo.
Il METODO INDUTTIVO è un procedimento a posteriori, in quanto dall’esame dei fatti si risale alle leggi
che regolano i medesimi.
I FENOMENI SOCIALI che riguardano la società sono:
1. La DEMOGRAFIA
2. La STRUTTURA SANITARIA
3. La STATISTICA ECONOMICA
La RICERCA PURA comporta la verifica di ipotesi sulla base di concetti astratti e non immediatamente
utilizzabili, ma necessari per il perfezionamento di una teoria.
La ricerca applicata ha come scopo la risoluzione di problemi sociali di immediato interesse.
La ricerca applicata o rilevazione statistica si articola in 4 fasi:
1. PROGRAMMAZIONE
2. RILEVAZIONE
3. ELABORAZIONE INTERPRETAZIONE DEI DATI
Prima di avviare un processo di ricerca bisogna VALUTARE e INDIVIDUARE:
Lo scopo della ricerca
Il budget
Le risorse umane da impiegare
I tempi necessari alla realizzazione dell’indagine.
Occorre, quindi:
Definire il tema e gli aspetti su cui indagare
Procedere al riconoscimento del materia bibliografico
Formulare delle ipotesi.
La PROGRAMMAZIONE è la fase in cui si predispone il piano di rilevazione.
La definizione delle unità di rilevazione richiede:
CHIAREZZA
ESATTA INDIVIDUAZIONE
STABILIRE I CARATTERI QUANTITATIVI E QUALITATIVI.
Il piano di rilevazione deve indicare:
I supporti da usare (questionario)
– –
Da chi deve essere eseguita la rilevazione (automatiche dichiarazione spontanea; riflesse
questionari auto compilati)
Estensione territoriale
Periodo e durata della rilevazione
Categorie da includere
Ampiezza della rilevazione
2 SLIDE
MODALITÀ→ descrive il modo in cui si presenta una certa unità statistica
FREQUENZA→ indica il numero di volte con cui si presenta una data modalità del carattere.
Il CARATTERE QUANTITATIVO di un’unità statistica si chiama VARIABILE STATISTICA (xi) e può
–
essere: DISCRETA (numeri interi) CONTINUA (con intervalli).
Il CARATTERE QUALITATIVO si chiama MUTABILE STATISTICA (ai) e può essere:
RETTILINEA (c’è una successione) – CICLICA (c’è un ordine, graduatoria) – SCONNESSA (professione,
religione)
I CARATTERI QUALITATIVI SCONNESSI sono VARIABILI NOMINALI e si presentano con modalità:
NON NUMERICHE
NON ORDINABILI
I CARATTERI QUALITATIVI CICLICI O RETTILINEI sono VARIABILI ORDINALI e sono:
NON NUMERICHE
ORDINABILI
I CARATTERI QUANTITATIVI sono VARIABILI CARDINALI e sono:
NUMERICHE
DISCRETE O CONTINUE
ORDINABILI.
Quando il ricercatore avrà individuato le unità di analisi più appropriate per i suoi obiettivi, le caratteristiche
più rilevanti, le modalità di queste e avrà misurato le modalità rispetto a tali caratteristiche si passerà
all’ANALISI STATISTICA DEI DATI.
Ci sono tipi diversi di analisi, come:
– –
UNIVARIATA BIVARIATA MULTIVARIATA.
La DISTRIBUZIONE costituisce una sintetica descrizione della popolazione studiata rispetto ad una o più
variabili.
La SERIE è una distribuzione che non presenza frequenze.
La DISTRIBUZIONE DI FREQUENZE è l’insieme delle MODALITÀ-FREQUENZE.
La TABELLA STATISTICA è utilizzata per rappresentare meglio la distribuzione di frequenza.
La FREQUENZA ASSOLUTA indica quante volte la modalità di un carattere si ripete.
2 CARATTERI QUANTITATIVI DELLO STESSO TIPO si chiamano: VARIABILE STATISTICA
DOPPIA
2 CARATTERI QUALITATIVI DELLO STESSO TIPO si chiamano: MUTABILE STATISTICA DOPPIA.
FREQUENZA ASSOLUTA→ indica il numero di unità statistiche che presentano la stessa modalità.
FREQUENZA RELATIVA→ indica la proporzione di unità statistiche che presentano la stessa modalità, si
ottiene dividendo la frequenza assoluta per il numero di unità statistiche.
La FREQUENZA si divide in 4 tipi:
PROPORZIONI→ freq. Assoluta / n. tot. Dei casi ( ∑ yi = 1 )
1. PERCENTUALI → freq. Assoluta / n. tot. Dei casi * 100 ( ∑ pi = 10 )
2. CUMULATE→ indica quale numero di casi non arriva alla categoria successiva
3. indica quale numero di casi arriva alla categoria successiva e oltre.
4. RETROCUMULATE→
Modalità del carattere Frequenza Assoluta Cumulate Retrocumulate
(xi) (ni) (Ni) (N-Ni)
x1 n1 N1 = n1 N
x2 n2 N2= n1+n2 N-N1
x3 n3 N3 =n1+n2+n3 N-N2
TOTALE N
Modalità Frequenze % Cumulate Retrocumulate
Assolute
(xi) (ni/N*100) (Ni) (N-Ni)
(ni)
SENZA TITOLO 30 2,5 30 30
LIC. 509 42,4 539 1170
ELEMENTARE
LIC. MEDIA 342 28,5 881 661
DIPLOMA 264 22 1145 319
LAUREA 55 4,6 1200 55
TOTALE 1200 100
RIEPILOGO: ASSOLUTA→ ∑ ni
FREQUENZA
FREQUENZA RELATIVA→ yi= ni/N→ ∑yi=1
FREQUENZA PERCENTUALE→ pi=ni/N*100 →∑pi=100
FREQUENZA CUMULATA→ Ni
FREQUENZA RETROCUMULATA→ N-Ni
3 SLIDE
Le distribuzioni si possono presentare in forma TABELLARE O GRAFICA.
Prima di procedere alle rappresentazioni grafiche bisogna conoscere il tipo di variabile (nominale, ordinale o
cardinale)
Ogni variabile ha il suo grafico.
Le rappresentazioni possono essere lineari o circolari.
→ GRAFICI A BARRE O ORTOGRAMMI (A COLONNA –
VARIABILI NOMINALI A NASTRI)
→DIAGRAMMI CIRCOLARI
(Caratteri qualitativi sconnessi)
VARIABILI CARDINALI DISCRETE → DIAGRAMMI IN COORDINATE CARTESIANE
(Caratteri quantitativi)
VARIABILI CARDINALI CONTINUE→DIAGRAMMI IN COORDINATE CARTESIANE
(Caratteri quantitativi) CONTINUE DIVISE IN CLASSI → ISTOGRAMMI
VARIABILI CARDINALI
(Classi di valori- caratteri quantitativi)
Il confronto tra i dati deve essere fatto PER DIFFERENZA o PER RAPPORTO.
Il rapporto indica quante unità del dato posto al numeratore corrispondono ad una unità del dato posto al
denominatore.
Il RAPPORTO STATISTICO è un quoziente tra due termini di cui almeno uno è di natura statistica e tale che
tra i due termini esista un legame logico ben definito.
→ almeno uno dei due termini si riferisce a un
Ci sono due condizioni: collettivo
→nesso logico tra due termini.
Però non tutti i rapporti sono statistici perché:
Almeno una delle due quantità poste a confronto deve riferirsi ad un collettivo: esempio
decessi/popolazione
Ci deve essere un nesso logico tra i due dati messi a confronto: esempio
n.posti letto/ettari coltivati – n.posti letto/popolazione
↓ ↓
Manca il nesso logico. Non è un c’è il nesso logico, quindi è un rapporto statistico.
Rapporto statistico.
I RAPPORTI STATISTICI SERVONO A CONFRONTARE NEL TEMPO E NELLO SPAZIO LE INTENSITÀ O LE
FREQUENZE DEI FENOMENI.
I rapporti statistici trasformano i dati statistici grezzi in indici.
I rapporti statistici si distinguono in:
1. RAPPORTO DI COMPOSIZIONE
2. RAPPORTO DI DERIVAZIONE
3. RAPPPORTO DI COESISTENZA
4. RAPPORTI MEDI (DENSITÀ)
I RAPPORTI DI COMPOSIZIONE vengono detti di PARTE AL TUTTO e si ottengono rapportando una
frequenza parziale alla frequenza totale. Quindi sono delle frequenze relative e assume i valori
compresi tra 0 e 1. Se il valore viene moltiplicato per 100 si ottengono le percentuali.
Esempio: popolazione laureata/popolazione.
IL RAPPORTO DI COESISTENZA è il rapporto tra due frequenze.
Esempio: rapporto di mascolinità: maschi/femmine.
Questo rapporto sta ad indicare uno sbilanciamento o uno squilibrio e permette di misurare:
1. LA STRUTTURA PER SESSO DELLA POPOLAZIONE (rapporto di mascolinità (Pm) e di femminilità
(Pf)
2. LA STRUTTURA PER ETÀ DELLA POPOLAZIONE= Pa (pop.anziana) – Pg (pop.giovane)
Pa/Pg*100= indice di vecchiaia (Iv).
IL RAPPORTO DI DERIVAZIONE è un rapporto CAUSA-EFFETTO, nel senso che B è il presupposto di A.
Esempio: quoziente di natalità= (nati/popolazione)*100
I RAPPORTI DI DENSITÀ O MEDI rapportano la frequenza o l’intensità di un fenomeno alle frequenze o
intensità di un altro fenomeno.
Esempio= popolazione/superficie territoriale
Sono molto diffusi e si hanno ogni volta che il fenomeno posto al numeratore si può associare mediamente
ad ogni unità del denominatore.
STUDIO DELLA VARIAZIONE
Per confrontare le intensità di due fenomeni collettivi diversi tra i quali esista un nesso logico si può
ricorrere alle differenze tra le intensità o le funzioni (invece dei rapporti statistici).
Possono essere: DIFFERENZE ASSOLUTE o DIFFERENZE RELATIVE.
LE DIFFERENZE ASSOLUTE si distinguono in:
D’= I1-I2 D’’=I2-I1 D’’= ǀI1-I2ǀ
↓ ↓ ↓
Indica la differenza tra l’intensità Indica la differenza tra l’intensità Indica il valore assoluto della
del primo fenomeno e quella del del secondo fenomeno e quella differenza tra i due fenomeni
secondo. del primo. considerati.
LE DIFFERENZE RELATIVE si ottengono facendo la differenza tra i due fenomeni e dividendo per il
fenomeno di riferimento e si otterranno due diverse differenze relative:
D’= I1-I2 D’= I1-I2
I2 I1
4 SLIDE
Gli indici di posizione sono di due tipologie:
MEDIE DI CALCOLO (media aritmetica, armonica e geometrica)
MEDIE LASCHE (mediane, quartili, moda)
Le medie di calcolo si calcolano con operazioni algebriche (variabili Cardinali- caratteri quantitativi)
Le medie lasche vengono calcolate in base alla frequenza.
Per le VARIABILI NOMINALI/CARATTERI QUALITATIVI SCONNESSI = MODA
Per le VARIABILI ORDINALI/CARATTERI QUALITATIVI= TUTTI
Per le VARIABILI CARDINALI/CARATTERI QUANTITATIVI= TUTTI
LA MEDIA è un indice sintetico e deve essere compreso tra il valore minimo e massimo della distribuzione:
x1<x<xN
LA MEDIA ARITMETICA è la somma dei valori divisa per il tot del collettivo.
N
∑ xi
X=ᶙ= i=1 →è la sommatoria di i che va da 1 a N di xi fratto N.
N
LA MEDIA ARITMETICA SEMPLICE è uguale alla somma dei dati divisi per n, cioè:
ᶙ= X1+X2+X3+…+Xn
N
Se i dati si presentano con una certa frequenza si ha la MEDIA PONDERATA
s
∑ xi*ni
X=ᶙ= i=1
N
VARIABILE STATISTICA DIVISA IN INTERVALLI
N
∑ v.c. *ni
xi
X=ᶙ= i=1 v.c.= xi+xi+1
N 2
ESEMPIO
VOTI n. studenti Xi*ni
Xi ni
4 2 8
5 3 15
6 8 48
7 5 35
8 2 16
TOT ∑ 20 ∑ 122
Media ponderata= 4*2+5*3+6*8+7*5+8*2 = 122 = 6,1
2+3+8+5+2 20
MEDIA DIVISA IN CLASSI
C’è un valore centrale, calcolato con la semisomma dei termini esterni della classe.
Classe n. persone
(frequenze)
(anni) ni
xi
o-20 35
(x1) (n1)
20-40 4
(x2) (n2)
40-60 1
(x3) (n3)
TOT 40 V.C. n.persone (frequenze)
xi ni
V.C. x1= 0+20 = 10 10 35
x1 n1
2 30 4
x2 n2
V.C. x2= 20+40 =30 50 1
x3 n3
2 TOT 40
V.C. x3= 40+60 = 50
2
Calcola la media ponderata:
ᶙ=x1*n1+x2*n2+x3*n3= 10*35+30*4+50*1 = 520 = 13 → età media ponderata
n1+n2+n3 35+4+1 40
1 PROPRIETÀ DELLA MEDIA
La somma degli scarti (differenze) è uguale a 0.
S Xi xi- ᶙ
∑ (xi-ᶙ)*ni = 0 26 26-27= -1
I=1 27 27-27=0
xi-media= numero →∑ numero= 0 28 28-27=1
esempio: ᶙ= 26+27+28 = 81 =27 ᶙ= 27 ∑ 0
3 3
DIMOSTRAZIONE 1 PROPRIETÀ DELLA MEDIA ARITMETICA
S
∑ (xi- ᶙ)*ni = 0
i=1 1. DIMOSTRAZIONE
(x1- ᶙ)n1= x1*n1- ᶙ*n1
(x2- ᶙ)n2= x2*n2- ᶙ*n2
(x3- ᶙ)n3= x3*n3- ᶙ*n3
S S
∑ xi*ni - ᶙ* ∑ ni
i=1 i=1
2. SOSTITUENDO A ᶙ IL SUO VALORE
S S
∑ xi*ni - ∑ xi*ni S
i=1 i=1 = ∑ni= 0
S i=1
∑ ni
i=1
2 PROPRIETÀ DELLA MEDIA
La somma dei quadrati degli scarti (xi-ᶙ) è uguale a un minimo.
S
∑ (xi- ᶙ)²*ni = MINIMO
i=1
la somma dei quadrati degli scarti dei valori della media è SEMPRE MINORE della somma dei quadrati degli
scarti dei valori da un qualsiasi altro valore K.
∑ (xi- ᶙ) ² < ∑ (xi- k) ²
ESEMPIO:
xi (xi- ᶙ) ² (xi- k) ² (xi- k) ²
26 (26-27 ) ²=1 (26-25) ²=1 (26- 28)² =4
27 (27-27) ²=O (27-25) ²=4 (27-28)² =1
28 (28-27) ²=1 (28-25) ²=9 (28-28)² =0
TOT ∑ 2 ∑ 14 ∑ 5
m= 27
2 PROPRIETÀ DELLA MEDIA
S
∑ (xi- ᶙ)²*ni = MINIMO
i=1 DIMOSTRAZIONE
K=valore diverso da ᶙ
k≠ ᶙ d= ᶙ-k k= ᶙ-d
SOSTITUENDO
S S
∑ (xi- ᶙ)²*ni ∑ (xi- ᶙ+d)²*ni
i=1 i=1
RISOLVENDO COME UN BINOMIO
(a+b)²= a²+b²+2ab
S S S S S S
∑[(xi- ᶙ)+d]²*ni =∑ (xi- ᶙ)²*ni+d² ∑ni+2d ∑ (xi- ᶙ)*ni ∑ (xi-k)²*ni = ∑ (xi- ᶙ)²*ni+d²N
i=1 i=1 i=1 i=1 i=1 i=1
↓
È 0 per la 1 proprietà della media
PROPRIETÀ ASSOCIATIVA
La media aritmetica è associativa perché il risultato della media generale è uguale al risultato ottenuto
dividendo in due o più gruppi i valori.
ESEMPIO:
MEDIA GENERALE
20+21+22+23+24+25+26+27+28= 216/9= 24
MEDIA PARZIALE 1 GRUPPO
20+21+22+23=86/4=21,5
MEDAI PARZIALE 2 GRUPPO
24+25+26+27+28=130/5=26
VERIFICA PROPRIETÀ ASSOCIATIVA:
21,5*4+26*5=86+130=216/9= 24
PROPRIETÀ TRASLATIVA
Se si aggiunge H a ciascun valore anche la media sarà aumentata di H.
PROPRIETÀ OMOGENEA
Se si moltiplica ciascuno dei valori per K anche la media risulterà moltiplicata per k.
MEDIA GEOMETRICA
MEDIE LASCHE:
MODA, MEDIANA, QUARTILI
La moda è la massima frequenza.
La mediana occupa il posto centrale.
Se N è dispari è il valore che occupa il posto centrale (N+1)
2
Se N è pari sono i due valori centrali (N) (N+1)
2 2
CALCOLO MEDIANA DIVISA IN CLASSI
Me= xi+xi+1-xi (N/2-Ni-1)
ni
xi= estremo inferiore
xi+1=estremo superiore
ni=frequenza assoluta
Ni-1=frequenza cumulata
N=frequenze complessive
I QUARTILI SONO TRE:
1 QUARTILE = valore inferiore al 25% dei casi
2 QUARTILE = valore al 50% dei casi
3 QUARTILE= valore al 75% dei casi.
Q1= ¼*N= N/4
Q2=2/4*N= 1/2N= Me
Q3=3/4N= 3N/4
CALCOLO
Se N è dispari: Q1= x(N+1/4) Q3= x(3N+1/4)
Se N è pari: Q1= x(N/4)+x(N/4+1) Q3=x(3N/4)+x(3n/4+1)/2
5 SLIDES
L’ANALISI MONOVARIATA: Variabilità e mutabilità
La variabilità è l’attitudine del carattere a presentarsi con diverse modalità.
Perché utilizzare le misure di variabilità?
1. Perché i valori medi non esprimono realmente l’andamento del fenomeno quando nella
distribuzione dei dati è presente un valore atipico. I valori medi sono utili quando la variabilità
delle osservazioni non è elevata.
2. Perché le misure di tendenza centrale indicano solo il baricentro della distribuzione e non
dicono niente sul modo di collocarsi delle altre modalità intorno a questo baricentro.
La variabilità fa riferimento solo ai caratteri quantitativi, mentre la mutabilità fa riferimento solo ai
caratteri qualitativi.
La misura della variabilità deve avere due condizioni:
La variabi
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.