vuoi
o PayPal
tutte le volte che vuoi
TOT
Un altro modo per relativizzare le FREQ. è portarle a un campo di variazione tra 0 e 100, le
FREQUENZE PERCENTUALI si ottengono moltiplicando le proporzioni per 100:
FREQ% = FREQ. ASSOLUTA x 100
TOT
Il punto percentuale è l’unità di riferimento da usare per rilevare differenze tra percentuali.
Se la variabile è di tipo ORDINALE o CARDINALE è possibile avvantaggiarsi della relazione d’ordine
per calcolare le FREQUENZE CUMULATE: esse corrispondono al numero di casi che appartengono a
quella categoria o a quella precedente.
DISTRIBUZIONE DI FREQUENZA
MODALITA’ FREQ.ASS PROPORZIONI FREQ% FREQ.CUMULATE RETRO-
CUMULATE
SENZA TITOLO 30 0,025 2,5 2,5 100
ELEMENTARE 509 0,424 42,4 44,7 97,5
MEDIE 342 0,285 28,5 73,4 55,1
DIPLOMA 264 0,220 22 95,4 26,6
LAUREA 55 0,046 4,6 100 4,6
TOT 1200 1 100 / /
Rappresentazioni grafiche di distribuzioni di Frequenza
Le distribuzioni di FREQ. si possono rappresentare anche in forma grafica, con rappresentazioni
lineari ( segni ordinati da sinistra a destra) o rappresentazioni circolari (segni ordinati secondo un
criterio circolare).
Le rappresentazioni lineari vengono sviluppate lungo 2 dimensioni spaziali: una per la modalità
variabile, l’altra per la frequenza.
Rappresentazioni lineari VARIABILI ORDINALI
(diagramma a colonne, a nastri)
Rappresentazioni circolari VARIABILI NOMINALI
(a torta, a raggera)
Istogramma VARIABILI CARDINALI
Tendenza centrale
La tendenza centrale è il baricentro della distribuzione, la più elementare è la MODA, alla quale è
associata la maggiore frequenza. (unico valore caratteristico che rivela la tendenza centrale nelle
variabili nominali).
Per le variabili ordinali è possibile rilevare anche un altro valore caratteristico: la MEDIANA, è la
modalità del caso che occupa il posto di mezzo nella distribuzione ordinata dei casi secondo quella
variabile. Se il numero dei casi (N) è dispari, il caso centrale sarà: (N + ½). La determinazione della
MEDIANA è molto facile se si consulta una tabulazione che riporta le FREQ.CUM., essa corrisponde
infatti, alla modalità in corrispondenza della quale le FREQ.CUM. superano la soglia del 50%.
La MEDIA ARITMETICA è il valore caratteristico che rileva la tendenza centrale delle variabili
cardinali, è data dalla somma (∑)dei valori assunti dalla variabile su tutti i casi, divisa per il numero
dei casi. La media aritmetica si indica con X poiché la variabile si indica con X, la formula della
media è: ∑
X = x
1
N
Ha senso avvalersi della media , soltanto se la variabile è CARDINALE, in quanto i valori devono
essere sommati e poi divisi per il numero dei casi. Ciò è possibile solo se i valori hanno pieno
significato numerico.
Tipo di variabile Tendenza centrale Variabilità
NOMINALE MODA OMOGENEITA’
ORDINALE MEDIANA DIFFERENZA INTERQUARTILE
CARDINALE MEDIA DEVIAZIONE STANDARD
Se i casi vengono divisi in 4 parti uguali si formano i QUARTILI. I quartili sono 3: il primo quartile
(Q ) è il valore al di sotto del quale si trovano il 25% dei casi, il secondo (Q ) coincide con la
1 2
MEDIANA, ed il terzo (Q ) ha il 75% dei casi al di sotto di sé e il 25% al di sopra.
3 Q Q Q
1 2 3
25% 25% 25% 25%
La DIFFERENZA INTERQUARTILE ( Q = Q – Q ) può essere usata per rilevare la dispersione della
3 1
distribuzione.
Il CAMPO DI VARIAZIONE è la differenza che intercorre tra il valore min e il valore max.
La DEVIAZIONE STANDARD detta anche ( scarto quadratico medio ), equivale alla radice quadrata
della VARIANZA .
La VARIANZA si trova così: 2
2
(S ) = ∑ (X – X )
1
N
√
(S) è la DEVIAZIONE STANDARD = VARIANZA
Il COEFFICIENTE DI VARIAZIONE (C ) divide la Deviazione standard per la media:
V
C S
V= X
Il BLOXPLOT è un’efficace rappresentazione grafica che veicola informazioni riguardanti sia la
tendenza centrale, sia la variabilità.
90
80 Q
3
70
60
50 Q
mediana 2
40
30 Q
20 1
10
SERIE TERRITORIALI SERIE STORICHE
È una sequenza di valori assunti da (dette anche serie temporali) riporta in
sequenza i valori assunti da una
una variabile nello stesso momento variabile nello stesso aggregato
in diversi aggregati territoriali. Per territoriale in tempi diversi.
rappresentare graficamente le serie
territoriali normalmente si ricorre al X = variabile temporale
DIAGRAMMA A COLONNE. Una Y= variabile in esame
rappresentazione grafica di grande
efficacia inoltre, sono i In corrispondenza di ogni periodo la
CARTOGRAMMI, che raffigurano variabile assume un solo valore. Essa
proprio la distribuzione geografica graficamente si rappresenta con una
del fenomeno studiato. serie di punti uniti da una spezzata.
Nelle serie storiche e territoriali come si possono valutare le variazioni di un fenomeno rilevate in
situazioni diverse?
La variazione è di solito espressa in forma percentuale. Se indichiamo con A e B, le due grandezze,
possiamo calcolare:
VARIAZIONE ASSOLUTA VARIAZIONE RELATIVA
B - A B – A x 100
A
Ad esempio, la variazione del numero dei morti per droga: dai 242 del 1985 ai 292 del 1986 può
essere espressa così:
292-242= +50 292- 242 x100 = 50 x 100 = +20, 7
242 242
Si dirà quindi, che nel periodo considerato dal 1985 al 1986 i casi di morte per droga sono cresciuti
di 50 unità (variazione assoluta), cioè del 20,7% (variazione relativa).
Per esprimere le variazioni di tempo, il ricercatore si avvale del NUMERO INDICE(sequenza di valori
assunti dalla stessa variabile e riferiti a periodi diversi facendo una proporzione).
Se si pone a 100 il numero dei morti per droga nel 1985, a quanto ammonterebbero nel 1986?
N. morti 1985 = N. morti 1986 = 242 = 292
100 X 100 X
X = 292 x 100 = 120,7 Attraverso la proporzione vedo subito che si è verificato un aumento
242
La stessa procedura può essere applicata anche alle serie territoriali.
I numeri INDICE non sono mai negativi, assumono solo valori inferiori a 100; essi sono numeri puri
e permettono il confronto tra le variabili più disparate.
Trasformazione dati
La NORMALIZZAZIONE consiste nella trasformazione di un insieme di valori numerici, al fine di
collocarli in un sistema di riferimento che ne facilita l’interpretazione (tra 0 e 1 e tra 0 e 100).
Una forma semplice di normalizzazione consiste nel mettere in relazione i valori di una variabile
cardinale, con il valore più basso e il valore più alto che si possono assumere su quella variabile. Si
prenda ad esempio come sistema di riferimento la votazione universitaria che può variare tra 66 e
110.
N dato normalizzato (tra 0 e 1)
1 =
X = dato da normalizzare (88)
1
X = valore minimo (66)
min
X = valore massimo (110)
max
Il dato può essere normalizzato con la seguente equazione:
N = (X - X ) : (X – X )
1 1 min max min
N = (88 – 66) : (110 – 66)
1
N = 22 : 44
1
N = 0,5
1
Cogliere il campo di variazione permette di interpretare velocemente i valori.
Si può applicare anche una NORMALIZZAZIONE RELATIVA in cui X equivale al valore più basso
min
effettivamente rilevato, ed X equivale al valore più alto effettivamente rilevato. In questo caso i
max
valori non sono teorici(0 e 1, 0 e 100), bensì EFFETTIVI (K).
La STANDARDIZZAZIONE è una procedura di normalizzazione. Essa trasforma i dati in punti
STANDARD, prima si normalizzano i dati rispetto alla loro media, poi si normalizzano i risultanti
scarti rispetto alla DEVIAZIONE STANDARD. La prima normalizzazione consiste nella
trasformazione di ogni valore nel suo scarto dalla media:
Esempio voti:
X = 7
X = 5 X = (7-5)= 2
1 1
X = 6,7 X = (7-6,7)=0,3
2 2
X = 5,3 X = (7-5,3) = 1,7
3 3
La seconda normalizzazione consiste nella divisione di ogni scarto per la deviazione standard
(DEV.ST.), (1,28).
X : S
1
Quindi la formula completa è : Z = (x – x ) / S
1
Z : punteggio standardizzato
La media è uguale a 0 e la DEV. ST è uguale a 1, la Varianza è uguale a 1.
La standardizzazione è molto utile per il confronto tra dati con distribuzioni empiriche diverse.
Le variabili cardinali che derivano dalla combinazione di altre variabili sono definite VARIABILI
DERIVATE. Si ricorre ad esse soprattutto quando l’unità di analisi è un aggregato territoriale e si
calcolano anche i rapporti statistici:
RAPPORTI DI COMPOSIZIONE: mettono in relazione una parte di fenomeno con il
fenomeno stesso nella sua totalità (Es: spesa della famiglia per l’affitto /spesa totale
famiglia);
RAPPORTI DI COESISTENZA: è rapporto tra due parti di un insieme (numero maschi,
numero femmine);
RAPPORTI DI DERIVAZIONE: rapporto tra la misura di un fenomeno e quella di un
altro che può essere considerato un presupposto (nati /popolazione);
RAPPORTI MEDI: le due grandezze messe in relazione riguardano due fenomeni
diversi (numero abitanti/superficie del territorio).
Analisi Bivariata
Le ipotesi di solito mettono in relazione due o tre variabili, esse possono essere formulate prima e
dopo la raccolta delle informazioni.
L’analisi statistica delle relazioni tra due variabili si basa soprattutto sull’esame delle distribuzioni
di FREQUENZE CONGIUNTE (incrocio di 2 distribuzioni di FREQUENZA SEMPLICE).
L’Analisi Bivariata affronta le relazioni da 3 punti di vista:
FORMA
: la forma della relazione consiste nello stabilire qual è il tipo di
associazione tra le modalità delle 2 variabili
FORZA
: la forza della relazione consiste in un confronto tra la tabella osservata
e la tabella di indipendenza, quanto più la tabella osservata è diversa da quella di
indipendenza, tanto più è forte il legame;
DIREZIONE
: si basa sul principio di causa-effetto, evidenzia dunque il nesso di
causalità tra due variabili e quale variabile influenza le altre. Con l’attribuzione di una
DIREZIONE CAUSALE si può assegnare il ruolo di VARIABILE INDIPENDENTE (X) alla variabile
che influenza, e di VARIABILE DIPENDENTE (Y) all’altra.
x y
Termini utili:
COVARIAZIONE: Relazione tra variabili
ASSOCIAZIONE: Relazione tra variabili NOMINALI
COGRADUAZIONE: Relazione tra variabili ORDINALI
CORRELAZIONE: Relazione tra variabili CARDINALI.
Per esaminare le relazioni tra due variabili si usano le tabelle a doppia entrata:
RIGA: variabile X
COLONNA: variabile Y
CELLE: numero di casi corrispondenti alle modalità dell