vuoi
o PayPal
tutte le volte che vuoi
N
Ha senso avvalersi della media , soltanto se la variabile è CARDINALE, in quanto i valori
devono essere sommati e poi divisi per il numero dei casi. Ciò è possibile solo se i valori
hanno pieno significato numerico.
Tipo di variabile Tendenza centrale Variabilità
NOMINALE MODA OMOGENEITA’
ORDINALE MEDIANA DIFFERENZA
INTERQUARTILE
CARDINALE MEDIA DEVIAZIONE STANDARD
Se i casi vengono divisi in 4 parti uguali si formano i QUARTILI. I quartili sono 3: il primo
quartile (Q ) è il valore al di sotto del quale si trovano il 25% dei casi, il secondo ( Q )
1 2
coincide con la MEDIANA, ed il terzo (Q ) ha il 75% dei casi al di sotto di sé e il 25% al di
3
sopra. Q Q Q
1 2 3
25% 25% 25% 25%
La DIFFERENZA INTERQUARTILE ( Q = Q – Q ) può essere usata per rilevare la
3 1
dispersione della distribuzione.
Il CAMPO DI VARIAZIONE è la differenza che intercorre tra il valore min e il valore max.
La DEVIAZIONE STANDARD detta anche ( scarto quadratico medio ), equivale alla radice
quadrata della VARIANZA .
La VARIANZA si trova così: 2
(S ) = ∑ (X – X )
2 1
N
√
(S) è la DEVIAZIONE STANDARD = VARIANZA
Il COEFFICIENTE DI VARIAZIONE (C ) divide la Deviazione standard per la media:
V
C S
V= X
Il BLOXPLOT è un’efficace rappresentazione grafica che veicola informazioni riguardanti
sia la tendenza centrale, sia la variabilità.
90
80
70 Q 3
60
50
40 Q
mediana 2
30
20
10 Q 1 SERIE STORICHE
SERIE TERRITORIALI (dette anche serie temporali) riporta
È una sequenza di valori assunti in sequenza i valori assunti da una
da una variabile nello stesso variabile nello stesso aggregato
momento in diversi aggregati territoriale in tempi diversi.
territoriali. Per rappresentare X = variabile temporale
graficamente le serie territoriali
normalmente si ricorre al Y= variabile in esame
DIAGRAMMA A COLONNE. Una In corrispondenza di ogni periodo la
rappresentazione grafica di variabile assume un solo valore.
grande efficacia inoltre, sono i Essa graficamente si rappresenta
CARTOGRAMMI, che raffigurano con una serie di punti uniti da una
proprio la distribuzione geografica spezzata.
del fenomeno studiato. Nelle serie
storiche e territoriali come si possono valutare le variazioni di un fenomeno rilevate in
situazioni diverse?
La variazione è di solito espressa in forma percentuale. Se indichiamo con A e B, le due
grandezze, possiamo calcolare:
VARIAZIONE ASSOLUTA VARIAZIONE RELATIVA
B - A B – A x 100
A
Ad esempio, la variazione del numero dei morti per droga: dai 242 del 1985 ai 292 del
1986 può essere espressa così:
292-242= +50
292- 242 x100 = 50 x 100 = +20, 7 242 242
Si dirà quindi, che nel periodo considerato dal 1985 al 1986 i casi di morte per droga sono
cresciuti di 50 unità (variazione assoluta), cioè del 20,7% (variazione relativa).
Per esprimere le variazioni di tempo, il ricercatore si avvale del NUMERO
INDICE(sequenza di valori assunti dalla stessa variabile e riferiti a periodi diversi facendo
una proporzione).
Se si pone a 100 il numero dei morti per droga nel 1985, a quanto ammonterebbero nel
1986?
N. morti 1985 = N. morti 1986 = 242 = 292
100 X 100 X
X = 292 x 100 = 120,7 Attraverso la proporzione vedo subito che si è verificato
un aumento
242
La stessa procedura può essere applicata anche alle serie territoriali.
I numeri INDICE non sono mai negativi, assumono solo valori inferiori a 100; essi sono
numeri puri e permettono il confronto tra le variabili più disparate.
Trasformazione dati
La NORMALIZZAZIONE consiste nella trasformazione di un insieme di valori numerici, al
fine di collocarli in un sistema di riferimento che ne facilita l’interpretazione (tra 0 e 1 e tra
0 e 100).
Una forma semplice di normalizzazione consiste nel mettere in relazione i valori di una
variabile cardinale, con il valore più basso e il valore più alto che si possono assumere su
quella variabile. Si prenda ad esempio come sistema di riferimento la votazione
universitaria che può variare tra 66 e 110.
N dato normalizzato (tra 0 e 1)
1 =
X = dato da normalizzare (88)
1
X = valore minimo (66)
min
X = valore massimo (110)
max
Il dato può essere normalizzato con la seguente equazione:
N = (X - X ) : (X – X )
1 1 min max min
N = (88 – 66) : (110 – 66)
1
N = 22 : 44
1
N = 0,5
1
Cogliere il campo di variazione permette di interpretare velocemente i valori.
Si può applicare anche una NORMALIZZAZIONE RELATIVA in cui X equivale al valore
min
più basso effettivamente rilevato, ed X equivale al valore più alto effettivamente rilevato.
max
In questo caso i valori non sono teorici(0 e 1, 0 e 100), bensì EFFETTIVI (K).
La STANDARDIZZAZIONE è una procedura di normalizzazione. Essa trasforma i dati in
punti STANDARD, prima si normalizzano i dati rispetto alla loro media, poi si normalizzano
i risultanti scarti rispetto alla DEVIAZIONE STANDARD. La prima normalizzazione
consiste nella trasformazione di ogni valore nel suo scarto dalla media:
Esempio voti:
X = 7
X = 5 X = (7-5)= 2
1 1
X = 6,7 X = (7-6,7)=0,3
2 2
X = 5,3 X = (7-5,3) = 1,7
3 3
La seconda normalizzazione consiste nella divisione di ogni scarto per la deviazione
standard (DEV.ST.), (1,28).
X : S
1 Z = (x – x ) / S
Quindi la formula completa è : 1
Z : punteggio standardizzato
La media è uguale a 0 e la DEV. ST è uguale a 1, la Varianza è uguale a 1.
La standardizzazione è molto utile per il confronto tra dati con distribuzioni empiriche
diverse.
Le variabili cardinali che derivano dalla combinazione di altre variabili sono definite
VARIABILI DERIVATE. Si ricorre ad esse soprattutto quando l’unità di analisi è un
aggregato territoriale e si calcolano anche i rapporti statistici:
• RAPPORTI DI COMPOSIZIONE : mettono in relazione una parte di
fenomeno con il fenomeno stesso nella sua totalità (Es: spesa della famiglia
per l’affitto /spesa totale famiglia);
• RAPPORTI DI COESISTENZA : è rapporto tra due parti di un insieme
(numero maschi, numero femmine);
• RAPPORTI DI DERIVAZIONE : rapporto tra la misura di un fenomeno e
quella di un altro che può essere considerato un presupposto (nati
/popolazione);
• RAPPORTI MEDI : le due grandezze messe in relazione riguardano due
fenomeni diversi (numero abitanti/superficie del territorio).
Analisi Bivariata
Le ipotesi di solito mettono in relazione due o tre variabili, esse possono essere formulate
prima e dopo la raccolta delle informazioni.
L’analisi statistica delle relazioni tra due variabili si basa soprattutto sull’esame delle
distribuzioni di FREQUENZE CONGIUNTE (incrocio di 2 distribuzioni di FREQUENZA
SEMPLICE).
L’Analisi Bivariata affronta le relazioni da 3 punti di vista:
FORMA
• : la forma della relazione consiste nello
stabilire qual è il tipo di associazione tra le modalità delle 2
variabili
FORZA
• : la forza della relazione consiste in un
confronto tra la tabella osservata e la tabella di indipendenza,
quanto più la tabella osservata è diversa da quella di indipendenza, tanto più è forte
il legame;
DIREZIONE
• : si basa sul principio di causa-effetto, evidenzia dunque il
nesso di causalità tra due variabili e quale variabile influenza le altre. Con
l’attribuzione di una DIREZIONE CAUSALE si può assegnare il ruolo di VARIABILE
INDIPENDENTE (X) alla variabile che influenza, e di VARIABILE DIPENDENTE (Y)
all’altra. x y
Termini utili:
COVARIAZIONE: Relazione tra variabili
ASSOCIAZIONE: Relazione tra variabili NOMINALI
COGRADUAZIONE: Relazione tra variabili ORDINALI
CORRELAZIONE: Relazione tra variabili CARDINALI.
Per esaminare le relazioni tra due variabili si usano le tabelle a doppia entrata:
RIGA: variabile X
COLONNA: variabile Y
CELLE: numero di casi corrispondenti alle modalità delle due variabili (FREQ.)
A volte alla fine vengono aggiunti i TOT RIGA e i TOT COLONNE delle FREQ che
chiamiamo FREQ. MARGINALI.
Esempio pratico: TABELLA DI FREQUENZA DOPPIA
TITOLO INTENZIONE UNIVERSITARIA (Y)
MATERNO (X) NO SI NON SO TOT
MEDIA 5 0 5 10
DIPLOMA 0 6 4 10
LAUREA 0 4 1 5
TOT 5 10 10 25
Da questa tabella emerge che l’80% dei ragazzi che hanno la mamma laureata, hanno
intenzione di iscriversi all’università. Ciò significa che al variare del titolo materno (X) varia
anche l’intenzionalità di iscriversi all’università (y), quindi X influisce su Y.
Per analizzare le frequenze bisogna calcolare le percentuali, di cui ne esistono 3 tipi:
Percentuali di riga
- Percentuali di colonna
- Percentuali sul totale generale
-
La percentualizzazione all’interno delle modalità della variabile indipendente (X) è molto
importante. Quando non è possibile individuare con chiarezza una variabile indipendente e
una dipendente, si dovranno calcolare le percentuali, sia per riga sia per colonna.
All’interno della tabella va riportata sotto la percentualizzazione che occorre. E’
indispensabile riportare per ogni colonna la base delle percentuali sulle quali sono state
calcolate (N). In generale è assai imprudente calcolare percentuali su basi inferiori a 50
casi. Le tabelle devono essere sempre intestate (AUTOESPLICATIVE) e devono
contenere tutte le informazioni necessarie per la sua comprensione.
x No Si Non tot
so
Media 50 0 50 100
Diplom 0 60 40 100
a
Laurea 0 80 20 100
tot 20 40 40 100
Distribuzioni di Y condizionate alle modalità di X.
Per calcolare la differenza tra FREQ. ATTESE, sotto l’ipotesi di indipendenza, e
FREQ. OSSERVATE effettivamente nei dati, si utilizza il CHI –
2
X
QUADRATO:
fo = frequenza osservata
fe = frequenza attesa Tot riga moltiplicato per Tot colonna diviso Tot.
Generale 2 2
X = ∑ (fo – fe)
FORMULA : fe
Nel caso limite di indipendenza perfetta dei dati il valore del CHI – QUADRATO assume
valore 0, mentre sarà tanto più elevato, quanto maggiore sarà la distanza tra frequenze
osservate e frequenze attese, ovvero tanto più le frequenze osservate si allontanano
dall’ipotesi di indipendenza.
Questa è una tabella teorica in cui si fa una simulazione di frequenze attese (fe). Essa è
unica, poiché esiste solo questa possibilità di avere indipendenza, ed è simmetrica, perch&eac