Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
(X)
Nei casi di asimmetria positiva > 0 11
(X)
Nei casi di asimmetria negativa < 0
Curtosi
Il peso delle code tra due distribuzioni può risultare diverso. Tale peso è detto curtosi.
Indice di curtosi di Pearson
() )
∑(
=
=
Questo indice è sempre ≥ 1 ed assume valore β = 3 per la distribuzione gaussiana.
Se β > 3 le code sono più pesanti di quelle gaussiane.
Se β < 3 le code sono meno pesanti di quelle gaussiane.
→ () −
Indice di curtosi di Fischer
La concentrazione
Modo in cui l’ammontare totale del carattere (quantitativo e trasferibile) si ripartisce tra le n unità
statistiche. La concentrazione sarà tanto più elevata se il carattere si addensa in poche unità.
Il caso di minima concentrazione è l’ipotesi teorica di equidistribuzione in cui il carattere si
ripartisce in parti uguali tra le unità statistiche. In questo caso ogni unità statistica possiede una
frazione pari a 1/n dell’ammontare totale del carattere.
In caso di massima concentrazione si ottiene se l’intero ammontare del carattere è posseduto da
un singolo individuo.
→
NB la concentrazione si calcola sui caratteri ordinati.
L’ammontare complessivo del carattere si calcola come cumulata dei valori del carattere
= ∑
=1
=
rappresenta la cumulata fino all’unità i-esima; ne consegue che
=
→
Intensità relativa cumulata delle i unità
=
→ = = =
Intensità relativa cumulata in equidistribuzione poiché
= 0 ∀ = .
In caso di massima concentrazione si ha
< ∀,
Di solito poiché se ci si allontana dal caso di equidistribuzione le cumulate Ai
inizieranno a diminuire fino a diventare = 0.
= allora = = 1.
La concentrazione si misura proprio come differenza di Fi e Qi
−1 R =
= ∑( − )
=1
→
Generalmente si utilizza il Rapporto di concentrazione di Gini
Si tratta di un indice normalizzato che varia tra 0 e 1:
→
- R = 0 equidistribuzione (minima concentrazione)
→
- R = 1 massima concentrazione
- Assume valori crescenti all’aumentare della concentrazione
−1
=
La somma delle Fi è definibile anche così 2 12
Concentrazione e variabilità
Più risulta elevata la concentrazione del carattere, tanto più elevata risulta la sua variabilità. In
condizione di equidistribuzione, infatti, sia la variabilità che
la concentrazione sono nulle.
Spezzata di concentrazione (Curva di Lorenz)
La curva di Lorenz si costruisce ponendo come ascissa in
valori di Fi e in ordinata i valori Qi. Si considerano le coppie di tali valori di ogni unità statistica.
Ogni unità viene rappresentata da un punto, poi congiunti con dei segmenti. La forma del grafico
ottenuto cambia a seconda del livello di concentrazione del carattere; in equidistribuzione, ad
esempio, coincide con la bisettrice I/III quadrante. Può essere usata come misura della
concentrazione.
Distribuzione congiunta di due caratteri
Generalmente nella ricerca ciò che interessa davvero studiare è la relazione (associazione) tra più
caratteri rilevati sullo stesso collettivo.
Per misurare la relazione tra due diversi caratteri esistono vari tipi di indici applicabili a seconda
della tipologia dei caratteri che si desidera studiare.
I caratteri rilevati possono essere organizzati sotto forma di distribuzione unitaria semplice o
tabella a doppia entrata.
Graficamente viene rappresentata con un grafico a dispersione in cui la coppia di modalità relative
ad ogni unità statistica viene rappresentata come un punto. Il grafico facilita l’identificazione di
una relazione tra i due caratteri.
In una tabella doppia entrata vengono inserite le frequenze congiunte n , ovvero le frequenze
hk
assolute delle unità che rappresentano contemporaneamente ciascuna modalità dei due caratteri.
La parte centrale della tabella rappresenta la distribuzione congiunta;
I bordi della tabella rappresentano le distribuzioni marginali (una sola variabile).
Considerando una solo riga o una sola colonna si hanno le distribuzioni condizionate
(condizionarsi significa considerare solo una modalità di uno dei due
caratteri.
Esempio CLASSEꟾSALVATAGGIO*, “classe” resta fisso mentre
“salvataggio” scorre. Se si hanno dati quantitativi occorre sommare le
unità statistiche appartenenti alla variabile considerata e moltiplicarle
per il valore (medio, se a intervalli) delle classi di appartenenza). 13
Si possono calcolare le frequenze relative congiunte
ℎ
= ∀ℎ,
ℎ
∑ ∑ = 1
ℎ
ℎ=1 =1
Frequenze relative condizionate XꟾY calcolate sul totale della variabile che rimane fissa
(es. se blocco la classe calcolo sul totale dei membri della classe).
Sulle distribuzioni condizionate (o marginali) è possibile calcolare tutti gli indicatori tradizionali
(media aritmetica, mediana, varianza, ecc.).
Dipendenza e indipendenza in distribuzione
In una distribuzione di frequenza è possibile calcolare indicatori della dipendenza tra le variabili
che la compongono. In generale, tale dipendenza non ha un verso a livello di calcolo statistico, si
definisce un concetto simmetrico (solo la conoscenza del fenomeno ci porta a pensare quale sia la
variabile dipendente dall’altra).
I caratteri di una distribuzione sono tra loro connessi; dalla forza di tale connessione è possibile
stabilire il livello di dipendenza tra le variabili. Il calcolo si base sul confronto dei dati realmente
osservati con un modello teorico di assoluta indipendenza.
→
Assoluta indipendenza le frequenze relative condizionate sono tutte uguali tra loro e uguali alla
marginale. Più i dati reali si avvicinano a questo modello, più la loro connessione è debole; più essi
si allontanano da questo modello, più la loro connessione è forte.
Sotto l’ipotesi di totale indipendenza le frequenze relative si costruiscono tramite una formula:
∗
ℎ· ·
′ =
ℎ
(Totale della riga * totale della colonna)/n
Indici di associazione
Basati sulle contingenze, differenze tra le frequenze teoriche e quelle reali.
= − ′
ℎ ℎ ℎ
Indice x2 (chi-quadrato) di Pearson
Si tratta di una misura di contingenza normalizzata (privata del segno).
2
ℎ
2 =∑∑
′ ℎ
ℎ=1 =1
- È sempre non negativo
- Assume valore 0 in caso di indipendenza
- Assume valori crescenti all’aumentare di n
- Non varia tra 0 e 1
Indice di contingenza quadratica media (phi quadrato)
2
Φ=
- Assume valore 0 in caso di indipendenza
- Ha valore massimo pari a 1 solo se H=K=2, altrimenti maggiore di 1 14
Indice V di Cramer 2
Φ
=√ min[( 1)],
− [( − 1)]
- Vale 0 se vi è assoluta indipendenza
- Vale 1 se vi è perfetta dipendenza
- Varia tra 0 e 1 in tutti i casi intermedi
Dipendenza e indipendenza in media
Calcolabile se almeno uno dei due caratteri è quantitativo.
In caso di indipendenza in media, tutte le medie condizionate sono uguali tra loro e uguali alla
media marginale.
In questo indice è necessario individuare una variabile dipendente e una indipendente.
Nel calcolo di questo indice bisogna sempre considerare che vi potrebbero essere altri fattori che
influenzano il fenomeno in esame che non stiamo considerando e che altererebbero i risultati. La
ricerca di informazioni non è mai definitiva.
Rapporto di correlazione
2
=
|
- Assume valore = in caso di assenza di dipendenza
- Assume valore 1 quando le medie sono tra loro diverse ed è nulla la devianza entro
La regressione lineare
Il modello di regressione lineare sfrutta una funzione matematica per esprimere la relazione tra
due caratteri che devono essere entrambi quantitativi.
→
La relazione lineare è del tipo: Y=f(x) (variabile dipendente) = f(variabile indipendente).
Per costruire il modello occorre stimare i parametri che compongono la funzione di riferimento.
Tale funzione non rappresenta mai una relazione perfetta tra le due variabili considerate a causa di:
- Scelta del modello sbagliato: potrebbe accadere che funzioni di grado molto elevato siano
capaci di rappresentare perfettamente la relazione; esse sarebbero però troppo complesse
per essere studiate e usate per fare previsioni;
- Influenza di altre variabili non considerate;
- Errore di misurazione dei dati (con compensazione tra eccessi e difetti).
È, infatti, necessario verificare anche l’attendibilità del modello costruito.
Ipotesi di relazione lineare = +
La relazione lineare si esprime così: 0 1
→
intercetta
0 →
coefficiente angolare
1
Si tratta però di un modello troppo rigido, costruito come relazione perfetta tra le due variabili.
Di solito di utilizza, invece, il seguente modello:
= + +
0 1
Y è la variabile dipendente;
X è la variabile indipendente (o regressore, o esplicativa, o covariata);
sono i parametri del modello.
0 1
La componente erratica esprime l’imperfezione della relazione tra le due variabili. 15
In realtà, anche modelli di base non lineari vengono spesso ricondotti a modelli lineari tramite un
processo di linearizzazione. Il modello lineare è il più semplice da studiare.
Stima dei parametri
I parametri non possono essere individuati con precisione; devono essere stimati.
̂ ̂
rappresentano la stima di tali parametri. La stima si effettua cercando di far sì che il
0 1
modello fornisca un buon adattamento dei dati reali ottenuti.
I minimi quadrati
Il metodo più usato è quello di minimizzare questa funzione:
∑(
( , ) = − − )
=
Questa funzione rappresenta la somma delle diffe