VARIANZA NEI GRUPPI
non si calcola la
media del fenomeno
completo, ma si fa
semplicemente la sommatoria della moltiplicazione tra varianza di ogni gruppi e
numero di studenti nel gruppo, anch’essa divisa per la frequenza totale
La somma tra le due varianze fornisce la varianza totale; finora, era stata osservata
solamente la varianza tra gruppi.
La concentrazione
Il fenomeno statistico della
concentrazione prende
senso solamente se si
riferisce a caratteri
quantitativi trasferibili (quali
reddito, fatturato e numero
di dipendenti, ecc…), la cui
unità può cedere una
modalità ad un’altra unità
statistica. Fornisce un’interpetazione più affidabile della variabilità in questa categoria di
caratteri.
Una concentrazione può essere concentrata se l’ammontare di un carattere di una
distribuzione è distribuito in uno disequo (quindi alcuni hanno più di altri), mentre è
equidistribuito se ogni unità possiede 1/n del carattere complessivo.
Il caso estremo di concentrazione avviene quando una solo unità possiede tutto il
carattere.
Come si fa se una concentrazione non è né equidistribuita ne a massima concentrazione
(ed è quindi solamente concentrata)?
Innanzitutto, bisogna confrontare le quantità e le frequenze (entrambe cumulate) di una
distribuzione. Nel caso ci sia equidistribuzione, Fi = Qi in ogni caso (Qi = Ai/An), mentre
lo sarà nel caso di concentrazione massima se i=n (n è il totale delle unità). In tutte le
situazioni intermedie invece Fi >= Qi, siccome Qi fino a n-1 sarà uguale a 0. Perciò, le
differenze per ogni i di Fi-Qi sarà sempre uguale a 0 se c’è equidistribuzione (anche in
massima concentrazione quando i=n), mentre equivarrà a Fi quando in una massima
concentrazione i non raggiunge n.
Le concentrazioni si calcolano quindi facendo le sommatorie delle sottrazioni fino a n-1 in
entrambi I casi (nella massima concentrazione il valore equivale sempre a Fi).
Siccome è ancora una concentrazione assoluta, per renderla relativa, compresa tra 0 e 1,
se rapportata al suo valore massimo. Questo è quello che fa il coefficiente di Gini.
Il Coefficiente di Gini
Misura introdotta dall’italiano Corrado Gini, mette a rapporto la sommatoria con n-1 della
frequenza sottratta alla quantità con il valore massimo di concentrazione, quindi la
sommatoria di Fi fino a n-1.
La Curva di Lorenz e il Coefficiente di Gini
Il calcolo di Gini può avvenire anche graficamente: il coefficiente è minimo nei casi di
equidistribuzione, tant’è che la distribuzione prenderà la forma grafica della bisettrice, la
forma massima di uguaglianza. Per valori diversi all’equidistribuzione, l’andamento della
diseguaglianza è dettato dalla Curva di Lorenz (o spezzata di concentrazione), che ad
ogni frequenza cumulativa accoppia la quantità cumulativa di riferimento. L’area tra
bisettrice e spezzata equivale numericamente al calcolo del Coefficiente di Gini, perciò il
calcolo grafico dell’area fornirebbe lo stesso risultato.
L'associazione fra due caratteri
Le analisi statistiche viste sinora si sono concentrate su un solo carattere (analisi
univariata), ma nella realtà i caratteri non restano mai isolati, ma si mescolano,
formando enomeni statistici più esplicativi e completi.
Analisi bivariata
Analisi compiuta su una distribuzione doppia di frequenze, nella quale i caratteri sono
congiunti. Finora la tabella utilizzata per questo tipo di distribuzioni è quella di
distribuzione per singolo carattere, ma in questi casi è bene considerare l’utilizzo della
tabella a doppia entrata, nella quale viene messo un carattere in riga e uno in colonna,
formando dei gruppi ben specifici.
Questo tipo di operazione si può fare con ogni tipo di carattere, quindi tra qualitativi o
quantitativi o anche misti.
Nel caso di due caratteri quantitativi, la tabella a doppia entrata viene rinominata in
tabella di correlazione.
Le distribuzioni “totali”, quindi
l’ultima riga e colonna, sono
dette distribuzioni marginali, che
coincidono con le distribuzioni
dei singoli caratteri, mentre la
distribuzione di un carattere data
la modalità dell’altro carattere è
detta distribuzione condizionata.
Tipi di connessione tra caratteri
Interdipendenza
Come già detto, la connessione di due caratteri è tale se legate da un rapporto logico,
cioè quando un carattere fornisce indicazioni più o meno precise dell’altro (come il
rapporto causa-effetto), e l’estremizzazione di questo concetto porta alla perfetta
connessione, altresì detta interdipendenza statistica, che avviene quando due caratteri si
legano in modo tale che ad ogni loro modalità è legata una sola modalità dell’altro
carattere (ciò è possibile sono quando sia X che Y hanno un numero di modalità
identico).
L'interdipendenza può avvenire sia in via bilaterale come appena spiegato, ma se il
numero di modalità tra caratteri e diverso, se un carattere mantiene la stessa relazione,
quindi ad una modalità associa una sola modalità, si parla di interdipendenza unilaterale.
Un esempio: la X ha 3 modalità e la Y ne ha 2; se ogni modalità della X punta tutta su
una modalità Y ma non accade il contrario (quindi più modalità X puntano a una modalità
Y), si parla di interdipendenza
unilaterale.
Indipendenza statistica
L’altra situazione limite è
rappresentata dalla connessione
nulla, anche detta indipendenza
statistica, che si verifica quando un
carattere non viene influenzato al
manifestarsi dell’altro: in parole
pratiche, le distribuzioni di
frequenze r elative di una modalità
di X saranno uguali in tutte le
modalità Y, così affermando implicitamente che quest’ultima non influenzi le modalità X,
e viceversa, perchè è una caratteristica sempre reciproca.
Quindi, se un carattere X non viene influenzato da Y, neanche Y viene
influenzato da X.
Il valore della generica frequenza assoluta di indipendenza di ogni
incrocio è dato dalla moltiplicazione la riga i di X e quella j di Y, divisa per la frequenza
totale; l’indipendenza è rispettata se il valore trovato corrisponde a quello presente nella
cella di riferimento.
Nel caso non ci sia indipendenza, bisogna trovare la
dipendenza, i cui valori si possono calcolare con il Valore di
Cramér.
Le contingenze
La contingenza è una misura dedita al calcolo di lontananza dall’indipendenza statistica;
più il valore è alto, più quel valore e lontano da essere indipendente. Il problema delle
contingenze è che la somma tra ogni contingenza delle celle di una distribuzione è nulla,
perciò preso così non è un indice affidabile. Se elevati al quadrato, però, verrà fuori che
ogni differenza farà accrescere la sommatoria; su questo prinicpio si basa l’indice di
connessione di Pearson.
L'indice di connessione di Pearson (o indice “chi quadrato”)
Questo indice serve per valutare la correlazione lineare tra caratteri utilizzando la
contingenza quadratica, uscendosene con questa formula:
Suddetta formula varia da 0 a n moltiplicato per il numero di righe o colonne; come si
può notare, se n è un numero molto grande, quindi le frequenze sono tante, anche
l’indice di Pearson sarà
più grande e diverso tra
distribuzioni doppie con
la stessa correlazione
lineare.
Per ovviare a questo
problema, Pearson
introdusse l’indice di
contingenza media, il cui calcolo è semplicissimo = chi quadrato/n. questo indice è
relativizzato, compreso tra -1 e 1, I quali indicano rispettivamente una forte correlazione
negativa e positiva. Al contrario, il numero 0 sta a indicare l’indipendenza statistica.
Indice di contingenza di Cramér
Altro strumento di calcolo della contingenza è l’indice di Cramér, più utile rispetto a
quelli analizzati perchè il più relativizzato: assume sempre valori compresi tra 0 e 1.
Nelle tavole di contingenza, con entrambi I caratteri qualitativi, le misure di associazione
si possono misurare unicamente con le frequenze della distribuzione, e non le modalità
del carattere perchè alfanumeriche. Questo tipo di calcolo si può fare ci on tavole miste o
di correlazione, e in questi casi si parla di (in)dipendenza in media.
Il calcolo della dipendenza o indipendenza MEDIA serve a capire quanto un carattere
quantitativo dipenda da quello qualitativo, e quindi quanto varia in funzione di
quest’ultimo (se entrambi I caratteri sono quantitativi, l’osservazione si può fare da
entrambi i punti di vista).
Non ci possono essere entrambi I caratteri qualitativi, e non è detto che l’ipotetica
indipendenza sia reciproca, come quella statistica.
L’indipendenza in media
Presi due caratteri
quantitativi X e Y, se Y non
varia le sue medie
condizionate al variare di
quelle del carattere X, si dice
che Y sia indipendente in
media da X. Se X e Y sono
statisticamente indipendenti
sono anche indipendenti in
media tra loro, ma non è
detto che due caratteri
indipendenti in media lo siano anche statisticamente.
La dipendenza in media è proprio il contrario (così succede anche nell’esempio).
A medie condizionate uguali, perciò un fenomeno si può dimostrare indipendente in
media, sia in modo bilaterale che unilaterale.
La media complessiva di un fenomeno si può calcolare sia utilizzando le frequenze
marginali di riga che utilizzando la proprietà associativa della media aritmetica.
È possibile anche misurare la varianza condizionata, utilizzando le frequenze della riga
marginale moltiplicate per il quadrato della modalità.
Misura della dipendenza in media di Y da X
Un indice che misura la dipendenza in media è il rapporto di corelazione lineare di
Pearson, svolto tra la devianza esterna e quella complessiva di y (equivalente al rapporto
tra le due varianze analoghe).
Il valore di questo rapporto è sempre compreso tra 0 e 1, che sono anche I due casi
limite; il primo indica una perfetta indipendenza in media, e non deve esistere varianza
esterna, ma solo quella interna, mentre il secondo presuppone una perfetta dipendenza
in media, e avviene quando varianza esterna e complessiva sono uguali.
Quando il rapporto è uguale a 0 vuol dire che le medie condizionate sono t
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Riassunto esame Elementi di statistica, Prof. Mignani Stefania, libro consigliato Statistica – metodologie per le s…
-
Riassunto esame statistica, docente Oropallo, libro consigliato Statistica e metodologia per le scienze economiche …
-
Riassunto esame Statistica, docente Oropallo, libro consigliato Statistica metodologie per le scienze economiche e …
-
Riassunto esame Statistica inferenziale, Prof. Massa Paola, libro consigliato Statistica, Simone Borra