Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Calcolo della varianza e deviazione standard
Xi i 12 KG 2Dato che la media aritmetica corrisponde a 11,25 si prosegue così:X 13 KG 45*(10 – 11,25) + 9*(11 – 11,25) + 2*(12 – 11,25) + 4*(13 – 11,25) =2 2 2 2 TOT 205*(-1,25) + 9*(-0,25) + 2*(0,75) + 4*(1,75) =2 2 2 27,8 + 0,54 + 1,12 + 12,24 = 21,75Poi si divide la somma dei prodotti per il numero complessivo della popolazione. In questo caso ladistribuzione statistica è composta da venti elementi (n = 20). Quindi: S = 21,75 / 20 = 1,0872In R, si usa var(nome del dataset$nome della variabile, na.rm = TRUE) *(n-1/n), ad esempio var(dati$altezza,na.rm = TRUE)*(95/96), per calcolare la varianza come è stata qui spiegata.Una difficoltà nell’interpretazione della varianza deriva dal fatto che essa è espressa nell’unità di misuradella variabile al quadrato (nell’esempio appena esposto, S = 1,087 Kg ). Per questo, si introduce lo scarto2 2quadratico medio o deviazione standard (S), che è definita
come la radice quadrata della varianza: S = 2√S
La deviazione standard è molto utile in chiave interpretativa perché, a differenza della varianza, è espressa nella stessa unità di misura del fenomeno studiato (nell'esempio, S = 1,043 Kg si potrà affermare che gli elementi differiscono mediamente di 1,043 kg dal peso medio di 11,25 kg).
In R, per calcolare la radice quadrata si usa il comando sqrt(x). Per calcolare direttamente la deviazione standard, usare sd(x).
D'altra parte, poiché sia la varianza che lo scarto quadratico medio dipendono dall'unità di misura (infatti, sono indici assoluti) è opportuno considerare anche indici relativi (che, invece, sono svincolati dall'unità di misura della variabile). Un indice relativo molto usato è il coefficiente di variazione (CV), che si ottiene facendo il rapporto tra la deviazione standard e il valore assoluto della media dei dati.
→È un indice molto utile per eseguire dei confronti in termini di variabilità tra fenomeni “diversi” tra loro (es. stesso fenomeno in circostanze differenti o fenomeni espressi in unità di misure non confrontabili), perché è un numero puro.
ESEMPIO: Nel reparto di ostetricia di un ospedale è stato rilevato il GRUPPO MEDIA DEVIAZIONE STANDARD peso di un campione di 80 neonati maschi e contemporaneamente il NEONATI 3.4 Kg 0.8 peso dei rispettivi papà. Esiste più variabilità nel peso dei neonati o in quello dei papà? Naturalmente confrontare le deviazioni standard PAPÀ 82 Kg 15 non è di grande aiuto, dal momento che dipendono fortemente dalle media dei dati su cui sono state calcolate. Per poter operare un confronto sulla variabilità dei due gruppi è opportuno calcolare i rispettivi coefficienti di variazione: CV = (0.8 / 3.4) = 0.24; CV = (15 / 82) = 0.1 neonati papà Osservando
i risultati si può concludere che il gruppo dei bambini presenta una maggiore variabilità rispetto a quello dei papà. Quindi il coefficiente di variazione ci permette di confrontare due variabilità quando le due variabili non hanno lo stesso ordine di grandezza. Finora abbiamo visto indici di variabilità in riferimento alle variabili quantitative. Per quanto riguarda, invece, le variabili categoriali (qualitative) sono utili gli indici di eterogeneità, che misurano quanto i valori osservati siano eterogenei (ma possono essere calcolati anche per dati quantitativi). Si ha massima omogeneità (concentrazione massima) quando tutte le risposte hanno lo stesso valore, ovvero quando tutti i dati sono concentrati in un'unica modalità (es. simile all'Accordo Domanda B). Si ha massima eterogeneità (concentrazione minima) quando tutte le risposte sono ugualmente frequenti, ovvero quando le unità si distribuiscono.uniformemente tra le K modalità (es. simile all'AccordoDomanda A). Gli indici di eterogeneità potrebbero distinguere le due situazioni riportate a fianco. Uno fra questi è l'indice di eterogeneità di Gini (G): ovvero 1 meno la somma delle frequenze relative alla seconda. In caso di massima concentrazione G = 1 - (0 + 0 + ... + 1 + 0 + ... + 0) = 0^2 + 0^2 + ... + 1^2 + 0^2 + ... + 0^2. Infatti, tutte le frequenze relative sono pari a 0 tranne l'unica risposta che polarizza tutte le altre e che, quindi, ha come frequenza relativa 1. In caso di massima eterogeneità dove k è il numero di modalità rappresentate. Un altro indice è l'indice di Entropia di Shannon (E): ovvero la somma (con il segno cambiato) delle frequenze relative (p), ciascuna moltiplicata per il proprio ilogaritmo naturale (ln). Si cambia il segno per avere un indice di segno positivo, dal momento che il logaritmo di un numero minore di 1 è sempre.negativo. In caso di massima concentrazione E = (0 + 0 +…+ 1*ln(1) + 0 +…+ 0) = 0 In caso di massima eterogeneità ESEMPIO: In R, otteniamo la tabella “tab” della variabile genere tab=table(dati$genere) e la tabella “tab_p” di frequenze relative tab_p=prop.table(tab). Otteniamo le seguenti frequenze relative: Femmina 0.8541667; Maschio 0.1458333. Calcoliamo l’indice di Gini G=1-(tab_p [1]^2 + tab_p [2]^2) = 0.2491319 Calcoliamo l’indice di Entropia E=- (tab_p[1] * log(tab_p[1]) + tab_p[2] * log(tab_p[2])) = 0.415413 È possibile riscalare questi due indici in modo tale che abbiano valori compresi tra 0 e 1. Il metodo usuale per normalizzare un indice è il seguente: Indice Normalizzato=(Indice-ValoreMinimo)/(ValoreMassimo-ValoreMinimo). Essendo 0 il valore minimo per entrambi gli indici, la formula si semplifica ulteriormente: ESEMPIO: Supponiamo di aver valutato, attraverso la Strange Situation (Ainsworth),attaccamento rispetto al gruppo A.attaccamento rispetto al gruppo A. Tutti gli indici visti finora sono calcolabili su tabelle di frequenze relative. Prendiamo ad esempio i seguenti dati, di cui conosciamo solamente le frequenze relative e da cui possiamo quindi ricavare facilmente le frequenze relative cumulate. - La MODA è facilmente identificabile, dal momento che è quella più frequente (X=1, p=0.4). - La MEDIANA è il valore che ha un uguale numero di osservazioni più piccole e più grandi del valore stesso. Sarà quindi il punto che ha cumulata empirica relativa pari a 0.5. Nel nostro caso, questo punto ha sicuramente valore pari a 2. Caso particolare: Quando il valore P = 0.5 cade tra una modalità i (es. 2) e la successiva (es. 3), dobbiamo ricordarci che P è la somma delle frequenze (e osservazioni) con valore minore o uguale a i. In questo modo, la mediana sarebbe uguale a i (es. 2) se il campione fosse di numerosità dispari. In caso dinumerosità campionaria pari, la mediana risulterebbe pari a un valore compreso tra i e i +1 (es. compreso tra 2 e 3). Il problema è comunque di scarso rilievo e ha probabilità trascurabili di accadimento quando la numerosità campionaria cresce.
Per i QUANTILI (e QUARTILI) vale lo stesso ragionamento che abbiamo fatto con la mediana. Ad esempio, i quantili .25 (primo quartile) e .75 (terzo quartile) hanno valore 1 e 3. Infatti, il 25% del campione ha valore minore o uguale a 1 (il 40% lo ha, quindi anche il 25%). Analogamente, il 75% del campione ha valore minore o uguale a 3.
Il calcolo dell'INDICE GAMMA è banale visto che considera solo la differenza massimo - minimo.
Altrettanto semplice diventa il calcolo dello SCARTO INTERQUARTILE, dopo aver definito il primo e il terzo quartile.
Per il calcolo dell'INDICE DI ETEROGENEITÀ DI GINI e dell'INDICE DI ENTROPIA DI SHANNON la soluzione è immediata. Si ricordi, infatti,
che la definizione stessa di questi indici prevede solo l'uso delle frequenze relative. Per quanto riguarda la MEDIA, se avessimo delle frequenze assolute (a somma n) potremmo calcolare dove k è il numero di modalità della variabile X. 18 Notiamo però che Possiamo calcolare la media senza conoscere la numerosità totale, ci bastano le sole frequenze relative (ipesi a somma 1) dei valori osservati nel campione: 1 * 0.4 + 2 * 0.2 + 3 * 0.25 + 4 * 0.15 = 2.15 Con la stessa logica possiamo ora calcolare la VARIANZA empirica per la tabella sopra: (1 - 2.15) * 0.4 + (2 - 2.15) * 0.2 + (3 - 2.15) * 0.25 + (4 - 2.15) * 0.15 = 1.2282 IL BOXPLOT→ Abbiamo visto i grafici a barre e a torta (in R: ?barplot e ?pie), utili per rappresentare le variabili categoriali (sia ordinali che nominali), e gli istogrammi (in R: ?hist), utili particolarmente per rappresentare invece le variabili quantitative (vedi pag. 8). Poi abbiamo visto come si possono rappresentare.graficamente le frequenze cumulate (in R:plot.ecdf
), rappresentando il contributo di ogni modalità della variabile, dalla cui ispezione visiva si possono ricavare i quantili (quindi anche i quartili) e ranghi percentili.
Un grafico che non abbiamo ancora visto, ma che è molto utile, è il bloxplot o diagramma a scatola e baffi (il nome completo è box and whiskers plot) e può essere orientato sia in orizzontale (figura superiore) che in verticale (figura inferiore). In R, lanciare il comando boxplot(x)
, ad esempio boxplot(dati$altezza)
.
In particolare, il boxplot permette di rappresentare sullo stesso grafico cinque tra le misure di posizione più utilizzate in statistica: il valore minimo, il primo quartile (Q1), la mediana (Q2), il terzo quartile (Q3) ed il valore massimo di una variabile.
La scatola (il box) è compresa tra il primo e il terzo quartile e mostr