vuoi
o PayPal
tutte le volte che vuoi
MEDIA ARITMETICA
E' la media normale : ovvero la somma dei valori
numero dei valori
La media aritmetica ponderata dà un peso alle diverse numerosità. La media
ponderata è il rapporto tra somma dei prodotti dei numeri per i loro pesi e la somma
dei pesi stessi. Il valore che otterremo sarà leggermente diverso rispetto alla media
aritmetica. La media ponderata è particolarmente significativa quando i pesi servono
per indicare l'importanza dei diversi valori. Si può anche dire che la media ponderata
deriva dalla somma delle frequenze.
ESEMPIO DI MEDIA PONDERATA :
REPARTO N° PAZIENTI TEMPERATURA MEDIA
Medicina A 21 37,8
Medicina B 18 38,2
Medicina C 28 37,7
La media ponderata si calcola così : 1 / somma del n° dei pazienti moltiplicato per la
sommatoria (Σ) di (temperatura media per numero di pazienti es : 37,8 * 21 + 38,2*18
+ 37,7 * 28 ) = 1/ 67 (2537) = 2537 / 67 = 37,9 . Questa è la media ponderata.
INDICI DI DISPERSIONE O INDICI DI VARIABILITA'
Sono indici che permettono di misurare la variabilità e quindi di capire quanto i valori
siano vicini o lontani rispetto alla posizione centrale. Gli indici di variabilità sono :
campo di variazione (o range), differenza interquartile, scarto, devianza, varianza,
deviazione standard, variazione media (o coefficiente di variazione).
CAMPO DI VARIAZIONE o RANGE
Il campo di variazione di una sequenza di numeri è la differenza tra il valore massimo
e il valore minimo (Xmax – Xmin). È un indicatore di variabilità molto grezzo e poco
affidabile perchè può essere influenzato da valori anomali periferici (outlier)
DIFFERENZA INTERQUARTILE
Viene utilizzata al posto del campo di variazione per la sua maggiore affidabilità.
Consiste nell'ammettere esclusivamente il primo e il terzo quartile e sottrarli : D.I : Q3
– Q1. SCARTO (Σ scarti)
Corrisponde alla differenza tra il valore osservato e il valore medio. La somma degli
scarti è sempre uguale a zero e per questo ogni scarto deve essere elevato al
quadrato. DEVIANZA (Σ scarti ^ 2)
E' la somma degli scarti elevata al quadrato.
VARIANZA
E' la media della devianza, cioè la media degli scarti al quadrato (somma degli scarti
al quadrato / numero degli scarti).
DEVIAZIONE STANDARD (o scarto quadratico medio)
E' la varianza elevata a radice quadrata. La deviazione standard è l'indice di variabilità
più fattibile. COEFFICIENTE DI VARIAZIONE
Si ricava dividendo la deviazione standard con la media : DS/media. Il coefficiente di
variazione è una misura di dispersione relativa (al contrario delle misure precedenti
che sono assolute). Quindi ci fornisce la misura proporzionale di quanto si discostano i
dati dalla media. RIASSUMENDO :
Se gli indici di posizione forniscono informazioni su dove questi si collocano
all’interno della distribuzione, e in corrispondenza di quali valori, gli indici di
dispersione-variabilità definiscono in che misura i valori della distribuzione si
raccolgono attorno alla media.
La rappresentazione grafica della dispersione permette di dare una forma al
fenomeno, quanto più i valori saranno prossimi alla media tanto più stretta apparirà la
distribuzione. La misura più appropriata della variabilità (distanza del valore di ogni
singola osservazione dalla media) è l’insieme degli scarti dalla media. Il risultato
della “somma degli scarti” non è peraltro utilizzabile in quanto corrisponde al valore
zero. Per far fronte a questa complicazione il valore di ogni singolo scarto viene
elevato al quadrato, l’operazione consente di ottenere valori sempre maggiori di zero.
Si otterrà pertanto la “somma dei quadrati”, la devianza. Il valore della devianza
cresce con l’aumentare della distanza di ogni singola osservazione dalla media e con il
numero delle osservazioni. Quest’ultima caratteristica è annullata dividendo la
devianza per il numero delle osservazioni. La varianza è perciò il “quadrato medio” .
Questa misura peraltro non ci fornisce ancora la misura precisa di quanto i valori si
discostino dalla media in quanto è ancora ‘viziata’ dall’elevazione al quadrato. Per
poter contare su di un parametro preciso confrontabile con i valori della distribuzione
quadrata della varianza ottenendo infine la
dovremo calcolare la radice
deviazione standard.
Indice Tipologia Simbolo
moda posizione Mo
mediana posizione Me
media posizione M (generica) - m (nella popolazione)
SM (Somma dei Quadrati) SS (Sum of
devianza dispersione Squares)
QM (Quadrato Medio) MS (Mean Square)
varianza dispersione s2 (nella popolazione) - s2(nel campione)
deviazione DS o SD oppure “root mean square” -
dispersione
standard s (nella popolazione) - s (nel campione)
ESERCIZIO ESEMPLIFICATIVO :
Calcola la media ponderata della distribuzione : 1/72 * Σ (9,5*4 + 10,5*14 + 11,5*19 +
12,5*14 + 13,5 * 13 + 14,5 * 6) = 1/72 * Σ (38+147+218,5+175+175,5+87) = 1/72 *
Σ (841) =
841/72 = 11,68. DISTRIBUZIONE BIVARIATA
Si parla di distribuzione bivariata quando ad ogni unità statistica (appartenente ad una
determinata popolazione) si rilevano due caratteri X e Y. Può trattarsi si entrambi
caratteri qualitativi o quantitativi (oppure di un carattere qualitativo e uno
quantitativo). Queste due variabili possono essere rappresentate tramite asse
cartesiano (dove X è la variabile indipendente e Y è la variabile dipendente). Una
distribuzione bivariata può essere :
Congiunta (assoluta e relativa) = se X=peso e Y= altezza ; la distribuzione
– congiunta indica quale percentuale di soggetti di soggetti pesa un certo
intervallo di kg ed è alta un certo intervallo di cm.
Condizionata = è una distribuzione in cui X e Y si condizionano a vicenda.
– Marginale = indicano come si muove un solo carattere (X o Y) all'interno della
– distribuzione congiunta. La distribuzione della X indipendentemente dalla
modalità della Y si dice distribuzione marginale della X ; la distribuzione della Y
indipendentemente dalla modalità della X si dice distribuzione marginale della Y.
Se la distribuzione marginale ha le medesime condizioni di quella congiunta allora X
non influenzerà Y. ESEMPIO
Confronto l'efficacia di due trattamenti sulla guarigione :
CASO 1 :
Guarito Non guarito Totale
Trattamento A 40 60 100
Trattamento B 50 100 150
Totale 90 160 250
Distribuzione condizionata del caso 1 per capire quale dei due trattamenti funziona :
Guarito (y) Non guarito Totale
Trattamento A (x) 40/100 60/100 100
Trattamento B 50/150 100/150 150
Totale 90/250 160/250 250
L'esito è diverso se condizionato y/x quindi il trattamento influenza l'esito. E il
trattamento che funziona è il B. Possiamo quindi dire che y diverso da (y/x) perchè
hanno diversi esiti. CASO 2 :
guarito Non guarito Totale
Trattamento A 30 50 80
Trattamento B 10 70 80
Totale 40 120 160
Nel secondo caso invece si può dire che y = (y/x) perchè tra i due trattamenti la
frequenza assoluta è uguale (80 ; 80).
TEST DEL CHI QUADRATO
Va a calcolare le frequenze teoriche cioè quelle che dovrebbero essere osservate nel
momento in cui tra le variabili non esistesse alcuna indipendenza. Le frequenze
teoriche sono la numerosità attesa nel momento in cui poniamo che non ci sia
indipendenza tra le due variabili. È da ricordare che questo test va applicato solo a
numeri assoluti di casi e non a proporzioni,percentuali,medie di osservazioni... Inoltre,
tutti i test del chi quadrato sono per default “a 2 code”. Il test del chi quadrato si
calcola così : (frequenza osservata – frequenza teorica)^2
frequenza teorica
ESEMPIO : verificare attraverso il test del chi quadrato se esiste una connessione tra
nazione di nascita e tipologia di scuola frequentata :
liceo tecnico professionale totale
Nato in italia 656 424 633 1713
Nato in altra 78 105 185 368
nazione 734 529 818 2081
1° PASSO : trasformo le somme totali (frequenze relative marginali) in frequenze
• relative : (frequenza assoluta/totale delle frequenze )*100 . es. (734/2081)*100 ;
(529/2081)*100 ; (818/2081)*100 ; (2081/2081)*100. Ottengo : 0,35 – 0,25 –
0,39 – 1.
2° PASSO : calcolo le frequenze teoriche moltiplicando ogni frequenza relativa
• per il loro totale. (0,35 -0,25 – 0,39 )* 1713 ; (0,35 -0,25 – 0,39 )*368 ; (0,35
-0,25 – 0,39 )*2081.
3°PASSO : calcolo il chi quadrato : frequenza osservata (656) – frequenza
• teorica / frequenza teorica. E lo faccio per ogni frequenza osservata
(656-424-633-78-105-185). Dopodichè sommo i risultati ottenuti e trovo la
connessione. RELAZIONE TRA I CARATTERI
Per quanto riguarda i caratteri qualitativi (che sia uno o entrambi) la relazione
esistente è la connessione (analisi di dipendenza tra 2 variabili qualitative). Per quanto
riguarda i caratteri quantitativi (se entrambi lo sono) le relazioni sono di due tipi :
correlazione e regressione. La regressione, invece, si applica quando voglio
analizzare la relazione di dipendenza tra due variabili, una delle quali è indipendente
mentre l'altra dipende dalla prima. In pratica si assume che tra le 2 variabili esisti una
legge y= f(x). Con la regressione una variabile spiega l'altra e viene indicata quindi la
causalità che lega le due variabili. Inoltre si dice che la variabile indipendente sia
predittiva rispetto a quella di esito (che è quella dipendente). Un'interpretazione più
allargata della regressione è prevista anche se non si trova il legame causa-effetto
nella direzione di esaminare la capacità predittiva del modello per stimare Y
conoscendo X.
La correlazione è una relazione applicata quando occorre conoscere l'intensità
dell'associazione tra due variabili che variano congiuntamente, senza che tra di esse
sia ipotizzata una relazione di causa-effetto. La correlazione,in pratica, quando due
variabili non sono legate fra loro da una legge nota e studiata, ma mostrano, se
riportate su un diagramma cartesiano, un certo grado di associazione (lineare o
meno). È possibile quantificare il grado d'intensità di tale legame mediante il
coefficiente di correlazione elaborato da Pearson. La correlazione permette
quindi di identificare l'intensità del legame tra le due variabili solo per lo studio di
variabili quantitative continue ; mentre la regressione lavora anche su quantitative
discrete.
Il coefficiente di correlazione si calcola :
COVARIANZA
PRODOTTO DELLE DEVIAZIONI