Anteprima
Vedrai una selezione di 4 pagine su 12
Statistica - Appunti Pag. 1 Statistica - Appunti Pag. 2
Anteprima di 4 pagg. su 12.
Scarica il documento per vederlo tutto.
Statistica - Appunti Pag. 6
Anteprima di 4 pagg. su 12.
Scarica il documento per vederlo tutto.
Statistica - Appunti Pag. 11
1 su 12
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

MEDIA ARITMETICA

E' la media normale : ovvero la somma dei valori

numero dei valori

La media aritmetica ponderata dà un peso alle diverse numerosità. La media

ponderata è il rapporto tra somma dei prodotti dei numeri per i loro pesi e la somma

dei pesi stessi. Il valore che otterremo sarà leggermente diverso rispetto alla media

aritmetica. La media ponderata è particolarmente significativa quando i pesi servono

per indicare l'importanza dei diversi valori. Si può anche dire che la media ponderata

deriva dalla somma delle frequenze.

ESEMPIO DI MEDIA PONDERATA :

REPARTO N° PAZIENTI TEMPERATURA MEDIA

Medicina A 21 37,8

Medicina B 18 38,2

Medicina C 28 37,7

La media ponderata si calcola così : 1 / somma del n° dei pazienti moltiplicato per la

sommatoria (Σ) di (temperatura media per numero di pazienti es : 37,8 * 21 + 38,2*18

+ 37,7 * 28 ) = 1/ 67 (2537) = 2537 / 67 = 37,9 . Questa è la media ponderata.

INDICI DI DISPERSIONE O INDICI DI VARIABILITA'

Sono indici che permettono di misurare la variabilità e quindi di capire quanto i valori

siano vicini o lontani rispetto alla posizione centrale. Gli indici di variabilità sono :

campo di variazione (o range), differenza interquartile, scarto, devianza, varianza,

deviazione standard, variazione media (o coefficiente di variazione).

CAMPO DI VARIAZIONE o RANGE

Il campo di variazione di una sequenza di numeri è la differenza tra il valore massimo

e il valore minimo (Xmax – Xmin). È un indicatore di variabilità molto grezzo e poco

affidabile perchè può essere influenzato da valori anomali periferici (outlier)

DIFFERENZA INTERQUARTILE

Viene utilizzata al posto del campo di variazione per la sua maggiore affidabilità.

Consiste nell'ammettere esclusivamente il primo e il terzo quartile e sottrarli : D.I : Q3

– Q1. SCARTO (Σ scarti)

Corrisponde alla differenza tra il valore osservato e il valore medio. La somma degli

scarti è sempre uguale a zero e per questo ogni scarto deve essere elevato al

quadrato. DEVIANZA (Σ scarti ^ 2)

E' la somma degli scarti elevata al quadrato.

VARIANZA

E' la media della devianza, cioè la media degli scarti al quadrato (somma degli scarti

al quadrato / numero degli scarti).

DEVIAZIONE STANDARD (o scarto quadratico medio)

E' la varianza elevata a radice quadrata. La deviazione standard è l'indice di variabilità

più fattibile. COEFFICIENTE DI VARIAZIONE

Si ricava dividendo la deviazione standard con la media : DS/media. Il coefficiente di

variazione è una misura di dispersione relativa (al contrario delle misure precedenti

che sono assolute). Quindi ci fornisce la misura proporzionale di quanto si discostano i

dati dalla media. RIASSUMENDO :

Se gli indici di posizione forniscono informazioni su dove questi si collocano

all’interno della distribuzione, e in corrispondenza di quali valori, gli indici di

dispersione-variabilità definiscono in che misura i valori della distribuzione si

raccolgono attorno alla media.

La rappresentazione grafica della dispersione permette di dare una forma al

fenomeno, quanto più i valori saranno prossimi alla media tanto più stretta apparirà la

distribuzione. La misura più appropriata della variabilità (distanza del valore di ogni

singola osservazione dalla media) è l’insieme degli scarti dalla media. Il risultato

della “somma degli scarti” non è peraltro utilizzabile in quanto corrisponde al valore

zero. Per far fronte a questa complicazione il valore di ogni singolo scarto viene

elevato al quadrato, l’operazione consente di ottenere valori sempre maggiori di zero.

Si otterrà pertanto la “somma dei quadrati”, la devianza. Il valore della devianza

cresce con l’aumentare della distanza di ogni singola osservazione dalla media e con il

numero delle osservazioni. Quest’ultima caratteristica è annullata dividendo la

devianza per il numero delle osservazioni. La varianza è perciò il “quadrato medio” .

Questa misura peraltro non ci fornisce ancora la misura precisa di quanto i valori si

discostino dalla media in quanto è ancora ‘viziata’ dall’elevazione al quadrato. Per

poter contare su di un parametro preciso confrontabile con i valori della distribuzione

quadrata della varianza ottenendo infine la

dovremo calcolare la radice

deviazione standard.

Indice Tipologia Simbolo

moda posizione Mo

mediana posizione Me

media posizione M (generica) - m (nella popolazione)

SM (Somma dei Quadrati) SS (Sum of

devianza dispersione Squares)

QM (Quadrato Medio) MS (Mean Square)

varianza dispersione s2 (nella popolazione) - s2(nel campione)

deviazione DS o SD oppure “root mean square” -

dispersione

standard s (nella popolazione) - s (nel campione)

ESERCIZIO ESEMPLIFICATIVO :

Calcola la media ponderata della distribuzione : 1/72 * Σ (9,5*4 + 10,5*14 + 11,5*19 +

12,5*14 + 13,5 * 13 + 14,5 * 6) = 1/72 * Σ (38+147+218,5+175+175,5+87) = 1/72 *

Σ (841) =

841/72 = 11,68. DISTRIBUZIONE BIVARIATA

Si parla di distribuzione bivariata quando ad ogni unità statistica (appartenente ad una

determinata popolazione) si rilevano due caratteri X e Y. Può trattarsi si entrambi

caratteri qualitativi o quantitativi (oppure di un carattere qualitativo e uno

quantitativo). Queste due variabili possono essere rappresentate tramite asse

cartesiano (dove X è la variabile indipendente e Y è la variabile dipendente). Una

distribuzione bivariata può essere :

Congiunta (assoluta e relativa) = se X=peso e Y= altezza ; la distribuzione

– congiunta indica quale percentuale di soggetti di soggetti pesa un certo

intervallo di kg ed è alta un certo intervallo di cm.

Condizionata = è una distribuzione in cui X e Y si condizionano a vicenda.

– Marginale = indicano come si muove un solo carattere (X o Y) all'interno della

– distribuzione congiunta. La distribuzione della X indipendentemente dalla

modalità della Y si dice distribuzione marginale della X ; la distribuzione della Y

indipendentemente dalla modalità della X si dice distribuzione marginale della Y.

Se la distribuzione marginale ha le medesime condizioni di quella congiunta allora X

non influenzerà Y. ESEMPIO

Confronto l'efficacia di due trattamenti sulla guarigione :

CASO 1 :

Guarito Non guarito Totale

Trattamento A 40 60 100

Trattamento B 50 100 150

Totale 90 160 250

Distribuzione condizionata del caso 1 per capire quale dei due trattamenti funziona :

Guarito (y) Non guarito Totale

Trattamento A (x) 40/100 60/100 100

Trattamento B 50/150 100/150 150

Totale 90/250 160/250 250

L'esito è diverso se condizionato y/x quindi il trattamento influenza l'esito. E il

trattamento che funziona è il B. Possiamo quindi dire che y diverso da (y/x) perchè

hanno diversi esiti. CASO 2 :

guarito Non guarito Totale

Trattamento A 30 50 80

Trattamento B 10 70 80

Totale 40 120 160

Nel secondo caso invece si può dire che y = (y/x) perchè tra i due trattamenti la

frequenza assoluta è uguale (80 ; 80).

TEST DEL CHI QUADRATO

Va a calcolare le frequenze teoriche cioè quelle che dovrebbero essere osservate nel

momento in cui tra le variabili non esistesse alcuna indipendenza. Le frequenze

teoriche sono la numerosità attesa nel momento in cui poniamo che non ci sia

indipendenza tra le due variabili. È da ricordare che questo test va applicato solo a

numeri assoluti di casi e non a proporzioni,percentuali,medie di osservazioni... Inoltre,

tutti i test del chi quadrato sono per default “a 2 code”. Il test del chi quadrato si

calcola così : (frequenza osservata – frequenza teorica)^2

frequenza teorica

ESEMPIO : verificare attraverso il test del chi quadrato se esiste una connessione tra

nazione di nascita e tipologia di scuola frequentata :

liceo tecnico professionale totale

Nato in italia 656 424 633 1713

Nato in altra 78 105 185 368

nazione 734 529 818 2081

1° PASSO : trasformo le somme totali (frequenze relative marginali) in frequenze

• relative : (frequenza assoluta/totale delle frequenze )*100 . es. (734/2081)*100 ;

(529/2081)*100 ; (818/2081)*100 ; (2081/2081)*100. Ottengo : 0,35 – 0,25 –

0,39 – 1.

2° PASSO : calcolo le frequenze teoriche moltiplicando ogni frequenza relativa

• per il loro totale. (0,35 -0,25 – 0,39 )* 1713 ; (0,35 -0,25 – 0,39 )*368 ; (0,35

-0,25 – 0,39 )*2081.

3°PASSO : calcolo il chi quadrato : frequenza osservata (656) – frequenza

• teorica / frequenza teorica. E lo faccio per ogni frequenza osservata

(656-424-633-78-105-185). Dopodichè sommo i risultati ottenuti e trovo la

connessione. RELAZIONE TRA I CARATTERI

Per quanto riguarda i caratteri qualitativi (che sia uno o entrambi) la relazione

esistente è la connessione (analisi di dipendenza tra 2 variabili qualitative). Per quanto

riguarda i caratteri quantitativi (se entrambi lo sono) le relazioni sono di due tipi :

correlazione e regressione. La regressione, invece, si applica quando voglio

analizzare la relazione di dipendenza tra due variabili, una delle quali è indipendente

mentre l'altra dipende dalla prima. In pratica si assume che tra le 2 variabili esisti una

legge y= f(x). Con la regressione una variabile spiega l'altra e viene indicata quindi la

causalità che lega le due variabili. Inoltre si dice che la variabile indipendente sia

predittiva rispetto a quella di esito (che è quella dipendente). Un'interpretazione più

allargata della regressione è prevista anche se non si trova il legame causa-effetto

nella direzione di esaminare la capacità predittiva del modello per stimare Y

conoscendo X.

La correlazione è una relazione applicata quando occorre conoscere l'intensità

dell'associazione tra due variabili che variano congiuntamente, senza che tra di esse

sia ipotizzata una relazione di causa-effetto. La correlazione,in pratica, quando due

variabili non sono legate fra loro da una legge nota e studiata, ma mostrano, se

riportate su un diagramma cartesiano, un certo grado di associazione (lineare o

meno). È possibile quantificare il grado d'intensità di tale legame mediante il

coefficiente di correlazione elaborato da Pearson. La correlazione permette

quindi di identificare l'intensità del legame tra le due variabili solo per lo studio di

variabili quantitative continue ; mentre la regressione lavora anche su quantitative

discrete.

Il coefficiente di correlazione si calcola :

COVARIANZA

PRODOTTO DELLE DEVIAZIONI

Dettagli
Publisher
A.A. 2013-2014
12 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Biby1992 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Cattolica del Sacro Cuore - Roma Unicatt o del prof Bruno Paola.