Anteprima
Vedrai una selezione di 5 pagine su 17
Appunti statistica Pag. 1 Appunti statistica Pag. 2
Anteprima di 5 pagg. su 17.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 6
Anteprima di 5 pagg. su 17.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 11
Anteprima di 5 pagg. su 17.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 16
1 su 17
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

SCARTO INTERQUARTILE (SIQ)

È la differenza tra il terzo e il primo quartile. Lo SIQ dipende da due quantità che non sono sensibili alla

presenza di eventuali valori autonomi. È un indice di dispersione di uso comune, dato dalla differenza tra il 3°

e il 1° quartile: tale intervallo contiene la metà dei valori inclusi nel campione, indipendentemente dalla forma

della distribuzione della variabile.

DEVIANZA ͞

Somma dei quadrati degli scarti delle singole osservazioni (x ) rispetto alla media campionaria( x):

i

Scarti: tutti i valori che non possono essere la media.

Lo scarto quadratico medio diviso il numero (n) della popolazione si chiama varianza della popolazione.

Se lo scarto quadratico è diviso per n-1 quindi rispetto a un campione abbiamo la varianza campionaria.

(stimatore non distorto della varianza). Può assumere valori strettamente positivi e vale 0 in assenza di

variabilità. La varianza è espressa in unità di misura al quadrato.

DEVIAZIONE STANDARD per ovviare al problema dell’unità di misura al quadrato:

Quando i dati sono organizzati in seriazioni si adegua la formula per tenere conto delle frequenze delle

classi:

COEFFICIENTE DI VARIAZIONE

Il coefficiente di variazione (CV) è il rapporto tra la deviazione standard e la media aritmetica. È un numero

puro che può assumere valori positivi o negativi a seconda del segno della media e misura la percentuale di

variabilità dovuta alla media. Viene utilizzato:

1. per tener conto dell’ordine di grandezza del fenomeno.

2. per confrontare la variabilità di fenomeni di natura diversa.

MISURE ANALITICHE

Il risultato di un'operazione di misura è un numero reale (x), detto misura analitica che esprime il

valore vero (θ).

1. Livello vero di un indicatore biologico

2. Livello vero di pressione

3. Altezza vera

1. Livello osservato di un indicatore biologico

2. Livello osservato di pressione

3. Altezza osservata

L'esperienza indica che se si eseguono più misurazioni di una stessa quantità: i valori misurati

sono in genere diversi dal valore vero della quantità oggetto di misura. ɳ

ERRORE TOTALE: la differenza tra il valore misurato (x) e quello vero (θ) è detta errore totale ( )

Una misura è tanto più attendibile tanto più minore è l'errore totale.

MISURE ED ERRORI DI MISURA

La misura non consente di determinare con certezza il valore della quantità misurata, ma produce

stime, o misure il cui grado di approssimazione al vero valore (attendibilità) dipende:

• Dal procedimento analitico

• Da come è stato eseguito

NATURA DEGLI ERRORI DI MISURA

• Grossolani: commessi in seguito ad una inappropriata applicazione del metodo analitico

(ad esempio misurare la pressione arteriosa dopo uno sforzo fisico) gli errori grossolani si

prevengono con un'accorta procedura di misurazione.

• Sistematici: si manifestano nella tendenza deterministica di un dato metodo di

sovrastimare/sottostimare una grandezza il vero valore θ. Gli errori sistematici hanno cause

ben determinate, inerenti:

Il metodo (esempio misurazione della pressione arteriosa con il braccio

o

alzato/abbassato)

Le condizioni di esecuzione del procedimento analitico (esempio sfigmomanometro

o

mal calibrato)

Considerando tutte le infinite misure che si potrebbero ottenere misurando θ con una certa

procedura e valutiamo quanto la loro media µ differisce dal valore vero θ.

Una misura è tanto più accurata quando minore è l'entità dell'errore sistematico. Non posso

capire l'entità del valore sistematico se non sono a conoscenza del valore vero.

• Casuali: misurazioni dello stesso valore θ ripetute con il medesimo procedimento analitico

e in condizioni il più possibile simili portano spesso a misure differenti. La somma di tutte le

piccole e imprevedibili variazioni nell'esecuzione delle varie operazioni analitiche fa si che le

misure fluttuino attorno a un valore µ, che si discosta più o meno dal valore θ a seconda

dell'errore sistematico.

Le fluttuazioni delle misure (x) attorno a µ sono dette errori casuali.

Una misura è tanto più precisa quanto più minore è l'entità dell'errore casuale (Ԑ) da cui è

affetta. ɳ

In conclusione l'errore totale di una misura esente da errori grossolani può essere espresso

come una somma di:

Errore totale = errore sistematico + errore casuale.

PRECISIONE=concordanza delle misurazioni fra di loro

ACCURATEZZA=quanto le misure che io faccio concordano con il valore vero.

STIMA DI PRECISIONE E ACCURATEZZA

Date n misure (x , x , x , x , x , x ...x ) ottenute con un certo metodo:

1 2 3 4 5 6 n

• ͞

Stima accuratezza --> media campionaria (x)

• Stima di precisione --> deviazione standard campionaria (s)

DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI

Potremmo ad esempio essere interessati a valutare il grado di associazione tra l'altezza e il peso

"della stessa persona" all'interno di un gruppo di persone, tra il reddito medio pro-capite di un

paese e il tasso di mortalità neonatale, tra l'età della madre e il numero di nati affetti da sindrome

di down e così via.

Il primo passo da compiere quando si vuole studiare una relazione tra due variabili consiste

nell'elencare le coppie di valori relativi alle due variabili di studio e rappresentarle graficamente.

Esempio 1:

Misura della glicemia due macchine su dieci soggetti:

CORRELAZIONE LINEARE: Poiché ogni coppia di misure si riferisce a un differente valore i tipico

del soggetto in esame, ci si aspetta che, se una misura xi è maggiore della media, anche la

corrispondente misura yi sia maggiore della media. In altre parole, ci si attende che a scarti dalla

media (xi-xm) positivi sull'asse x corrispondano scarti dalla media(yi- ym) positivi sull'asse y, e che

a scarti negativi sull‘asse x corrispondano scarti negativi sull'asse y: in effetti, i punti (xi,yi) sono

addensati nel primo e nel terzo quadrante.

Esempio 2:

Un singolo prelievo di sangue viene suddiviso in 10 provette, ed il contenuto di ogni provetta è

ripartito in due aliquote, analizzate l'una con il metodo X e l'altra con il metodo Y. Nell'insieme di 10

coppie (xi , yi) di misure di un unico valore , le fluttuazioni attorno alle medie e sono dovute solo ad

errori di misura.

ASSENZA DI CORRELAZIONE LINEARE: Perciò non ci si aspetta che a scarti positivi sull'asse x

corrispondano scarti positivi sull'asse y: in effetti, i punti(xi,yi) si disperdono uniformemente nei

quadranti della figura grafico di Dispersione I dati della tabella sono

riportati nel diagramma cartesiano qui a fianco. Ogni punto rappresenta una coppia (xi , yi), la linea

rossa verticale la media (xm) delle x, e la linea rossa orizzontale la media (ym) delle y.

La somma dei prodotti degli scarti prende il nome di CODEVIANZA:

• Positiva se le coppie di scarti concordi (+,+ o -,-) prevalgono su quelle di scarti discordi

• Negativa in caso contrario

• Nulla se coppia di concordi e discordi si equivalgono.

In analogia con quanto visto per la varianza campionaria, si definisce un indice detto

COVARIANZA dato dal rapporto tra codevianza e numerosità (n) del campione diminuita di

un'unità.

COEFFICIENTE DI CORRELAZIONE LINEARE:

E' il rapporto tra la covarianza e il prodotto delle deviazioni standard (sx e sy) delle variabili x e y.

Il coefficiente di correlazione lineare può assumere valori compresi tra -1 e +1.

• Correlazione lineare ositiva

• Correlazione lineare negativa o inversa

PROPRIETA':

• R è un numero adimensionale

• Può assumere valori compresi tra -1 (correlazione negativa) e +1 (correlazione positiva). 0

corrisponde ad assenza di correlazione lineare

• Non risente dello scambio delle variabili

• Non risente dell'aggiunta di una stessa quantità a tutti i valori di una variabile

• Non risente della moltiplicazione per un numero positivo di tutti i valori di una variabile

• NON misura l'associazione in generale ma solo quella lineare (dispersione dei punti

intorno a una retta)

• NON definisce una relazione causa-effetto

INTERPRETARE IL COEFFICIENTE DI CORRELAZIONE

Dipende fondamentalmente dalle caratteristiche della ricerca.

Come regola di pratica utilità possono essere utili i seguenti suggerimenti

(Morton et al., 1979)

ρ grado di associazione

0.8-1.0 forte

0.2-0.8 buona

0.2-0.5 debole

0.0-0.2 Trascurabile

PROBABILITA':

Quando ci muoviamo in ambito sperimentale, abbiamo a che fare con esperimenti di due tipi: casuali e

aleatori.

Definiamo casuale o aleatorio un esperimento che può dar luogo ad un risultato, fra un certo numero di

risultati possibili, di esito ignoto o non determinabile a priori in modo univoco. a cosa ci serve misurare l'esito

di un esperimento casuale?

• Una misura dell'occorrenza dell'evento di interesse

• Un modello, inteso come esemplificazione di una realtà più complessa, da applicare allo studio del

nostro esperimento

o Probabilità

o Modello probabilistico

Spazio degli eventi Ω (o spazio campione): insieme di tutti i possibili esiti del nostro esperimento, tutti i

modi in cui si può manifestare

Evento: possibile esito dell'esperimento definito come un sottoinsieme dello spazio degli eventi

• Evento semplice: sottoinsieme unitario atomico --> singolo esito (esce 6 nel lancio del dado)

• Evento composto: sottoinsieme non unitario di eventi suddivisibile in eventi unitari (in una famiglia

con tre figli, evento “almeno 2 femmine” (2F1M, 3F0M))

DEFINIZIONE DI PROBABILITA':

Probabilità di un evento è il rapporto tra il numero di casi che verificano l'evento (casi favorevoli) ed il numero

totale di casi (casi possibili), a condizione che i casi siano tutti “ugualmente possibili”.

Ha due limitazioni fondamentali:

• Assume che sia possibile enumerare tutti i casi, ma questo vale solo in certe situazioni

• Si basa sul concetto di "ugualmente possibile"

Più in generale è opportuno fare riferimento alla legge empirica del caso:

In una serie N di prove ripetute un gran numero di volte e sempre nelle stesse condizioni, un evento si

manifesta n volte, cioè con frequenza f(x)=n/N che approssima la sua probabilità p(x): l'approssimazione

cresce ordinariamente al crescere del numero

delle prove. Pertanto, f(x) ≈ p(x) se N è abbastanza grande.

Definizione soggettivista (Bayes)

La probab

Dettagli
Publisher
A.A. 2015-2016
17 pagine
1 download
SSD Scienze matematiche e informatiche MAT/06 Probabilità e statistica matematica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Assolo di informazioni apprese con la frequenza delle lezioni di Calcolo delle probabilità e statistica matematica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Udine o del prof Isola Miriam.