Anteprima
Vedrai una selezione di 3 pagine su 7
Cenni di statistica Pag. 1 Cenni di statistica Pag. 2
Anteprima di 3 pagg. su 7.
Scarica il documento per vederlo tutto.
Cenni di statistica Pag. 6
1 su 7
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

INDICI DI VARIABILITÀ

Sono indici che mostrano cosa succede nel mezzo del grafico, e sono associabili solo a

variabili quantitative.

 Range, detto anche campo di variazione, è la differenza tra valore massimo e valore

minimo, e serve a far capire il salto massimo e quanto è ampio l’intervallo di

variazione. Non è molto affidabile perché in caso di presenza di dati anomali, il range

è fuorviante.

 Differenza interquartile è la differenza tra il terzo quartile e il primo quartile, ovvero la

modalità che occupa la posizione a tre quarti e quella che occupa la posizione a un

quarto della scala, eliminando i valori estremi che potrebbero contenere dati anomali.

Richiedono quindi anch’essi l’ordine, e la Mediana rappresenta il secondo quartile.

Possono essere usati anche i decili e i centili.

 Gli scarti della media sono la sommatoria della differenza un valore medio e gli indici

di dispersione della variabilità, che però verrebbe 0 poiché si sommano gli scarti

positivi e negativi. Quindi si eleva al quadrato, ottenendo la Devianza (Dev), che però

non dà molte informazioni 2

 Dividendo la devianza per il totale dei soggetti, si ottiene δ , cioè la varianza. La

radice quadrata della devianza dà la deviazione standard, che divisa per la media dà

il coefficiente di variazione (V) e rappresenta la distanza media di un dato dal valore

medio.

I dati anomali possono essere individuati in diversi modi. Se il massimo e il minimo non

sono dati anomali, non sono presenti. Occorre standardizzare i dati rispetto alla media con il

conteggio Z, cioè cercare di capire quanto dista un valore dalla media rispetto alla distanza

media. Se viene un valore superiore a 3, il dato è anomalo.

2

PROBABILITÀ

Essa misura il grado di manifestazione di un evento, ed è sempre compresa tra 0 e 1. Se la

probabilità è 0, un evento è impossibile, se è 1, è certo. Si prende in considerazione un

esperimento aleatorio, cioè casuale, di cui si riconoscono tutti i possibili dati ma non si può

determinare con assoluta certezza quale si verificherà. Ciò che si verifica è l’evento, che

può essere semplice, se è un singolo risultato, o composto, se comprende più risultati. La

probabilità può essere calcolata in due modi: N ° casi favorevoli

p( A)=

 A priori, prima del verificarsi dell’evento: .

N ° casi possibili

N ° di successi

( )=

p A

 A posteriori, provando numerose volte: .

N ° di tentativi

Ci sono quattro casi per gli eventi composti.

 La probabilità di due eventi incompatibili, cioè il verificarsi di uno esclude l’altro, è:

( )= ( )

∪ +

p A B p A p(B)

 La probabilità di due eventi compatibili, cioè possono verificarsi

( )= ( ) ( )−

∪ +

p A B p A p B p( A ∩ B)

contemporaneamente, è: (Parte in comune)

( ) ( )

 La probabilità di due eventi compatibili dipendenti è: =p (B /

p A ∩ B A ∙ p A)

(causa effetto) ( ) ( )

 =p (B)

La probabilità di due eventi compatibili indipendenti è: p A ∩ B A ∙ p

LE VARIABILI CASUALI

Esse sono variabili quantitative i cui valori sono associati a un esperimento probabilistico, e

viene rappresentata con la probabilità invece che con la frequenza. Esistono quattro tipi di

variabili.

Binomiale, variabili discrete. Il grafico di queste variabili è sempre asimmetrico, a parte

quando p=q ed è limitata. Indicando con p è la probabilità di successo del singolo evento, n

il numero di prove indipendenti tra loro, e x è il numero di successi che si ricercano. x è

sempre minore o uguale a n. la probabilità di insuccesso è q=1-p.

( )

n n− x

x

( )= ( )

p x p ∙ 1− p

x

( ) n!

nx = e n! vale il prodotto di tutti i valori interi precedenti a n fino a 1. 0!=1.

( )

x ! n−x !

Normale o gaussiana, variabili continue. Il grafico di queste variabili è sempre simmetrico

rispetto ad un dato centrale chiamato μ, la media, è illimitato, anche se l’area sottesa di

tutto il grafico è sempre uguale a 1 e è asintotico, poiché gli estremi non toccano mai l’asse

x. STATISTICA INFERENZIALE. 3

Si parte dal particolare per arrivare al generale. Partendo da un campione, si cerca di

estendere le caratteristiche anche al generale. Il parametro θ è importante per ciò, e può

2

essere la moda μ, la varianza σ o la proporzione di soggetti con una determinata

caratteristica π. Al campione si applica lo Stimatore T, formula che esprime la stima dei

parametri nella popolazione, valore numerico. I tre stimatori possono essere:

∑ x f

i i

 , e rappresenta la media campionaria

i

x́= n

∑ 2

( − )

x x́ f

i i 2

 , che è varianza campionaria e serve per esprimere σ della

2 i

=

s n−1

popolazione.

x

p=

 , dove x = soggetti con una caratteristica e n è il campione, e serve per

n

esprimere π

Un campione deve essere rappresentativo, cioè nel piccolo deve rappresentare le

caratteristiche di una popolazione. Se la media delle stime coincide con la popolazione

( ) ( )

E T E T ≠ θ

, l’estimatore è corretto, se non coincidono è distorto e

( ) −θ=Distorsione

E T .

MEDIA CAMPIONARIA, PROPORZIONE E VARIANZA CAMPIONARIA

2

Essa cambia a seconda del campione. È uno stimatore corretto di μ. è il grado di

σ x́

variabilità della stima e indica l’imprecisione (se nullo, lo stimatore è precisissimo).

2

σ

2 = . La legge dei grandi numeri afferma che quanto è più grande il campione, quanto

σ x́ n

2

più diminuisce, quindi l’estimatore diventa più preciso. Nella realtà, i campioni non

σ x́

sono molto grandi per mancanza di tempi e costi eccessivi. Lo stimatore, in media, sbaglia

di σ, che è l’errore standard. Gli intervalli di confidenza o di fiducia sono intervalli di possibili

stime e si possono applicare solo se la media campionaria è normale, ovvero segue la

curva gaussiana. Se l’intervallo è grande, è più probabile che il parametro ci rientri anche

se è meno informativo, mentre se è piccolo è il contrario. La probabilità si chiama appunto

confidenza. Gli estremi dell’intervallo da conoscere devono distare lo stesso valore dalla

media e si chiama margine di errore ME, che quanto più è piccolo, quanto più è minore

l’errore. La confidenza, osservando un grafico gaussiano, è l’area curva nell’intervallo, che

deve essere elevata, e di solito è richiesta al 90, 95 o 99%, e corrisponde a 1-α, dove α

rappresenta l’area estrema alla curva. Il margine di errore si trova con la formula:

σ

ME= z , z si trova in corrispondenza delle due mode e si trova nelle tavole. I valori

α

√ n 2 x́ ± ME

estremi che indicano il margine di errore corrispondono a L = . La probabilità che

1,2

la moda sia compresa tra i due valori estremi è uguale alla soglia di confidenza. Se la

media campionaria non è una variabile normale o non possiamo affermarlo con certezza,

entra in gioco il teorema del limite centrale, che afferma che quanto n è grande, da 30 in

poi, la media è approssimativamente una normale in ogni caso. Quando manca σ, si ricorre

4

2

alla formula con s , la varianza, e invece che z si utilizza la t di student, che è più grande

perché l’intervallo è più grande e n-1 si usa per correggere l’errore. Gli estremi quando si

√ p ∙(1− p)

=

L p ± Z

tiene conto della probabilità valgono .

1,2 α n

2

TEST DI IPOTESI

Quando si ha due campioni, si può fare il confronto tra le mode. Se esse sono diverse, si

deve capire se ciò è un caso o se ha un significato, poiché esiste anche a livello di

popolazione. Se è casuale non ci sono considerazioni da fare, altrimenti si deve capire quali

fattori influenzano il tutto. Due campioni si dicono dipendenti quando hanno un legame, per

esempio se i due campioni considerati sono il solito prima e dopo un evento. Si prendono

due ipotesi di partenza, h , che se è vera afferma che la differenza di mode è casuale, o h

0 1,

che se è vera dice che c’è un collegamento, e può essere bidirezionale, una totalmente

errata e una giusta. La t di student si trova con la formula:

2 2

( )

−1 +S −1)

S ∙ n ∙( n

1 1 2 2

¿ +

n n

1 2

¿ +n −2∙

n 1 2 n ∙ n

2 1

¿

¿

¿

−x́ −(

x́ μ1−μ 2)

1 2

t= ¿

Quanto più t è piccola, quanto più è possibile che h sia accettabile. Se |t|>|t |, non si

0 critico

accetta h come ipotesi. Il valore critico si basa sul livello di significatività α. Si possono

0

commettere due tipi di errore, il più grave è rifiutare h che in realtà è vero, mentre il

0

secondo è accettare h che è falso. α è un valore molto piccolo, di solito interno al 5%, e

0

sappiamo che si sbaglia si sbaglia di α%.

TEST NON PARAMETRICI

Si considera quando due campioni non hanno andamento normale, e si fanno ipotesi non

sulle mode ma sulle mediane, quindi sulla oro posizione.

P VALORE

Altro metodo è il calcolo della coda del valore calcolato t. se t<t allora la sua coda sarà più

c,

grande della coda del valore critico e se p<α, si accetta l’ipotesi h e se p è molto piccolo si

0

rifiuta ed è calcolabile solo in ambito di punteggio z, con le tavole standardizzate.

L’ASSOCIAZIONE TRA DUE VARIABILI

Si verifica quando due variabili sono associate, cioè al variare di una varia anche l’altra, ma

non necessariamente sono legate dalla legge causa-effetto ma più probabilmente da una

terza variabile, che influenza entrambe. Di solito si considerano due variabili, x che è la

variabile indipendente e y che è la variabile dipendente e oggetto di studio.

5

Le due variabili possono essere una qualitativa e una quantitativa, e si ricorre al test di

ipotesi per fare un’indagine statist

Dettagli
Publisher
A.A. 2019-2020
7 pagine
SSD Scienze mediche MED/01 Statistica medica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher rachi253 di informazioni apprese con la frequenza delle lezioni di Fisica e statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Pisa o del prof Barsanti Iljà.