Anteprima
Vedrai una selezione di 18 pagine su 83
Appunti di Principi di statistica Pag. 1 Appunti di Principi di statistica Pag. 2
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti di Principi di statistica Pag. 6
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti di Principi di statistica Pag. 11
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti di Principi di statistica Pag. 16
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti di Principi di statistica Pag. 21
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti di Principi di statistica Pag. 26
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti di Principi di statistica Pag. 31
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti di Principi di statistica Pag. 36
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti di Principi di statistica Pag. 41
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti di Principi di statistica Pag. 46
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti di Principi di statistica Pag. 51
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti di Principi di statistica Pag. 56
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti di Principi di statistica Pag. 61
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti di Principi di statistica Pag. 66
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti di Principi di statistica Pag. 71
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti di Principi di statistica Pag. 76
Anteprima di 18 pagg. su 83.
Scarica il documento per vederlo tutto.
Appunti di Principi di statistica Pag. 81
1 su 83
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

X

sua attendibilità: devo dire con quale probabilità la media campionaria rappresenta la media dell’universo.

In generale, ciò viene effettuato indicando un intervallo, centrato sulla media campionaria, entro il quale

data una certa probabilità, si trova il vero valore di μ .

0  

I limiti inferiore e superiore si calcolano a partire dalla media 

     

/2 X z X z \

campionaria, dal valore Z per (si considera sempre test  

0

n n

2 2

bilaterale) e l’errore standard.

I due limiti quindi contengono, con un certa probabilità, il vero valore della media dell’universo. La

:  /2

probabilità è in funzione del valore di se è 5%, è 2.5% ===> l’intervallo conterrà la vera media

dell’universo per il 95%. Se voglio aumentare la probabilità che l’intervallo contenga la vera media, devo

ampliare l’intervallo, per cui i due limiti saranno più distanti tra loro.

Inoltre, quando uso il test z uso la media del campione come miglior stima dell’universo.

34  SECONDO TIPO DI TEST: TEST t DI STUDENT

Il test t di Student soddisfa diverse necessità relativamente al confronto tra medie

 confronta la media della popolazione con la media del campione quando la dispersione della

popolazione è ignota;

 confronta due medie campionarie (gruppo trattato e non trattato):

- per campioni indipendenti (unpaired samples)

- per campioni dipendenti (paired samples).

Nel caso del confronto tra due campioni il test deve dirmi se la differenza tra le medie dei due campioni è

dovuta al caso o no. In questo secondo caso i campioni appartengono a due universi diversi, quindi il

farmaco sarà efficace per una terapia.

Se nel test z si ha un solo parametro da stimare, nel test t sono due: media e dispersione dell’universo.

Quindi, quando μ (media dell’universo) e/o σ sono ignoti, la distribuzione normale non è più adatta a

0

descrivere la distribuzione di probabilità utile. Si deve utilizzare una distribuzione di probabilità diversa,

appunto la distribuzione t.

Per cui, per determinare questi due parametri dell’universo, si devono utilizzare i due parametri del

campione (media e dispersione s) come stima. La distribuzione t tiene conto della simultanea variazione

X

campionaria di questi due valori.

In generale, la distribuzione t di Student ha:

- code più alte

- è più stretta (più centrata alla media rispetto alla distribuzione normale)

- mostra varianza maggiore rispetto alla normale

- all' aumentare dei gradi di libertà essa tende rapidamente alla normale.

Quando si parla di distribuzione t, si fa riferimento ad una famiglia di distribuzioni, perché si deve

considerare la simultanea variazione di due parametri.

La famiglia di distribuzione dipende dal numero di gradi di libertà.

Vari tipi di distribuzione t in funzione del grado di libertà.

Asse Y: valori di probabilità

asse X: valori di una generica variabile X.

All’aumentare dei gradi di libertà (simbolo v) le distribuzioni si

avvicinano all’asse X, per cui le distribuzioni t si avvicinano ad una

distribuzione normale classica.

Inoltre, in queste distribuzione la media è identica (zero), cambia solo

la dispersione standard (molto maggiore per la distribuzione nera).

Quindi ci si dovrà chiedere a quale distribuzione di t il nostro esperimento fa riferimento. 35

 GRADI DI LIBERTA’

I gradi di libertà di una variabile aleatoria o di una statistica in genere, corrispondono al numero di misure

indipendenti meno il numero dei vincoli. I vincoli sono valori che rimangono costanti, per esempio la

somma o la media. Ho 5 osservazioni e ne calcolo la media (vincolo). Se la somma è fissa quante di queste

osservazioni devo conoscere per poterle poi conoscere tutte? 4 (4 gradi di libertà) ---> il quinto valore è

vincolato al valore di somma che ho ottenuto.

Quindi dati n dati, ne sono sufficienti n-1 per determinarne l’intera serie a partire dal vincolo stesso.

Attraverso i gradi libertà determino la distribuzione di t (tra quelle infinite) più consona ai dati sperimentali

che ho a disposizione.

SCHEMA RIASSUNTIVO

Per fare un test t di deve:

1. determinare l’ipotesi nulla e l’ipotesi alternativa

2. scegliere il livello di significatività (sempre 5%)

3. definire i gradi di libertà 

4. in funzione del tipo di test (a una o due code) e di si determinano i valori critici e la regione di

rifiuto

5. si risolve il test e si vede se il t calcolato è superiore o meno al valore critico (da tabella), funzione

sia di sia del tipo di test prescelto ---> principale differenza col test z (dove al valore trovato si

determinava subito la probabilità) 

6. si decide se confutare o accettare H in funzione di

0

1. CONFRONTO TRA MEDIA CAMPIONARIA E MEDIA DELLA POPOLAZIONE

In questo caso, sono due le stime che si devono fare:

- la stima della media della popolazione μ 0

- la stima della deviazione standard della popolazione σ

Se la stima della prima è data dalla media campionaria, la miglior stima della seconda è data dalla

deviazione standard del campione, chiamata s.

Condizione necessaria è che:

 la dispersione dell’universo sia ignota;

 i dati campionari si devono distribuire secondo una distribuzione normale. Occorre dunque fare

prima un test per verificare che i miei dati si distribuiscano effettivamente secondo tale

distribuzione.

Un tipico esempio in cui si sa che i dati non si distribuiscono normalmente, senza fare il test, è quando ho

una dimensione sperimentale campionaria molto ridotta.

36

Cosa bisogna fare quindi, quando almeno uno dei due campioni, gruppi, ha dati che non seguono una

distribuzione normale?

Si possono aggiungere ulteriori osservazioni, quindi allargare il campione;

Se questo non fosse possibile si può optare per una trasformazione matematica dei dati (radice quadrata,

logaritmo, reciproco, …). Questo cambia la scala delle misure e quindi il campo di variabilità dei dati, e

quindi si può avere più probabilità che i dati si distribuiscano secondo una distribuzione normale, ma non è

detto. Questa trasformazione può rendere difficile interpretare il dato medesimo, quindi si potrà adeguare

questa operazione con ulteriori passaggi matematici;

La terza opzione è l’utilizzo di test (non parametrici) che non dipendono da una distribuzione non normale.

 i dati siano osservazioni indipendenti (inteso come diversità) in uno stesso gruppo, campione, cioè

le osservazioni entro gruppo non devono essere in alcun modo associate tra loro, devono essere

diverse le une dalle altre; per esempio se devo testare un farmaco non vado a testarlo su persone

con lo stesso corredo genetico.

Come si calcola il test t quando si confronta media dell’universo e del campione. La formula è identica a

quella dello Z, ovvero c’è una differenza tra medie al numeratore e l’errore standard a denominatore.

L’unica differenza è la presenza della dispersione (deviazione standard) del campione s, e non dell’universo.

s viene infatti usata come migliore stima della dispersione dell’universo.

n-1 (pedice) sono i gradi di libertà ---> va a definire l’esatta distribuzione di t da utilizzare

 in questo contesto

X

 0

t n il numero di osservazioni

( n 1

) s μ la media della popolazione, è la media campionaria

X

0

n x è una generica i-esima osservazione

i

  2

( x x )

 i a denominatore, al posto di n c’è n-1: in questo caso utilizzo la deviazione standard del

s 

n 1 campione non come misura descrittiva della dispersione del campione, ma come miglior

stima della dispersione dell’universo

Se è richiesto di fare la dispersione di un insieme di dati bisogna calcolare la deviazione standard con n;

se è invece s è richiesta in un test come miglior stima possibile della dispersione ignota di un universo,

allora la miglior stima possibile si ottiene dividendo per n-1. 37

ESEMPIO

Si consideri un vivaio con pianticelle di tipo A, che dopo due mesi raggiungono un’altezza media di μ =25cm.

0

Nel terreno vengono versate sostanze tossiche e per verificarne l’incidenza negativa sulla crescita delle

piante ne vengono seminate 7 che dopo 2 mesi raggiungono le altezze di 22, 25, 21, 23, 24, 25, 21 cm.

Scegliere il tipo di test più adatto e dire se le sostanze tossiche influiscono sull’altezza delle piante.

Test a due code H : μ = μ H : μ ≠ μ = 0.05

0 0 1 0

gradi di libertà e media del campione n-1 = 7-1 = 6 μ = 23

Devo quindi confrontare 23 con 25, e dire se la differenza di 2 cm è dovuta al campionamento (quindi non

significativa) o se la differenza è dovuta ad un fattore importante.

 

     

calcolo s 2 2 2

( 22 23

) ( 25 23

) ...( 21 23

) 6 1

.

732

calcolo t (23-25)/(1.732/√7) = -3.055 ----------> si prende sempre il valore assoluto

 perché visto che il test è a due code

Valore critico t per = 0.05 e gradi di libertà 6 t = 2.447

0.025; 6 

guardo per = 0.025

Bisogna dunque confrontare il t calcolato con il t tabellare

Nella distribuzione normale a t=2.447 corrisponde un integrale di 0.025 sia a

destra che a sinistra della distribuzione (test a due code).

Il t calcolato è 3.055 e cade a destra di 2.447, quindi in piena area di rifiuto.

Decisione Accetto H e rifiuto H ,

1 0

quindi concludo che la differenza tra le due medie è significativa, ovvero che

l’altezza delle piante è stata influenzata dalle sostanza tossiche

Quindi i gradi di libertà permettono di distinguere l’esatta distribuzione di t tra le tante, di questa

distribuzione definisco l’area di rifiuto tramite e quindi, incrociando, determino il valore di t tabellare.

 INTERVALLO DI CONFIDENZA

Anche in questo caso, come per il test Z, è possibile definire s s

     

un intervallo di confidenza per un prescelto livello di X t X t

 

 

0

; n 1 ; n 1

. n n

2 2

significatività

38 2. CONFRONTO TRA DUE MEDIE CAMPIONARIE

Si confrontano quindi due campioni, ognuno con la propria media.

I due campioni possono essere dipendenti o indipendenti tra loro quando si fa quindi una distinzione tra

due gruppi, campioni (non entro gruppi come visto prima).

Esempio pratico

Ho raccolto le osservazio

Dettagli
Publisher
A.A. 2023-2024
83 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher TeoBio di informazioni apprese con la frequenza delle lezioni di Principi di statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Parma o del prof Manfredini Matteo.