Principi di statistica

La prima parte del corso di Principi di statistica riguarderà le basi della statistica. In particolare, si introdurrà lo studente alla statistica descrittiva (con particolare …

Esame Principi di statistica

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Manfredini Matteo

Università Università degli Studi di Parma

Publisher gmarcogualini

A.A. 2023-2024

116 pagine

Appunti esame

Vota

Scarica

Estratto del documento

TEST DI BONTA’ DELL’ADATTAMENTO

La differenza dal testi di indipendenza è lo scopo e il calcolo delle frequenze attese. Il test di

indipendenza ha lo scopo di confrontare due variabili , queste sono di tipo qualitativo categorico e

lo scopo è andare a verificare se esista o meno indipendentemenza tra queste due variabili. Cioè

se una può o meno influenzare l’altra. Nel caso del caso del test ti per campioni indipendenti c’è

solo una variabile. Il test di bontà dell’adattamento serve a verificare una ipotesi empirica di

datiche si possano adattare statisticamente alla distribuzione teorica. Quindi c’è una distribuzione

teorica , una legge, una distribuzione teorica di tipo statistico, una legge di tipo teorico a cui

interessa confrontare i dati sperimentali raccolti per verificare se si adattano a tale legge teorica.

E’ indentico al test precedente nella sua teoria di calcolo, l’unica differenza sta nel modo di

determinare le frequenze attese a cui poi vengono confrontate le frequenze raccolte. Le frequenze

attese vedevano determinate a partire dalla tabella di contingenza dove vi erano rappresentate le

3 frequenze in funzione di 2 categorie, una della variabile 1 e 1 della variabile 2 e venivano

determinate sulla base ipotetica di indipendenza tra le due variabili. In questo caso non hanno

nulla a che fare con le frequenze osservate ma vengono determinate sulla base della legge teorica

che si è scelto per confrontare i propri dati. E quindi importante capire quale legge teorica

applicare ( distribuzioni normale, bionomiale e poissoniana ma anche altre leggi come quella di

mendel).

La distribuzione di Poisson si determina sulla base della media. 4.6 è il valore di riferimento che

caratterizza la distribuzione teorica di interesse. La colonna centrale esprime le frequenze

osservate sperimentalmente. Questo significa che in 3 casi su 400 complessivi, i 5 minuti sono

arrivati 0 messaggi. In 15 casi su 100, in 5 minuti ne è arrivato solo 1 …fino ad arrivare a 13

messaggi in cinque minuti 1/400 volte. Per calcolare la formula del chi-quadrato, oltre alla

frequenza osservata interessa la frequenza attesa. Quindi l’unico aspetto da determinare è quello

relativo alle frequenze attese, da applicare in in ognuno di questi casi e per poterlo fare bisogna

utilizzare la distribuzione di poisson che sottintende la distribuzione teorica che si sta utilizzando.

Quindi i passi sono

La formula della distribuzione di Poisson è: landa è la media e x è il numero di osservazioni fino ad

arrivare a 13 volte. Lalla probabilità si tradurrà in frequenze attese e a quel punto si avranno i 2

paramentri per poter procedere al calcolo del chi-quadrato.ia

Il numero di messaggi 0 presenta media 4.6.

0 fattoriale è per definizione Questa è la probabilità che secondo la legge teorica si dovrebbe

verificare 0 volte l’oggetto di studio. Calcolando tutte le frequenze attese si ha

Per passare da 0.010 a 4 si moltiplica per 400 che è il totale delle frequenze osservate e si fa lo

stesso per tutte le altre percentuali trovate.

Alcune frequenze attese sono sotto il valore 5 quindi si ha che il primo caso è 0 e gli ultimi 4 che

sono tutti sotto le 5 frequenze attese. La confdizione del 5% si riferisce solo alle frequenze attese

quindi per porre rimedio a questo aspetto compatto le classi, quindi la 0 la unirò alla 4, e le ultime

4 le unisco tra di loro in modo da avere delle frequenze attese per ogni numero di eventi sempre

superiore a 5 intermi di frequenze attese. Quindi la prima categoria non sarà più 0 ma 0-1 e avrù

una frequenza attesa pari a 22.4 e le ultime 4 saranno 10-13 e avranno un numero pari a 8.

Corrispondentemente bisognerà sommare anche le frequenze sperimentali per poter essere

confrontate in maniera omogenea alla compattazione fatta sulle fequenze attese. Quindi la prima

categoria in termini di frequeza osservata sarà pari a 18= 3+15 e le ultime 4 saranno pari a 8.

In questo caso si va a cercare nella tabella il test una coda perché le tabelle del chi-quadrato sono

fatte in modo molto opiù semplice e leggibile e quindi si sceglie sempre il 5%. L’unica cosa che

varierà sarà la scelta dei gradi di libertà: 9 sono i gradi di libertà: 10-1.

6.99 cade a sinistra del chi-quatdato della tabella (16, 9) e quindi accetto H0. Le frequenze

osservate so uguali (o compatibili) con quelle attese perciò si può dire che i dati seguono la

distribuzione di Poisson.

ANALISI DELLA VARIANZA ( ANOVA)

Ci sono due possibilità di calcolare le frequenze attese con chi-quadrato: una deriva dal test di

indipendenza e una riguarda il dest di bontà dell’adattamento. Utilizzare uno o l’altro permette di

capire quante sono le varibili in gioco.

Il test anova è utilizzato molto in laboratorio ma anche aperto si chiama anche analisi della

varianza. Lo scopo di anova è di generalizzare lo scopo del test t. Quest’ultimo confrontava le

medie ma di due soli gruppi. Anova è stato pensato per dare una generalizzazione di questo

confrontoc cioè si procede al confronto di medie ma non limitatamente a 2 soli gruppi. Il

discrimine però sta nel fatto che più gruppi ci sono più osservazioni bisogna fare, quindi

aumentano i tempi e i costi. Quindi solitamente si scelgono 5-6 gruppi al massimo.

Quindi l’anova è la generalizzazione a più di due gruppi del test t per campioni indipendenti e

questo è un buon modo per capire perché si parla di varianza. Quindi c’è un campo di applicazione

superiore rispetto al test t. Ne esistono varie forme. La formula base più semplice si chiama “

analisi della varianza ad un solo fattore di classificazione ( one-way analysis of variance) e si tratta

di analisi di una sola variabile da cui si otterranno 3 gruppi diversi che dipendono da questo fattore

e di cui si andranno a verificare le medie utilizzate. Sul test t si prende il gruppo controllo, si d’ha a

questi un placebo e si d’ha invece al gruppo tratta il farmaco. Si va a verificare se la risposta in

termini di parametri fisiologici il farmaco vuole contrastare, si modifichi in termini medi tra gruppo

trattato e gruppo placebo. Il limite di questo esperimento riguarda il fatto che fare un confronto

tra trattato e non trattato non risponde alla domanda quale è il dosaggio giusto, e questo

potrebbe avere iplicazione sul costo di dosi da produrre ,ad esempio. Quindi è importante il

trattamento con il placebo e poi si avranno dei gruppi testati con i vari dosaggi. Se tra tra i i

dosaggi non c’è differenza nel trattamento si va sul minore dosaggio. Quindi ci vuole un

esperimento statistico idoneo a rispondere a questa domanda. I quatto gruppi tattati con dosaggi

diversi costituiranno il fattore di classificazione che si chiama dosaggio del principio attivo. Si potrà

avere dosaggio 0, basso, medio e alto. 4 gruppi che saranno funzione del dosaggio cui i

partecipanti sono stati trattati. Quindi, quante variabili ci sono in un esperimento di questo tipo? 1

,che è il livello di glicemia. Il livello per quelli non trattati,per quelli trattati. Si va poi a verificare se

le medie in termini glicemici di questi 4 gruppi differiscono o meno tra di loro. Quindi se il primo

gruppo gruppo non è diverso dal secondo, il placebo non è diverso da quello a basso dosaggio, il

gruppo a medio dosaggio è diverso da quello placebo e quello ad alto dosaggio è diverso da quello

placebo ma fra di loro non sono diversi ( medio e alto). Quindi utilizzando il principio attivo a basso

dosaggio non si produce alcun effetto sulla glicemia perché non è diverso dal gruppo placebo. Gli

altri due lo producono, quindi sono entrambi utili, entrambi raggiungono lo scopo ma si andrà sul

gruppo che prevede un dosaggio più basso. L’analisi della varianza è costituita da una variabile,

una sola misurazione che viene ripetuta per più gruppi. Di questi gruppi poi si confronteranno le

medie basate sulla misurazione effettuata. Se si rimane con due gruppi e basta si ricade nel test t.

Tabella dell’analisi della varianza:

I numeri alla sinistra sono detti repliche, cioè il numero numero di osservazioni interne ad ogni

gruppo. In questo caso ci sono 5 repliche per ogni gruppo, Se il numero di osservazioni è identico

in tutti i gruppi analizzati l’esperimento si dirà bilanciato. Viceversa se si avrà un gruppo o più

gruppi che non hanno lo stesso numero di osservazioni l’esperimento si dirà sbilanciato. In realtà

l’analisi della varianza è assolutamente robusta per prendere in considerazione gruppi sbilanciati

tra di loro.

Ogni replica quindi è identificata dalla posizione che ha dentro il gruppo e dal gruppo a cui

appartiene ( A,B e C). Di consenguenza si ottengono tante medie quanti sono i gruppi coinvolti. La

media del gruppo A, B e C. Queste medie verranno confrontate tra di loro. C’è poi un’ultima media

che sta a indicare la media generale ( complessiva) di tutte le osservazioni indipendentemente dal

gruppo al quale le osservazioni apprtengono.

H0 è sempre con la x di uguaglianza. Si parte dal concetto che le medie dei gruppi coinvolti

nell’esperimento siano uguali tra di loro. Quindi la media xa = xb = xc. La conclusione statistica è

che le differenze sono dovute al caso quindi i tre gruppi si possono considerare come tre estrazioni

casuali dal medesimo universo. L’ipotesi alternativa deve essere complementare all’ipotesi

precedente. Se le medie non sono uguali significa che almeno una è diversa dalle altre. Non si

specica quale , perché le voci H0 e H1 devono essere complementari una all’altra. L’analisi

dellavarianza si limita a dire che almeno una delle tre medie è diversa. Quindi ci sarebbe bisogno

di un ulteriore test solo per H1.

Una eventuale differenza tra le medie devere rispecchiare le caratteristiche di cui si è tenunti

conto. Se si misurano due gruppi, uno maschile e uno femminile , questi devono avere una

componenta maschile e femminile simile. Perché se così non fosse quella differenza non sarebbe

dovuta al fatto che uno sia emiliano e l’altro friulano ma al fatto che uno abbia più maschi e l’altro

più femmine.

Quindi nel test t quello che si invita a fare è che i gruppi siano compatibili per tutte la

caratteristiche ad eccezione di quella che viene messa a confronto. Nell’analisi della verianza

l’omogeneità delle osservazioni viene lasciata perdere in favore di una attenzione rispetto al

processo opposto cioè la eterogeneità delle osservazioni. L’analisi della varianza è un sistema che

cerca di analizzare le differenze delle medie dei gruppi in funz

Anteprima

Vedrai una selezione di 20 pagine su 116