TEST DI BONTA’ DELL’ADATTAMENTO
La differenza dal testi di indipendenza è lo scopo e il calcolo delle frequenze attese. Il test di
indipendenza ha lo scopo di confrontare due variabili , queste sono di tipo qualitativo categorico e
lo scopo è andare a verificare se esista o meno indipendentemenza tra queste due variabili. Cioè
se una può o meno influenzare l’altra. Nel caso del caso del test ti per campioni indipendenti c’è
solo una variabile. Il test di bontà dell’adattamento serve a verificare una ipotesi empirica di
datiche si possano adattare statisticamente alla distribuzione teorica. Quindi c’è una distribuzione
teorica , una legge, una distribuzione teorica di tipo statistico, una legge di tipo teorico a cui
interessa confrontare i dati sperimentali raccolti per verificare se si adattano a tale legge teorica.
E’ indentico al test precedente nella sua teoria di calcolo, l’unica differenza sta nel modo di
determinare le frequenze attese a cui poi vengono confrontate le frequenze raccolte. Le frequenze
attese vedevano determinate a partire dalla tabella di contingenza dove vi erano rappresentate le
3 frequenze in funzione di 2 categorie, una della variabile 1 e 1 della variabile 2 e venivano
determinate sulla base ipotetica di indipendenza tra le due variabili. In questo caso non hanno
nulla a che fare con le frequenze osservate ma vengono determinate sulla base della legge teorica
che si è scelto per confrontare i propri dati. E quindi importante capire quale legge teorica
applicare ( distribuzioni normale, bionomiale e poissoniana ma anche altre leggi come quella di
mendel).
La distribuzione di Poisson si determina sulla base della media. 4.6 è il valore di riferimento che
caratterizza la distribuzione teorica di interesse. La colonna centrale esprime le frequenze
osservate sperimentalmente. Questo significa che in 3 casi su 400 complessivi, i 5 minuti sono
arrivati 0 messaggi. In 15 casi su 100, in 5 minuti ne è arrivato solo 1 …fino ad arrivare a 13
messaggi in cinque minuti 1/400 volte. Per calcolare la formula del chi-quadrato, oltre alla
frequenza osservata interessa la frequenza attesa. Quindi l’unico aspetto da determinare è quello
relativo alle frequenze attese, da applicare in in ognuno di questi casi e per poterlo fare bisogna
utilizzare la distribuzione di poisson che sottintende la distribuzione teorica che si sta utilizzando.
Quindi i passi sono
La formula della distribuzione di Poisson è: landa è la media e x è il numero di osservazioni fino ad
arrivare a 13 volte. Lalla probabilità si tradurrà in frequenze attese e a quel punto si avranno i 2
paramentri per poter procedere al calcolo del chi-quadrato.ia
Il numero di messaggi 0 presenta media 4.6.
.
0 fattoriale è per definizione Questa è la probabilità che secondo la legge teorica si dovrebbe
verificare 0 volte l’oggetto di studio. Calcolando tutte le frequenze attese si ha
Per passare da 0.010 a 4 si moltiplica per 400 che è il totale delle frequenze osservate e si fa lo
stesso per tutte le altre percentuali trovate.
Alcune frequenze attese sono sotto il valore 5 quindi si ha che il primo caso è 0 e gli ultimi 4 che
sono tutti sotto le 5 frequenze attese. La confdizione del 5% si riferisce solo alle frequenze attese
quindi per porre rimedio a questo aspetto compatto le classi, quindi la 0 la unirò alla 4, e le ultime
4 le unisco tra di loro in modo da avere delle frequenze attese per ogni numero di eventi sempre
superiore a 5 intermi di frequenze attese. Quindi la prima categoria non sarà più 0 ma 0-1 e avrù
una frequenza attesa pari a 22.4 e le ultime 4 saranno 10-13 e avranno un numero pari a 8.
Corrispondentemente bisognerà sommare anche le frequenze sperimentali per poter essere
confrontate in maniera omogenea alla compattazione fatta sulle fequenze attese. Quindi la prima
categoria in termini di frequeza osservata sarà pari a 18= 3+15 e le ultime 4 saranno pari a 8.
In questo caso si va a cercare nella tabella il test una coda perché le tabelle del chi-quadrato sono
fatte in modo molto opiù semplice e leggibile e quindi si sceglie sempre il 5%. L’unica cosa che
varierà sarà la scelta dei gradi di libertà: 9 sono i gradi di libertà: 10-1.
6.99 cade a sinistra del chi-quatdato della tabella (16, 9) e quindi accetto H0. Le frequenze
osservate so uguali (o compatibili) con quelle attese perciò si può dire che i dati seguono la
distribuzione di Poisson.
ANALISI DELLA VARIANZA ( ANOVA)
Ci sono due possibilità di calcolare le frequenze attese con chi-quadrato: una deriva dal test di
indipendenza e una riguarda il dest di bontà dell’adattamento. Utilizzare uno o l’altro permette di
capire quante sono le varibili in gioco.
Il test anova è utilizzato molto in laboratorio ma anche aperto si chiama anche analisi della
varianza. Lo scopo di anova è di generalizzare lo scopo del test t. Quest’ultimo confrontava le
medie ma di due soli gruppi. Anova è stato pensato per dare una generalizzazione di questo
confrontoc cioè si procede al confronto di medie ma non limitatamente a 2 soli gruppi. Il
discrimine però sta nel fatto che più gruppi ci sono più osservazioni bisogna fare, quindi
aumentano i tempi e i costi. Quindi solitamente si scelgono 5-6 gruppi al massimo.
Quindi l’anova è la generalizzazione a più di due gruppi del test t per campioni indipendenti e
questo è un buon modo per capire perché si parla di varianza. Quindi c’è un campo di applicazione
superiore rispetto al test t. Ne esistono varie forme. La formula base più semplice si chiama “
analisi della varianza ad un solo fattore di classificazione ( one-way analysis of variance) e si tratta
di analisi di una sola variabile da cui si otterranno 3 gruppi diversi che dipendono da questo fattore
e di cui si andranno a verificare le medie utilizzate. Sul test t si prende il gruppo controllo, si d’ha a
questi un placebo e si d’ha invece al gruppo tratta il farmaco. Si va a verificare se la risposta in
termini di parametri fisiologici il farmaco vuole contrastare, si modifichi in termini medi tra gruppo
trattato e gruppo placebo. Il limite di questo esperimento riguarda il fatto che fare un confronto
tra trattato e non trattato non risponde alla domanda quale è il dosaggio giusto, e questo
potrebbe avere iplicazione sul costo di dosi da produrre ,ad esempio. Quindi è importante il
trattamento con il placebo e poi si avranno dei gruppi testati con i vari dosaggi. Se tra tra i i
dosaggi non c’è differenza nel trattamento si va sul minore dosaggio. Quindi ci vuole un
esperimento statistico idoneo a rispondere a questa domanda. I quatto gruppi tattati con dosaggi
diversi costituiranno il fattore di classificazione che si chiama dosaggio del principio attivo. Si potrà
avere dosaggio 0, basso, medio e alto. 4 gruppi che saranno funzione del dosaggio cui i
partecipanti sono stati trattati. Quindi, quante variabili ci sono in un esperimento di questo tipo? 1
,che è il livello di glicemia. Il livello per quelli non trattati,per quelli trattati. Si va poi a verificare se
le medie in termini glicemici di questi 4 gruppi differiscono o meno tra di loro. Quindi se il primo
gruppo gruppo non è diverso dal secondo, il placebo non è diverso da quello a basso dosaggio, il
gruppo a medio dosaggio è diverso da quello placebo e quello ad alto dosaggio è diverso da quello
placebo ma fra di loro non sono diversi ( medio e alto). Quindi utilizzando il principio attivo a basso
dosaggio non si produce alcun effetto sulla glicemia perché non è diverso dal gruppo placebo. Gli
altri due lo producono, quindi sono entrambi utili, entrambi raggiungono lo scopo ma si andrà sul
gruppo che prevede un dosaggio più basso. L’analisi della varianza è costituita da una variabile,
una sola misurazione che viene ripetuta per più gruppi. Di questi gruppi poi si confronteranno le
medie basate sulla misurazione effettuata. Se si rimane con due gruppi e basta si ricade nel test t.
Tabella dell’analisi della varianza:
I numeri alla sinistra sono detti repliche, cioè il numero numero di osservazioni interne ad ogni
gruppo. In questo caso ci sono 5 repliche per ogni gruppo, Se il numero di osservazioni è identico
in tutti i gruppi analizzati l’esperimento si dirà bilanciato. Viceversa se si avrà un gruppo o più
gruppi che non hanno lo stesso numero di osservazioni l’esperimento si dirà sbilanciato. In realtà
l’analisi della varianza è assolutamente robusta per prendere in considerazione gruppi sbilanciati
tra di loro.
Ogni replica quindi è identificata dalla posizione che ha dentro il gruppo e dal gruppo a cui
appartiene ( A,B e C). Di consenguenza si ottengono tante medie quanti sono i gruppi coinvolti. La
media del gruppo A, B e C. Queste medie verranno confrontate tra di loro. C’è poi un’ultima media
che sta a indicare la media generale ( complessiva) di tutte le osservazioni indipendentemente dal
gruppo al quale le osservazioni apprtengono.
H0 è sempre con la x di uguaglianza. Si parte dal concetto che le medie dei gruppi coinvolti
nell’esperimento siano uguali tra di loro. Quindi la media xa = xb = xc. La conclusione statistica è
che le differenze sono dovute al caso quindi i tre gruppi si possono considerare come tre estrazioni
casuali dal medesimo universo. L’ipotesi alternativa deve essere complementare all’ipotesi
precedente. Se le medie non sono uguali significa che almeno una è diversa dalle altre. Non si
specica quale , perché le voci H0 e H1 devono essere complementari una all’altra. L’analisi
dellavarianza si limita a dire che almeno una delle tre medie è diversa. Quindi ci sarebbe bisogno
di un ulteriore test solo per H1.
Una eventuale differenza tra le medie devere rispecchiare le caratteristiche di cui si è tenunti
conto. Se si misurano due gruppi, uno maschile e uno femminile , questi devono avere una
componenta maschile e femminile simile. Perché se così non fosse quella differenza non sarebbe
dovuta al fatto che uno sia emiliano e l’altro friulano ma al fatto che uno abbia più maschi e l’altro
più femmine.
Quindi nel test t quello che si invita a fare è che i gruppi siano compatibili per tutte la
caratteristiche ad eccezione di quella che viene messa a confronto. Nell’analisi della verianza
l’omogeneità delle osservazioni viene lasciata perdere in favore di una attenzione rispetto al
processo opposto cioè la eterogeneità delle osservazioni. L’analisi della varianza è un sistema che
cerca di analizzare le differenze delle medie dei gruppi in funz
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Appunti di Principi di statistica
-
Principi, Macroeconomia
-
Ecologia - Principi
-
Principi costituzionali