Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Verifica della normalità e costruzione degli intervalli di confidenza
X Y U(X)Verifico se è normale con un Q-Q PlotYSe lo è costruisco un intervallo di confidenza con le formule della normaleSe non lo è lo costruisco usando i percentiliStimatore per intervallo 4Se non conosco la distribuzione delle e devo simulare posso fare direttamente il boostrap e poi calcolare gli intervalli diXconfidenza di YStimatore per intervallo 5Funzioni MATLABStima parametrica Funzioni di massimaverosimiglianzaFunzioni MATLAB 1non rifiuta Per poter calcolare 1-beta dobbiamodisegnare H1 che puòavere infinite soluzioni aseconda del valore di μ1.Solitamente si ipotizzaμ1=hat(μ) -> potenza aposterioriVedi "H0 e H1.pdf"alfa: abbiamo i tipicivaloribeta: generalmente sisceglie beta=4*alfasigma: abbiamo treopzioni:- la conosciao perchéabbiamo già studiatoquella popolaizone- facciamo unostudio pilota ->calcoliamo lavarianzacampionaria- stimo la varianza inmanieraspannometrica σ =range^2/4delta: sfasamentodelle
campane -> piùsono vicine più datimi servonoè detta la differenzaminima significativache vorrei dimostrarese δ > μ0 - μ1 -> avrei potuto prendere meno dati -> a posteriori ottengo una potenza migliore di quellaPraticamente o ipotizzatadimostro che non posso se δ < μ0 - μ1 -> la potenza a posteriori sarà più bassa -> commetterò un errore di tipo 2 più alto di quelloaccettare H0 prendendo che ero disposto -> sarà più facile non respingere H0 sbagliando per insufficienza di prova -> avrei dovutopiù dato o lascio stare e raccogliere più dati ma non mi interessa dato che il risultato è lo stessonon la accettocomunque -> il risultatoè lo stesso n è detto potenza apriori del test ma nonc'entra niente con beta!!Man mano che lecampane si avicinanol'area dell'errore di tipo 2aumenta Fissato alfa, all'aumentaredel sample size(n) l'errore di tipo 2 scende e la potenza sale perché è la complementare
Quando affrontiamo un problema potremmo avere a disposizione più test statistici -> si sceglie quello più potente
Se non ho nessun test applicabile, dovrò scegliere il test che risente meno della violazione delle hp
test asintotici: sfruttano delle distribuzioni asintotiche quindi che sfruttano il fatto che per n grande la distribuzione è asintotica a una certa distribuzione.
test esatti: fanno il calcolo esatto del valore
Per misurare quanto un test è più potente di un altro non si guarda beta ma il rapporto potenza-efficenza
ES: se scelto alfa, n=100 con test1 ottengo una potenza con test2 ottengo una potenza più bassa. Quanti dati in più devo prendere per eguagliare le potenze?
LINEE GUIDA:
1) categoriche, ordinali o 4) considero la statistica di rapporti?? del test quindi la formula
ES: voglio studiare la media H0: media=5 (test normalmente? se ho
piùbilaterale) definisco che gruppi, sonola statistica del test è indipendenti? sonoΣx/n appaiati? -> possoconfrontarli tutti con5) com'è distribuita la tutti o ogni soggettostatistica? ES: deve essere confrontatonell'esempio sappiamo con un altro soggettoche se n è grande è della'altra popolazione?distribuita ES: esperimenti suigaussianamente gemelli -> vengono divisinei due gruppi che hannotrattamenti diversi e poiconfronto la coppia diI punti 4 e 5 cambiano gemelliogni volta Le varianze sono ugualitra i gruppi?3) formulazione delle hp -> sceliere la statistica daconsiderare (media,varianza,... o nel caso deidati categorici lefrequenze, RR, odds,...)6) Scelgo alfa, calcolobeta7) calcolo il valore dellapopolazione vedo se cadenella regione diaccettazione/rifiuto8) prendo la decisione9) calcolo p-value
Questo è l'indice di quelloche vedremo
1) quanti gruppi
2) tipo di variabile
1 GRUPPO ES: se ho 1 gruppo e
Un'variabile intervallare se voglio calcolare la media uso il t-test.
2 GRUPPI INDIPENDENTI <!> c'è segnata l'hp di normalità se però non è soddisfatta le ipotesi ho due strade:
- Applicare lo stesso il t-test se i dati sono abbastanza robusti
- Declassare a variabile ordinale -> si ha perdita di informazione e quindi test meno potenti
2 GRUPPI APPAIATI
3 O PIÙ GRUPPI INDIPENDENTI
3 O PIÙ GRUPPI APPAIATI
Dati intervallari -> si guardano tendenza centrale (generalmente media) e variabilità (varianza).
Quasi tutti richiedono l'hp di normalità = va bene lo stesso anche se i dati non sono distribuiti proprio normalmente dato che non è nota la varianza si usa la varianza campionaria s-> th dellimite centrale.
Non abbiamo test d'ipotesi! -> si scende di categoria.
Campioni indipendenti: gli elementi del primo gruppo e gli elementi del secondo gruppo non sono messi in nessuna relazione tra di loro μ1 e μ2 sono le H0.
delledue distribuzioni= varianze uguali 2s : varianza calcolata sull'appopolazione Non sappiamo esattamente come è distribuita ma ci sono delle approssimazioni: 1) può essere approssimata a una t-Student se abbiamo 2 gruppi, uno molto numeroso e l'altro poco numeroso, alla fine i gradi di libertà sono quelli di quello poco numeroso. QUESTO VALE SEMPRE! È opportuno che i due gruppi abbiano la stessa numerosità. 2) non predeve il calcolo dei gradi di libertà in maniera approssimata ma si può calcolare arrotondando per difetto la soglia (valore critico) facendo una media pesata di t1 e t2 nei due gruppi. Non può essere violata l'ipotesi di normalità! In questo caso si deve scendere di scala la varianza del gruppo 2 rispetto al gruppo 1. t1, t2: valori di soglia di una t-Student n1, n2: gradi di libertà th limite centrale (<30) Si scende di scala Sei campioni sono appaiati devi creare un altro set di dati calcolando le differenze tra i campioni appaiati.coppie di valore <!> elementi del primo gruppo sono messo in <!> i gruppi devono avererelazione con un uguale numerosità <!> elemento del secondo gruppo. A questo punto posso applicare le formule per iIl vantaggio di usare i campioni indipendenti campioni appaiati e che per una serie di fattori le Se prima H0 era "le medie due misure appaiate sono uguali", ora diventa sono garantite avere le "la differenza tra le medie è stesse caratteristiche -> è nulla" più facile garantire il ceteris paribus. Nel caso in cui la varianza nei due gruppi non sia uguale dovrà prendere più date non la popolazione più invariabile <!> Se ha una popolazione finita o infinita senza reinserimento allora dobbiamo utilizzare le forme di correzione della varianza -> moltiplicare per il solito fattore di correzione ta e tb dipendono dai gdli quali dipendono da n. Devo decidere n, vedere se vale la relazione e nel caso correggere n e ricalcolare ta e tb. La domanda.che cichiediamo: il dato cheosserviamo può essereconsiderato un outlier?Nel t-test si confronta ildato i-esimo con ladistribuzione diriferimentocampioni indipendenti,hp di normalitàÈ distribuita come un F diRV: rapporto tra varianze Fisher con n1-1 gdl alnumeratore e n2-1 gdl aldenominatorePerché le tabelle sonofatte in modo che alnumeratore ci sia sopra lavarianza maggioreSe i dati non sonodistribuiti normalmentenon abbiamo lesoluzioni Quando abbiam tre o piùgruppi è sempre meglioutilizzare l'hp bilaterale(l'uguaglianza) perché gliunilaterali sono un casino(uno minore del primoma maggiore delsecondo, ecc)I test delle varianze sonogeneralmente usatipreliminarmente ad altritest sulle tendenzecentrale che richiedonol'omoschedasticitàPiù usati In generale, l'obiettivo è direspingere H0 ma non inquesto caso! Vogliamodimostrare l'uguaglianzaquindi vogliamo NONrespingere H0<!> nonRespingendo H0 si può commettere l'errore di tipo 2. Se si hanno pochi dati non si respinge H0 per insufficienza di prove. Fare un test sulla varianza con una volta che non abbiamo rifutato H0, è importante calcolare la potenza. A pochi dati è ridicolo! Posteriori e valutare l'entità del possibile errore di tipo 2, se è grande non si procede.
Queste due sono poco usate perché non si trovano le tabelle tra la varianza più grande e la varianza più piccola in ogni gruppo. Se il rapporto è basso, allora le varianze potrebbero essere uguali (c'è incertezza). Se così è, la statistica è distribuita come la Fmax - si usano le tabelle - varianze degli n gruppi. Non si sa come è distribuita - si usano le tabelle 2s: varianza nell'i-esimo gruppo, ν = n - 1: gdl di quella varianza, 2bar(s): varianza media nei vari gruppi pesata.
daigdlTrasforma il problema del confronto delle varianze in un problema di confronto delle tendenza centrale (media, mediana, mediatagliata)
Si calcolano gli scarti dalla tendenza centrale:
- varianze grossa - se la è gli scarti in valore assoluto sono grossi
- varianze piccola - se la è gli scarti in valore assoluto sono piccoli
- varianze - se le sono uguali gli scarti sono più o meno uguali
Quindi si sommano gli scarti (o al quadrato o in valore assoluto) a questo punto si guarda se sono più o meno uguali nei vari gruppi
I test ANOVA consentono di valutare l'uguaglianza