Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
La distribuzione chi-quadrato
Zfacciamo il quadrato (quindi il loro dominio passa da R a R+), ne sommiano ν → viene fuori una(ES: chi2 con 5 gradi di libertà può essere pensata come la somma di 5 zeta2 ovvero ilχ2quadrato di 5 variabili gaussiane standardizzate con media nulla e vairanza pari a 1).−ν2 −x/22= ν/2−1 con ν = 1,2,...f(x) x eΓ(ν/2)Media e varianza=E[x] ν= 2νVar[x] = − 2 ν≥2 o per ν=1Moda νSe il parametro gradi di libertà diventa grande, la chi2 tende ad essere una gaussiana perchévale il teorema del limite centrale.La chi2 è molto utilizzata ma non ha una forma analitica per la F quindi ci sono le tabelle, infunzione della F quindi in funzione di x e in funzione dei gradi di libertà. Ma per valori grandinon trovo più determinati valori, quindi utilizzo le tabelle della gaussiana normalizzata.Devo approssimarla con la Z (standardizzata) o una diversa (quindi con media e varianzanon standard)?
La trasformazione serve, se è una trasformazione non lineare, per cambiare la forma (quella lineare serve per spostarla quindi stringerla o allargarla) ma noi non vogliamo cambiare la forma perché abbiamo già detto che possiamo approssimare la chi2 con una distribuzione normale quindi la forma è già quella, sto solo chiedendo qual è la normale che approssima la chi2. Dobbiamo scegliere la gaussiana che ha media e varianza pari a quella che dobbiamo approssimare (come per la binomiale). Quanto è la media e la varianza di una chi2? I gradi di libertà e 2 volte i gradi di libertà, devo approssimarla quindi con la gaussiana che ha: valore atteso μ = ν varianza σ^2 = 2ν Se poi voglio fare i conti e usare la tabella per trovare la F (es. qual è la probabilità che probabilità ≤ 34) allora si che devo guardare la normale standard, devostandardizzare eprenderò 34 - voglio trovare x ≤ 34 - e gli sottraggo la media che vale per esempio 52, dividoper la deviazione standard che vale radice di 104 → viene fuori un numero e quello sarà ilnumero della Z (vado a controllare le tabelle) → 34 - 52 viene negativo, non lo trovo sullatabella (se ho solamente quella di destra con i positivi) ma posso cambiare il segno, prendo ilvalore che trovo → 1-valore e trovo la coda.
Passaggi:
- approssimarla con la gaussiana giusta;
- avendo la gaussiana giusta, per usare la tabella, devo usare quella standardizzata;
- Tipicamente, per evitare di sbagliare a fare i conti o standardizzare, a volte sulla tabella dellachi2 si può trovare una riga con scritto infinito → ciò vuol dire che è asintotico, ovvero quandoi gradi di libertà sono grandi, quel conto è già fatto.
La distribuzione χ2 parte da ν uguale a 1 e al suo aumentare assume forme sempre diverse,fino ad una
forma approssimativamente normale per ν = 30. In realtà si possono fare delle trasformazioni della chi2 in modo che la sua forma sia normale per gradi di libertà più piccoli di 30, lo faccio facendo una trasformazione (correzione) tramite questa formula: 2= 2χ − 2ν−1Z, grazie alla quale posso avere una migliore approssimazione. Grafico in slide: noto come varia il chi2 al variare dei gradi di libertà, per alcuni valori è tutta asinitra e man mano si sposta verso il centro diventando una campana. Altre proprietà: - Con ν molto grande (oltre 200) è possibile dimostrare che si ottiene una nuova variabile casuale (Z), normalmente distribuita, con media μ = 0 e deviazione standard σ = 1. - Il quadrato di una v.c. normale con media diversa da zero è una chi2 non centrale. - La v.c. chi2 gode della proprietà additiva: se due o più chi2, ognuno con i propri gradi di libertà, sono indipendenti, dallaloro somma si ottiene un nuovo chi2 con gradi di libertàuguale alla somma dei gradi di libertà (valeva per la gamma!).La v.c. chi2 nell’inferenza può esere usata per confrontare frequenze attese con quelleosservate.
4. Statistica matematica: distribuzioni di probabilità 371022Anche la varianza campionaria di n campioni ha una distribuzione chi2.s2 2 2(n − 1)S /σ ∼In particolare χ(n−1)Distribuzione t studentE’ una distribuzione importantissima, è come una normale, quindi su tutto R, che dipende da unparametro che sono i gradi di libertà e che può essere vista legata alla distribuzione Z e chi2.22 Z=In particolare la t-student può essere derivata tramite la relazione: dove i gradi dit 2(χ /ν)libertà ν corrispondono a N-1, con N uguale al numero totale di dati.Ha una forma di campana come la gaussiana, dipende dal parametro gradi di libertà, per ν cheva a infinito tende
A diventare gaussiana standardizzata (prima è un po' più grassa e panciuta). Tipicamente è centrata intorno a 0, in realtà ci sono delle varianti di t-student che non sono centrate in zero ma a quel punto non dipendono soltanto dal parametro gradi di libertà.
Media e varianza: per ν > 1 E[x] = μ ν, per ν > 2 Var[x] = 2(ν-2)σ. Moda[x] = μ.
La curva corrispondente è simmetrica, leggermente più bassa della normale e con frequenze maggiori agli estremi quando il numero di gdl (ν) è molto piccolo.
Distribuzioni F (Fisher o Snedecor): La distribuzione di Fisher F è una distribuzione che dipende da due parametri A e B, chiamati gradi di libertà del numeratore e del denominatore perché può essere vista come il rapporto di due chi2 - normalizzate con i rispettivi gradi di libertà -. Quindi è come se avessimo al numeratore un chi2 con a gradi di libertà, e al
denominatore un altro chi2 con bgradi di libertà → è un rapporto tra due chi2 e dipende da due parametri.
(A/a)= definito tra 0 e +∞.x (B /b)Proprio perché è definita come un rapporto, è facile capire che se x è distribuita come una F di1Fisher → sarà distribuita come una F di Fisher, ciò che cambia sono i due parametri perchéxsi scambiano (si scambia numeratore con denominatore).
Anche qui non abbiamo direttamente la F grande della F di Fisher, utilizzo delle tavolestatistiche.
Per questioni di compattezza, le tavole di solito riportano la F in cui sono tabulate per valori di F> 1, in cui sostanzialmente al numeratore c’è il numero più grosso. Questo non è limitativo,perché se abbiamo x < 1, ci basta fare 1/x e girare i gradi di libertà così otteniamo i valori che ciinteressano (un po’ come avevamo visto per la gaussiana simmetrica in cui
c'era solo ipositivi ma potevo trovare anche i negativi). Tutte queste cose hanno senso soltanto se uso le tavole, in strumenti come MATLAB è più semplice perché ho delle funzioni senza dover fare dei conti. 4. Statistica matematica: distribuzioni di probabilità 38103 2 2/χ La F è legata alla t-student perché quest'ultima era legata a , ma lo Z^2 è un χ^2 con 1 grado di libertà, visto che la F è un rapporto fra due χ^2 quindi basta prendere al numeratore una χ^2 con 1 grado di libertà e vedere che si trova la χ^2. È importante sapere le relazioni fra distribuzioni perché nei test di ipotesi, in alcuni casi, è meglio vedere quella situazione in un modo piuttosto che nell'altro. La F tende alla gamma quando al denominatore abbiamo infiniti (tanti) gradi di libertà. La F tende alla normale quando sia il numeratore che il denominatore hanno infiniti gradi.dilibertà.Media e varianzab= per b > 2E[x] b−2Ma quale distribuzione?Come faccio a sapere quale distribuzione scegliere di volta in volta?Ci sono due approcci:1. Io so qual è il processo che ha generato i dati (so che ho lanciato una moneta, so che holanciato un dato, so che ci sono degli eventi di Poisson, so che sto pescando da un mazzodi carte, so che si sommano/moltiplicano tante sorgenti di rumore diverse ecc.) → aseconda del processo con cui sono stati generati i dati, posso scegliere tenendo contodelle caratteristiche di volta in volta abbiamo visto.2. Ci sono delle volte in cui non è facile fare delle ipotesi sul processo che ha generato i dati,in altri termini non so come scegliere. Quindi agisco empiricamente ovvero guardo comesono distribuiti i dati.Posso per esempio fare un istogramma, vedere se è simmetrico (gaussiana, t-studentecc.) o asimmetrico (log-normale, chi2 ecc.).Possiamo cercare di fare qualche trasformazione outilizzando i QQ-plot. I QQ-plot sono dei grafici di probabilità (quantile-quantile plot) che rappresentano i punti, quindi i dati, in un piano. Sull'asse delle ascisse si hanno i valori della variabile, mentre sull'asse delle ordinate si hanno i valori della posizione dell'insieme ordinato. Per esempio, se si vuole verificare se i dati seguono una distribuzione gaussiana, si possono utilizzare i QQ-plot. Per fare ciò, si prendono i dati, si ordina l'insieme e si calcola la posizione del dato i-esimo. Questa posizione viene poi rappresentata nel grafico come un numero compreso tra 0 e 1, che corrisponde al quantile (o percentile) del dato. In questo modo, i QQ-plot ci permettono di ipotizzare la distribuzione dei dati in modo più accurato rispetto ai parametri di simmetria ecc.dell'asse (noto che non sono equispaziati ma c'è una trasformazione lineare dell'asse) tale per cui la cumulata (va tra 0 e 1) di quella distribuzione diventa una retta.
Quindi, preso uno di questi plot, per esempio quello della normale si chiama norm-plot, se i punti si posizionano lungo una retta allora vuol dire che hanno quella distribuzione per cui abbiamo costruito il plot, se invece i punti non si distribuiscono come una retta (grafico di SX) allora evidentemente così non è.
Allora uno fa diversi plot, a seconda delle distribuzioni, e a quel punto vede in quale situazione sono più disposti come una retta.
Questo è un metodo qualitativo, perché è grafico, ma abbastanza potente. Nell'