Ripasso delle principali variabili casuali
In questo paragrafo presentiamo un ripasso veloce delle principali variabili casuali che verranno utilizzate in tutto il corso. Naturalmente iniziamo dalla variabile casuale normale o gaussiana. Questa è una variabile che soddisfa l'equazione:
Tale funzione risulta simmetrica rispetto all'asse x = μ, punto che è anche massimo di essa; μ è detto parametro di posizione, b di scala: al variare del primo varia il centro della curva, al variare del secondo aumenta la dispersione o variabilità della curva. Per essa vale E(x)=μ e var(x)=σ2. La trasformazione z=(x − μ)/σ coincide con la standardizzazione e pertanto la variabile casuale che si ottiene con μ = 0 e σ = 1 è la variabile normale standardizzata, che indichiamo con N(0, 1). Si abbia ora una combinazione lineare di variabili casuali normali indipendenti: una variabile così formata risulta distribuita secondo una normale con valore atteso e varianza:
E(Y) = a1μ1 + ... + anμn; var(Y) = a12σ12 + ... + an2σn2
dove ai è il coefficiente dell'i-esimo addendo che forma la variabile Y.
La variabile lognormale
Accenniamo ad una variabile detta lognormale, definita come: log(X) = N(μ, σ2). Tale variabile è molto utile nel caso in cui Y sia una variabile continua esprimibile tramite variabili continue che si cumulano moltiplicativamente, infatti, tramite la trasformazione logaritmica, si ottiene:
log(Y) = log(X1) + log(X2) + ... + log(Xn)
Sapendo che la variabile lognormale si distribuisce come una N(μ, σ2), E(Y) e var(Y) risultano essere:
E(Y) = eμ+σ2/2; var(Y) = eμ+σ2(eσ2 - 1)
Variabile casuale chi-quadrato
Si chiama variabile casuale chi-quadrato la variabile casuale formata dalla somma di variabili normali standardizzate indipendenti elevate al quadrato:
χ2 = Z12 + Z22 + ... + Zv2
Il numero delle Z (v), unico parametro che caratterizza la variabile, prende il nome di gradi di libertà. Si ha:
E(χ2v) = v; var(χ2v) = 2v
Questa variabile gode dell'additività; in particolare, sommando chi-quadrato indipendenti si ottiene una chi-quadrato avente gradi di libertà pari alla somma dei gradi degli addendi.
Variabile casuale t-Student
Un'altra variabile importante è la variabile casuale t-Student, definita come il rapporto tra due variabili casuali indipendenti, rispettivamente una normale standardizzata a numeratore e la radice di una chi-quadrato divisa per i propri gradi di libertà a denominatore. Cioè:
t = Z / χ2v
La distribuzione della t-Student è simmetrica intorno a t = 0. Per v abbastanza grande la t tende alla N(0, 1).
Variabile casuale F-Fisher
Viene chiamata variabile casuale F-Fisher il rapporto tra due chi-quadrato indipendenti, ciascuna divisa per i propri gradi di libertà.
Variabile normale multivariata
La formula generale di una variabile casuale normale multivariata risulta:
f(x) = (2π)-n/2|Σ|-1/2 exp-(1/2)(x - μ)TΣ-1(x - μ)
avendo E(X)=μ e var(X)=Σ, dove μ e Σ sono rispettivamente il vettore delle medie delle singole normali e la matrice di covarianza (che avrà le singole varianze nella diagonale principale). Si vede che l’argomento dell’esponenziale è una chi-quadrato con gradi pari a n. Solo per la normale multivariata vale che l’indipendenza in senso debole implica quella in senso forte.
Statistica inferenziale
La statistica inferenziale è una metodologia che, a partire da dati sperimentali (campioni), consente di stimare alcune quantità incognite della popolazione o di un processo che ha generato quel campione. Per il fatto che il campione è considerato come un insieme di estrazioni indipendenti dalla stessa popolazione, possiamo trattarlo come le realizzazioni {x1, x2,...,xn} di una stessa variabile casuale X. Definiamo statistica una quantità sintetica dei dati campionari. Definiamo stimatore una procedura che, sulla base di una statistica, produce una stima. La stima è dunque il risultato di un certo algoritmo applicato ad uno specifico campione. Uno stimatore è una variabile casuale che ha una distribuzione di probabilità che fa riferimento ad una “popolazione di campioni” e per questo è detta distribuzione campionaria. Uno stimatore T che stima un certo parametro θ si dice corretto se e solo se E(T) = θ. Altrimenti lo stimatore si dice distorto, con distorsione Bias(T) = E(T) − θ. Si badi bene al fatto che la correttezza di uno stimatore non garantisce affatto che la sua singola realizzazione sia proprio θ. Possiamo fissare un intervallo intorno a θ, e stabilire quale sia la probabilità che la stima cada all’interno dello stesso:
P(θ − α < T < θ + α) = 1 − β
Naturalmente preferiremo uno stimatore di θ che abbia elevata probabilità di produrre stime che cadano all’interno dell’intervallo: a parità di probabilità, si definisce precisione l’inverso della larghezza di questo intervallo. Tuttavia uno stimatore più preciso rispetto ad un altro ad un certo livello di probabilità potrebbe esserlo meno rispetto ad un altro livello. Serve dunque un indice sintetico di variabilità. A tale scopo usiamo var(T). Si consideri una successione {T1, T2,..., Tn} di stimatori di campioni della stessa X, ma con dimensione campionaria crescente. Se questa successione converge in probabilità a θ allora lo stimatore si dirà consistente. In altre parole ci si deve accertare che, per ξ > 0 comunque piccolo:
limn→∞ P(|Tn − θ| > ξ) = 0
Come si è capito, la prospettiva statistica è speculare rispetto a quella probabilistica: il campione è già stato estratto mentre uno o più elementi della funzione di probabilità sono incogniti. Se allora scriviamo una funzione di probabilità con tali accorgimenti otteniamo una funzione non più probabilistica, ma dipendente dai parametri della stessa, che chiamiamo funzione di verosimiglianza L. È logico pensare che, visto che ci si attende di estrarre campioni che hanno un valore di f elevato, si ritengono più verosimili valori dei parametri incogniti che rendano la verosimiglianza più elevata. Per questo motivo è spontaneo determinare la stima dei parametri incogniti come quelli che massimizzano la funzione di verosimiglianza. Essendo L una quantità sempre positiva, è possibile effettuare la trasformazione logaritmica; se un punto sarà massimo della log(L) (detta logverosimiglianza) lo sarà anche della verosimiglianza stessa. Una statistica si dice sufficiente se l’informazione contenuta nel campione è tutta contenuta nella statistica stessa; ossia, una volta che dai dati campionari abbiamo calcolato la statistica, questi non servono più per quanto riguarda la stima puntuale del parametro cercato. La varianza di uno stimatore è un valore che può dare un’idea dell’ambito entro il quale un dato parametro può considerarsi ragionevolmente compreso. Tuttavia questo scopo può essere meglio formalizzato attraverso gli intervalli di confidenza, che costituiscono una stima intervallare del parametro. Date due funzioni campionarie e tali che:
P(X1(θ) < θ < X2(θ)) = 1 − α
si dice intervallo di confidenza l’intervallo tale che:
È chiaro che la quantità a secondo membro è una probabilità solo finché gli estremi sono variabili casuali. Quando si è in presenza di un dato intervallo riferito al campione estratto, gli estremi non sono più variabili casuali e allora tale quantità prende il nome di grado di fiducia. La probabilità che una generica stima cada all’interno dell’intervallo probabilistico può essere fissata da noi dimensionando opportunamente la lunghezza dell’intervallo. È necessario dunque contemperare le esigenze di un grado di fiducia elevato, con una “precisione” della stima intervallare, definita come l’inverso della lunghezza dell’intervallo.
Quando analizzeremo gli esperimenti nei capitoli successivi faremo riferimento ad un campione illimitato (non infinito), distribuito secondo una distribuzione di probabilità (solitamente normale). Le nostre osservazioni dovranno essere dei campioni, che diremo casuali se le osservazioni sono prese a caso. Nei nostri campioni avremo due fonti di aleatorietà: la prima viene dal fatto che la singola osservazione può essere più grande o più piccola rispetto a quella che si avrebbe senza variabilità, la seconda riguarda l’estrazione random delle osservazioni (se non è garantito il modello di randomizzazione non potremo applicare le varie tecniche che vedremo). L’obiettivo è estrarre il numero massimo di informazioni dal numero minimo di prove. In statistica inferenziale distinguiamo la distribuzione della popolazione dalla distribuzione campionaria. Come detto, per stimare un parametro della popolazione estraiamo un campione da quest’ultima e ne facciamo ad esempio la media aritmetica; se noi potessimo ripetere il campione, ovvero il campione diventa osservazione, e potessimo ottenere tutte le medie che si possono ottenere da questa procedura, otterremmo la distribuzione di campionamento delle medie campionarie, che risulta una normale. Mentre la variabilità della popolazione nasce da cause sconosciute che rendono il fenomeno variabile, la variabilità della distribuzione di campionamento è dovuta anche alla variabilità di campionamento. Pertanto si ha che i valori attesi delle due distribuzioni coincidono, mentre la varianza del campionamento sarà pari a σ2/n, con n numero di osservazioni per ciascun campione indipendente; ciò significa che più grande è il campione, più riduciamo la variabilità della stima. Infatti, per ottenere intervalli di confidenza più stretti e con alte probabilità di includere in essi il vero valore da stimare, dobbiamo aumentare la dimensione campionaria, ma tutto ciò ha costi associati. In particolare, la lunghezza dell’intervallo è proporzionale alla radice della varianza della distribuzione campionaria.
Verifica d’ipotesi
Prima di richiamare l’analisi della varianza facciamo un breve ripasso necessario. La verifica d’ipotesi consiste nel formulare un’ipotesi e controllare, utilizzando un campione, se quest’ultimo smentisce l’ipotesi o meno. Questa metodologia si basa sui seguenti elementi:
- Un’ipotesi di base H0 (per sottolineare il fatto che è l’ipotesi che conduce ad una non azione)
- Un’ipotesi alternativa H1, che rappresenta lo stato alternativo e che può essere puntuale o un insieme
- Un test statistico basato sui dati campionari sulla base del quale prendiamo la decisione
- Una regione entro cui il risultato del test può trovarsi, divisa in regione di accettazione o di rifiuto, tale che se il test cade nella prima si accetta (o non si rifiuta) H0, altrimenti si rifiuta
Chiameremo α la probabilità che l’ipotesi di base sia vera ma il test cade nella regione di rifiuto, mentre chiameremo β il caso in cui l’ipotesi di base è falsa ma il test cade nella regione di accettazione. Per determinare questi due rischi si dovrà ipotizzare la funzione di distribuzione del test statistico quando H0 è vera e quando è falsa. Se H0 è vera avremo probabilità 1−α di agire correttamente, se invece è falsa avremo probabilità 1−β. Per trovare la statistica utilizziamo un metodo generale che, per fissata dimensione campionaria e a parità di rischio di prima specie, assicuri la possibilità di determinare test e relative regioni di rifiuto che minimizzano il rischio di seconda specie. Sia H0: θ = θ0 e H1: θ = θ1:
λ = L(x | θ0) / L(x | θ1)
Più λ è piccolo più la verosimiglianza dell’ipotesi alternativa sovrasta quella di base, viceversa non vi sono ragioni per rifiutare quest’ultima. Secondo il lemma di Neyman-Pearson, per massimizzare la potenza del test (1 − β), la regione che identifica l’errore α deve accumularsi nelle code. Vediamo ora come si applica la verifica d’ipotesi per il confronto tra due campioni.
Confronto tra due campioni
Iniziamo dal caso in cui si vogliano confrontare due medie e le due varianze siano note. Ammettendo che le due osservazioni sono i.i.d. N (i due campioni sono indipendenti non solo al loro interno, ma anche uno rispetto all’altro), non è necessario che le due dimensioni campionarie siano uguali, ma tuttavia ciò risulta opportuno in quanto i test che ne derivano risultano più potenti. Vogliamo dunque saggiare l’ipotesi: H0: μA = μB, H1: μA ≠ μB. In questo caso non siamo interessati ai valori delle medie, anzi questi sono parametri di disturbo; il parametro di interesse è invece Δ= μA − μB e dunque l’ipotesi di base potrà scriversi Δ=0. Nell’ipotesi di varianze note, dal rapporto tra le verosimiglianze, si perviene al fatto che la regione di rifiuto è data da (mA − mB)2/(σA2/nA + σB2/nB) ≠ 0; ciò è logico: più le medie dei due campioni sono differenti tra loro, più inverosimile risulta l’ipotesi di base.
La distribuzione sotto H0 della statistica test (mA − mB) è la differenza tra due normali, cioè una normale con valore atteso la differenza dei valori attesi e varianza la somma delle σ2:
z = (mA − mB) / sqrt(σA2/nA + σB2/nB)
Nel caso in cui le varianze non siano note ma sappiamo che sono uguali, tale distribuzione sarà:
t = (mA − mB) / (s * sqrt(1/nA + 1/nB))
dove:
s2 = ((nA−1)sA2 + (nB−1)sB2) / (nA+nB−2)
e il denominatore è i gradi di libertà della t.
Studio della dipendenza statistica
Vediamo lo studio della dipendenza statistica, ossia della metodologia inferenziale applicata alla verifica dell’ipotesi che tra una variabile osservata ed un’altra vi sia una forma di dipendenza statistica. Naturalmente il test potrà sottoporre a verifica l’ipotesi di indipendenza, contro un’alternativa spesso composta. Vogliamo verificare se si può ammettere che k trattamenti alternativi abbiano tutti lo stesso effetto, a meno di fluttuazioni accidentali, misurato secondo una variabile di risposta quantitativa, oppure uno o più di essi diano dei risultati la cui diversità non può essere attribuita al caso. Quindi la variabile qualitativa di ingresso è il tipo di trattamento. Il problema formalmente può porsi come una generalizzazione del confronto tra medie di osservazioni indipendenti, provenienti da popolazioni normali con stessa σ2. L’ipotesi è:
H0: μ1 = μ2 = ... = μk
L’alternativa è composta e prevede che uno o più di tali valori attesi sia diverso. Ricaviamo il test basato sul rapporto tra le massime verosimiglianze:
F = (mj−m)2/((k−1) * (n−k))
In conclusione, sotto l’ipotesi di base, la F è una F-Fisher con k−1 e n−k gradi di libertà, e pertanto si individua la regione di rifiuto come quella che stacca a destra di F un’area pari ad α. Allo scopo di rendere tutto più chiaro si consideri la tabella, detta tabella ANOVA (ANalysis Of VAriance).
| Fonte di variabilità | Somme dei quadrati (SS) | Gradi di libertà (gdl) | Medie dei quadrati (MS) |
|---|---|---|---|
| Esterna (Trattamento) | Σ(mj − m)2nj | k−1 | E(MS)j |
| Interna (Errore) | Σ(xij − mj)2 | n−k | E(MS)e |
| Totale | Σ(xij − m)2 | n−1 |
Come si vede, per giudicare se più medie sono lontane tra loro in modo significativo, occorre scomporre il numeratore della varianza, che chiamiamo Totale, in due quantità additive, che chiamiamo Esterna (dovuta alla variabilità tra le medie dei campioni e quindi da attribuire al trattamento) ed Interna (dovuta alla variabilità interna del campione e quindi da attribuire al caso). Dunque per capire se la prima variabilità è grande o piccola, bisogna raffrontarla con la seconda. Osserviamo che la F è costituita da un numeratore che rappresenta la variabilità delle medie campionarie (esterna): se tali
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.