vuoi
o PayPal
tutte le volte che vuoi
VARIABILI CASUALI CONNESSE ALLA NORMALE
Lognormale:ho X t.c. lnX=Y=v.c. Normale, usata per fenomeni con solo valori positivi, asimmetrici con coda a dx, serve x togliere asimmetria e
ricondurmi a una Normale tendenzialmente simmetrica.
2
Chi-quadrato(X~χ (g)): g=gradi di libertà, più g è grande più la distribuzione tende alla Normale.
Fisher(X~F(g ,g )):g =grado di libertà del numeratore, g =del denom; faccio 2 v.c. Chi-□ e trovo X ,g e X ,g X=(X /g )/(X /g ), è asimmetrica
1 2 1 2 1 1 2 2 1 1 2 2
positiva e tende alla Normale se g1,g2→∞.
2
Student(X~ ho una Chi-□(Y~χ (g)) X=X/(√(Y/g)), g= gr.di libertà di Student, tende alla Normale se g→∞.
τ(g)):
8)
INTRODUZIONE ALLE TECNICHE DI INFERNZA STATISTICA E STIMA PER INTERVALLI
Inferenza statistica=insieme delle procedure statistiche che consentono di estendere i risultati ottenuti da un campione alla popolazione e
controllare e quantificare il grado di incertezza delle generalizzazioni in termini probabilistici. In genere uso le statistiche calcolate sui dati
campionari per ottenere Stime o Verificare Ipotesi sui corrispondenti parametri della popolazione da cui è stato tratto il campione.
Stima puntuale: faccio singola statistica per stimare il vero valore di un parametro della popolazione.
Stima per intervallo(intervalli di confidenza):attribuisco all’incognita un intervallo di valori possibilmente veri.
α=livello di significatività=[%]probabilità che il parametro si trovi fuori dall’IC. ̅ ̅
Livello di confidenza= probabilità che il parametro appartenga all’intervallo = Pr( - Z *σ/√n ≤ μ ≤ +Z *σ/√n)=1-α
α/2 α/2
Z = valore critico dell’intervallo di confidenza, Z =±1.96 se (1-α)=95%; Z =±2.58 se (1-α)=99%.
α/2 α/2 α/2
̅
2
IC per la media:-pop normali, media μ ignota e varianza σ nota: [ ±Z * σ/√n]
α/2
̅ ̅
-pop.normali, media e varianza ignote: [ ± t * S/√n] con t=( -μ)/(s/√n)=t di Student con (n-1) gdl.
n-1;α/2
-pop. non normali, n grande: uso cmq quelle due sopra, per Teorema del limite centrale.
⁄
= √
̅
Errore standard della media: = misura di variabilità della media campionaria da campione a campione.
Teorema del limite centrale= Quando l’ampiezza del campione è sufficientemente grande(n>30), la distribuzione della media campionaria può
essere approssimata dalla distribuzione normale indipendentemente dalla forma della distribuzione dei singoli valori della popolazione.
IC per la proporzione: [p- Z *√(p(1-p)/n)≤ π ≤ p+Z *√(p(1-p)/n)] dove π=parametro di proporzione, p=X/n con X=n° unità di interesse; per
α/2 α/2
poterla usare devo prima verificare che { n*p>5; n*(1-p)>5 }.
9)
VERIFICA DI IPOTESI:TEST SU UN CAMPIONE
Verifica di ipotesi= ipotizzo il valore di un parametro e con statistica campionaria decido se è accettabile o meno.
Test di ipotesi= procedimento per rifiutare o accettare l’ipotesi nulla H (=assenza di differenze o relazioni tra il parametro ipotizzato e il valore
0
vero) o alternativa H . Trovo se i miei valori finali rientrano o no nella regione di accettazione.
1
P-Value=livello di significatività osservato=somma delle aree di coda=misura l’evidenza fornita dai dati contro l’ipotesi nulla, se p-value<α
rifiuto H .
0
Test di ipotesi Z per la proporzione: calcolo p=X/n e poi Z=(p-π)/√(π*(1-π)/n)
Errore di 1° specie= rifiuto l’ipotesi nulla anche se è vera.
Errore di 2° specie=accetto l’ipotesi nulla anche se è falsa.
10)
VERIFICA DI IPOTESI: TEST SU DUE CAMPIONI =μ =μ , H =μ ≠μ .
Se prendo due campioni da due popolazioni indipendenti e ne calcolo le media, ho H
0 1 2 1 1 2
# )(/* ⁄ ) ⁄ ))
" = %%% − %%%) − '
− ' +
Test Z sulla differenza di due medie, varianze note: $ $ $
$
# )(/*- ⁄ ⁄
, = %%% − %%%) − ' − ' ∗ 1 + 1 )
Test t sulla differenza di due medie, varianze omogenee (σ =σ )non note: $ $ . $
1 2
- - - ⁄
dove =[(n -1) +(n -1) ]/[(n -1)+(n -1)]; ho t critico=, .
. 0 0 ; 4
$ 1 2
1 2 1 2 ⁄ ⁄
%%% − %%%) , ∗ *- ∗ 1 + 1 ).
⁄
IC per la differenza tra le medie di due pop. indipendenti: $ 0 0 ;4 . $
1 2
Confronto tra le medie di due popolazioni NON indipendenti: caso in cui ho campioni appaiati(influenzati a vicenda)o misurazioni ripetute sulle
stesse unità; allora non considero le medie dei campioni ma la media delle differenze D tra i campioni; avrò H : μ =0
0 D
6 6
)/ /√ ) 5
" = 5 − ' con =ΣDi/n.
Test Z sulla media delle D, varianza delle D nota: 7 7
6 6)
⁄ ⁄ ⁄
*8
, = 5 − ' ) - ) - = 5 − 5 − 1)
√
Test t sulla media delle D, varianza delle D non nota: con
7 7 7 9
6 ⁄
5 , ∗ - √
⁄
IC per media delle D di due pop. NON indipendenti:[ ].
0 $;4 7
Confronto tra proporzioni di due pop.: indico con π e π le proporzioni dei successi nella pop. e con p e p le proporz. campionarie dei
1 2 1 2
successi(frequenze relative). Avrò H : π =π .
0 1 2
# ) )(/*:̅ :̅) ⁄ ⁄ ⁄
" = : − : − ; − ; ∗ 1 − ∗ 1 + 1 ) :̅ = < + < ) + )
Test Z sulla differenza tra due prop: con
$ $ $ $ $
) ⁄ ⁄
: − : " ∗ 1 − : ) + : 1 − : )
*:
⁄
IC per la differenza tra due prop:[ ].
$ 4 $ $ $
=
Confronto tra varianze di due prop: H : $
0 ⁄
-
Test F sulla differenza tra due varianze: F=- .
$
11)
ANALISI DELLA VARIANZA(ANOVA) AD UNA VIA
Serve nel caso in cui devo fare test sulla differenza tra medie tra più di due popolazioni(gruppi) confrontandone le medie.
Nel caso in cui i gruppi sono tutti definiti da un unico fattore di interesse si parla di Anova ad una via.
Variabile risposta=X= var. quantitativa continua.
Fattore=variabile qualitativa( con C livelli) o quantitativa(categorizzato in C classi).
Livelli=trattamenti=modalità assunte dai fattori di interesse(in pratica sono i gruppi).
Ipotesi nulla=H0=le μ di tutti i C livelli sono uguali.
Ipotesi alternativa=H1=almeno due medie sono diverse tra loro. ∑ − ̿ )
A>@$ 09@$
Per verificare H0 scompongo la variabilità totale(=somma dei quadrati totale=SST=∑ ) in : variabilità tra gruppi(effetto del
9>
∑
̅ − ̿ ) − 6 ) 6
A>@$ A>@$ 09@$
fattore=SSA=∑ ) e variabilità entro gruppi(errore casuale=SSW=∑ dove =media di ciascun gruppo,
> > 9> B B
̿ =media totale.
Medie dei quadrati=varianze: ottenute dividendo le somme dei quadrati per i rispettivi gradi di libertà; MST=SST/(n-1); MSA=SSA/(c-1);
MSW=SSW/(n-c).
Nella tabella dell’Anova vengono indicati, tra i gruppi e entro gruppi, i gradi di libertà, le somme dei quadrati, le medie dei quadrati e il risultato
della statistica test F, se F=MSA/MSW≅1 allora H0 è vera; cmq se ho un α fissato trovo il valore di Fu dalle tabelle e se F<Fu tengo H0.
Procedura di Tuckey-Cramer: per identificare i gruppi differenti tra di loro, nel caso in cui ho rifiutato H0, facendo confronti tra coppie di gruppi.
Calcolo le differenze tra le medie campionarie di ogni gruppo e confronto le diff delle medie delle coppie con il range critico, se sono fuori il
range allora la diff è significativa.
⁄ ⁄
+ 1 I J-K dove Qu=valore critico superiore della distribuz del range standardizzato di Tuckey con c gradi di
Range critico=DEFG1 > >H ⁄
2
libertà al numeratore e (n-c) gdl al denominatore. 6 %%%% ⁄ ⁄
#< − < DEFG1 + 1 I J-K
L L
Alternativamente posso calcolare gli IC per la diff delle coppie di medie con la formula: ,le medie
B B > > ⁄ ]
2
sono significativamente diverse se questo IC non contiene lo 0.
Assunzioni alla base del test F per l’Anova a una via: devo avere: casualità e indipendenza dei campioni, normalità, omogeneità delle varianze.
12)
DISEGNO DI ESPERIMENTI
DoE= design of experiments=pianificazione di un esperimento(=serie di prove fatte variando uno o + fattori e osservando la risposta Y).
Fasi doe: -randomizzazione=ordine di esecuzione prove e assegnazione delle unità sperimentali deve essere casuale;
- Replicazione=ogni trattamento va eseguito su + prove + precisione;
- Blocco= fattore di disturbo note e controllabile, va minimizzato.
Modello statistico di rappresentazione dei dati sperimentali: Y=μ+ε dove Y=variabile risposta, μ=valore medio della Y, ε=errore sperimentale(da
2
fattori non controllabili, si assume ε~N(0,σ )).
ANOVA A DUE VIE
Si vuole stabilire se l’effetto di due fattori di interesse (A e B) e della loro interazione ha un impatto significativo sulla risposta.
Modello: con i=1÷a, j=1÷b, k=1÷n, τ=effetto principale di A,β=effetto princip di B, (τβ)=interazione tra A e B.
M = ' + O + P + (OP) + Q
9>N 9 > 9> 9>N
Ipotesi da verificare: -effetto princ di A: H0: =0; H1: almeno un ≠0. –effetto pric di B: H0: =0; H1: almeno un ≠0. –Interaz tra A e B: H0:
O O P P
9 9 > >
=0; H1: almeno un ≠0.
(OP) (OP)
9> 9>
Grafici di interazione: - main effect plot= grafico dell’effetto principale dei livelli sul fattore; - Interaction plot= grafico dell’effetto di
interazione, meno le linee sono //, + forte è l’interazione.
Tabella dell’Anova a due vie: 2 2
Modello riassuntivo: trovo S, R-sq(=R =% di variabilità),R-sq(adj)(=R aggiustato risp al n° di variabili del modello),R-sq(pred)(=capacità del
modello di predire nuove osservazioni).
Analisi dei residui: per controllare l’adeguatezza del modello adottato e dell’ipotesi di normalità.
13)
CORRELAZIONE E REGRESSIONE LINEARE
Relazione tra variabili: se 2 o + variabili sono in relazione si dicono dipendenti, sennò sono indipendenti.
Modelli: Se le variabili sono in scala nominale o ordinale si calcolano le misure di connessione(evidenziano il legame tra variabili basandosi
sull’analisi delle frequenze), se ho scala numerica ho misure di correlazione(analizzano il legame tra variabili quantitative).
Diagramma di dispersione: diagramma a nuvola di punti per variabili quantitative, mi evidenzia come varia tutto al variare delle due variabili.
Coeff di correlaz lineare= r = misura l’intens