Statistica descrittiva:
Mediana: non risente di dati difformi poiché, una volta ordinate le misurazioni in modo crescente,
prende il dato centrale, quello che divide la distribuzione in due classi contigue di frequenza
relativa pari a 0,5.
Moda: valore della x per cui si ha un massimo locale della frequenza relativa +∞
∞
∑
= () = = ()
Valore atteso o valor medio, con X variabile aleatoria: , ∫
=1 −∞
+∞
∞
2 2 2 2
∑ ( ( ) ()
= − ) = −
Varianza: ∫
=1 −∞
Indice di dissimmetria: valutazione di avere dati a destra e sinistra del valor medio
3 ∞ 3
(
√∑ −)
=1
=
equiprobabili. d>0 indica scarti positivi più frequenti.
∞ 4
(
∑ −)
=1
= − 3
Curtosi: quanto mi discosto dalla Gaussiana(per cui vale 0)
4
=
Coefficiente di variazione valuta l’entità della varianza rispetto al valor medio
Statistica induttiva:
La statistica induttiva si propone di fornire procedure sistematiche per la verifica della
significatività di un campione di dati in termini sia di scelta della numerosità che di
rappresentatività dell’intera popolazione. Possiamo grosso modo distinguere i seguenti argomenti:
- Stima puntuale: consiste nel determinare dai dati il valore di un parametro e nel valutare
l’attendibilità della stima.
- Stima di intervallo: si vuole determinare un intervallo di valori entro il quale possa cadere con
buona probabilità il valore di un parametro incognito.
- Criteri di verifica delle ipotesi: scelta sistematica tra possibili valori di un parametro quello più
verosimile sulla base dell’evidenza sperimentale.
- Analisi della varianza: per verificare ipotesi complesse.
- Programmazione degli esperimenti: tecniche di campionamento e di scelta della numerosità
del campione.
Stima puntuale del valore medio e della varianza:
Consideriamo un insieme Ω di N unità e sia X una v.a. che rappresenta i valori di una determinata
, = 1, … , }
qualità degli elementi dell’insieme Ω.
che assume i valori { su Il valor medio e la
varianza di X sono definiti nel seguente modo:
1
2 2
∑ ∑ (
= = − µ)
=1 =1
Ma non potendo analizzare l’intero insieme risultato di valore incognito. Si estrae dunque da Ω un
campione casuale di n < N elementi e se ne valuta la media e la varianza campionaria:
]
[ ̂
= µ
2
̂2
=
=1
∑
̂ =
{
2
−1
̂2
= (1 − )
{ −1
2
Di spesso non se ne conosce il valore ma occorre farne una stima:
−1
2 2
]
[ =
2
1
2 ∑
= ( − ̂ ) {
=1 −1
2 2
]
[ =
−1
̂:
Per avere stima non distorta della varianza campionaria è opportuno ricorrere a
̂
2 2
[ ] =
,1
2
1
̂
2 2 ∑
= = ( − ̂ ) { 4
4 4
]
[(−)
−3 2
=1
,1 2
−1 −1 = ( − ) =
̂
2 4
−1 −1
,1
2
−1 −1
̂ ̂
2 2 2 2
∑
= = ( − ̂ ) [ ] =
=1
,2 ,2
−1 (−1) 2
2 2 √
̂ ̂ ( 1)
2 2
√ [( − [ ]) ] − 2
,1 ,1 √
= = =
̂ 2
−1
2
[ ]
,1
Se si vuole una distribuzione addensata intorno allo 0 si può richiede un c.v minore di 0,2 il che
implica un campione n di numerosità pari 50:
2
√
= < 0,2 → ≥ 50
−1 4
2
2
=
Questo risultato vale con la premessa di avere che è un risultato valido solo se la
̂
2
−1
,1
distribuzione è gaussiana e la curtosi è pari a 0. Per avere stima più precisa (o meno dispersa) si
deve avere:
• 0 < < 2 → > 100
Per
• > 2 → > 500
Sintetizzando si ha che: 2
2 −1
̂2
̂2 = (1 − )
= −1
{ {
̂ ̂
2 2
1 −1 1
̂ ̂
2 2
2 2
,1 ,2
= = = (1 − ) = (1 − )
̂ ̂
−1 −1 −1
Stima di intervallo e controllo statistico della qualità:
Si è visto dunque che la stima di valor medio è una stima accurata in quanto ha distorsione nulla,
e la sua precisione aumenta all'aumentare della dimensione n del campione casuale analizzato.
Questo significa che se si analizzassero più campioni di dimensione n , si otterrebbero tanti valori
̂
differenti della stima puntuale , ma che si localizzano intorno al valore incognito , potendo
̂ −
peraltro presentare errori positivi e negativi che hanno mediamente un range dell'ordine di
2
,1
√ .
E’ più utile fornire un intervallo di possibili valori tale che si possa ritenere con una
,
certa confidenza che il valore incognito appartenga a tale intervallo:
( ∈ ) = 1 −
, %
̂
In questo caso non si fornirebbe un unico valore attendibile per a meno di un errore medio
2
,1
√ 1 −
pari a , ma un intervallo di valori attendibili per con una confidenza dell' .
, %
Considerando la variabile standardizzata ̂ −
=
,1
√
→ ∞
Per n tale variabile tende in distribuzione, per il teorema del limite centrale, ad una normale
~(0,1),
standard il che implica che per N abbastanza grande:
̅ ̅)
(− ≤ ≤ = 1 −
% ) ) )
( ≤ − ∪ ( ≥ = (|| ≥ =
Con percentile della Gaussiana con cui coincide
%
−
Dunque fissato l’1 , livello di confidenza si ha che:
% ̂ −
,1 ,1
− ≤ ≤ → ̂ − ≤ ≤ ̂ +
,1 √ √
√ 1 1
̂
2 2
= ̂ − ≤ ≤ ̂ +
Da cui, ricordando che segue che
,1 −1 √−1 √−1
L’ampiezza dell’intervallo di confidenza dipende sostanzialmente dalla numerosità del campione:
1
∆ = 2
, − 1
√
per cui, all'aumentare della dimensione del campione analizzato, a parità di confidenza, l'intervallo
diventa più stretto, dando luogo ad una valutazione più precisa dei valori attendibili del
, .
parametro incognito
Nel caso in cui n è piccolo non si può approssimare ad una distribuzione normale ma occorre
̂ ~(0,1)
avere un’ipotesi di partenza di gaussianità dei dati. Se i dati sono gaussiani
Ricordando che la t-student è definita come rapporto tra una normale e la radice di una chi-
quadro(somma di normali) fratto i gradi di libertà, si ha che
̂ − ̂ − ̂ −
/√
= = = ~
−1
̂
2
2
2 ̂
√∑ ( − ̂ )
√∑ ( − ̂ ) 1
=1
=1 ( − 1)
2 (
− 1)
̅ ̅)
(− ≤ ≤ = 1 −
Allora è dato dal percentile della t-student con n-1 gradi di libertà.
% 1 1
̂ − ≤ ≤ ̂ +
− 1 − 1
√ √
Gli stessi ragionamenti possono essere estesi nel caso in cui si voglia verificare la qualità di un
2
processo di produzione. Si hanno dei valori nominali di µ e . Per controllare che il processo
mantenga la qualità nel tempo, vengono prelevati ad intervalli regolari dei campioni di dimensione
̂ .
n e su questi si calcola la media campionaria Dato che la distribuzione si suppone gaussiana, n
può essere scelto anche piccolo: ̂ −
= ~ (0,1)
/√
̂ ∈ [ ± ]
Da cui segue che il processo di produzione è da ritenersi idoneo se % √
Test statistici d’ipotesi:
I test statistici consistono in procedure per validare ipotesi di modello riguardanti le caratteristiche
statistiche di dati sperimentali ottenuti come risultati di un
dato fenomeno aleatorio.
: =
0 1
: =
1 2 |
( >
̅ ) =
Livello di significatività del test: 0 %
Fisso all’ la probabilità di sbagliare, cioè di non accettare un valore estremo per poter
%
considerare accettabile sebbene sia vera. Probabilità di commettere errore di tipo I: rifiuto
0 0
{ >
̅ }
quando è vera. L’insieme dei valori per cui si rifiuta l’ipotesi nulla prende il nome
0 0
di set critico del test. −
1
| ) )
( >
̅ = ( > + = ( > ) = dove m1 deriva da H0 vera
0 1
| )
( <
Errore di secondo tipo: si accetta H0 quando è falsa
1
Se m1> m2
| ) )
( <
̅ = ( < − =
0 1 ≠
Se l’ipotesi alternativa fosse stata 0 1
) )
( < − ∪ ( > +
1 1
̅ | )
− = ( > 0
̅
Il p-value dice, avendo osservato un valore della statistica e supponiamo che tale valore si trovi
nella zona di rifiuto dell’ipotesi nulla, qual è la probabilità di osservare un valore più grande di
,
questo. Se il p-value è inferiore al livello di significatività allora accetto H0, altrimenti rifiuto.
Test di confronto:
In molti casi pratici si deve poter confrontare la stima campionaria di una statistica ( media,
varianza…) con valori considerati come noti, evidentemente acquisiti da indagini precedenti.
Confronto tra medie:
misure appaiate:
I soggetti delle misure coincidono, dunque i dati sono tra loro dipendenti, dipendono dal soggetto
in esame. La variabilità dei dati è legata solo alla presenza di soggetti differenti in uno stesso
gruppo. ∆ = −
,1 ,0
1 1
∑ ∑ [ ] ]
̂ = − = ∆ ̂ = [
̂ −
̂ =
̂ −
̂
∆ ,1 ,0 ∆ 1 0 1 0
=1 =1
Si passa dunque dalla statistica test: [ ]
:
̂ =
̂ : ̂ =
̂ −
̂ = 0
0 1 0 0 ∆ 1 0
[ ]
:
̂ −
̂ : ̂ > 0
1 1 0 1 ∆
A questo punto si costruisce il set critico e, dopo aver certificato la gaussianità dei dati, poichè la
̂
∆ −
̂
2 ∆
=
varianza è stimata come , si approssima la distribuzione della statistica test a una t-
∆ −1
student.
{ } ) ]
= ̂ > ̅ → (
̂ ∈ | = (
̂ > [
̂ +
̂ | ) = (
̂ >
̂ ) =
̂ ̂
∆ ∆ 0 ∆ ∆ 0 ∆ %
∆ ∆
̂
∆
̂ =
Con ̂
∆
√
Misure non appaiate:
nota:
Se si devono confrontare due medie per capire se la loro differenza sia significativa o dovuta al
caso ma i dati variano anche per il fatto che i dati si riferiscono a gruppi differenti di soggetti si
parla di misure non appaiate. Si indica con e le medie calcolate sui due gruppi, il test
1 2
̂
∆ =
̂ −
̂:
d’ipotesi si farà su 2 1
̂]
: [ ∆ = 0
0 ̂]
: [ ∆ ≠ 0
1
Se è nota allora si farà riferimento ai percentili di una Normale e si avrà che:
̂ ̂ ̂ ̂ 2 2
(|µ | > ̅ ) = (µ > [µ ] +
̂ | ) = (µ > √ + ) =
̂ 0 %
µ ̂ ̂
1 2
2 2
2 2 2 2
= =
Con , e calcolati come e
̂ ̂ ̂ ̂
1 2 1 2
1 2
incognita:
̂
̂
Nell’ipotesi che la varianza dei dati sia costante, e che la differenza tra sia del tutto
2 1
̂
µ
̂
̂
casuale, la varianza di , se e sono stimate, è pari a
1 2 2 2
+ 1 1
̂ 1 2
1 2
2
= ( + )
µ + − 2
1 2 1 2
Questo perché per l’ipotesi di omoschedasticità dei dati presa per vera (ipotesi da accertare) si ha
che 2 2 2
= = ℎ
1 2 2 2
1 1
2 2
2 2
1 2
= + = + = ( + ) →
µ ̂ ̂
2 2 1 2 1 2
̂ ̂ 2 2
2 2
( (
− 1) + − 1) 1 1 + 1 1
̂ 1 2 1 2
1 2
1 2
2
= ( + ) = ( + )
µ + − 2 + − 2
1 2 1 2 1 2 1 2
2 2
1 1
1 2
2 2
∑ ∑
= ( ( −
̂) = ( ( −
̂)
Con e
1, 1 2, 2
1 2
=1 =1
1 2
Il set d’ipotesi sarà sempre:
̂]
: [ ∆ = 0
0 ̂]
: [ ∆ ≠ 0
1
Ma per il set critico si farà riferimento ai percentili di una t-student con :
1 + 2 − 2
̂|
|µ
̂ ̂ ̂
(|µ
| > ̅ ) = (µ > [µ +
̂ = > =
] | )
̂ 0 1+2−2 %
µ 2 2
+ 1 1
1 2
1 2
√ ( + )
+ − 2
1 2 1 2
( )
Nel caso in cui si debba rifiutare l'ipotesi che la varianza dell'insieme dei dati del primo e del
secondo gruppo sia costante, dunque i dati sono eteroschedastici, c’è una differenza significativa
2 2
≠
tra le varianze dei due gruppi, allora si ha:
1 2
̂
̂
2 2
̂ 1 2
2
= + da cui segue che livello di significatività può essere calcolato come :
µ
1 2 2
̂ ̂
2 2
2
1 +
( )
1
̂|
|µ 2
> = =
con
, % 2 2
̂ ̂
̂ ̂ 2 2
2 2
1 2 1 2
√ + ( ) ( )
1 2 1 2
( ) +
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Controlli automatici - analisi e sintesi dei modelli poveri
-
Microbiologia – Sintesi
-
Sintesi dimostrazioni
-
Enzimi (sintesi)