Estratto del documento

Statistica descrittiva:

Mediana: non risente di dati difformi poiché, una volta ordinate le misurazioni in modo crescente,

prende il dato centrale, quello che divide la distribuzione in due classi contigue di frequenza

relativa pari a 0,5.

Moda: valore della x per cui si ha un massimo locale della frequenza relativa +∞

= () = = ()

Valore atteso o valor medio, con X variabile aleatoria: , ∫

=1 −∞

+∞

2 2 2 2

∑ ( ( ) ()

= − ) = −

Varianza: ∫

=1 −∞

Indice di dissimmetria: valutazione di avere dati a destra e sinistra del valor medio

3 ∞ 3

(

√∑ −)

=1

=

equiprobabili. d>0 indica scarti positivi più frequenti.

∞ 4

(

∑ −)

=1

= − 3

Curtosi: quanto mi discosto dalla Gaussiana(per cui vale 0)

4

=

Coefficiente di variazione valuta l’entità della varianza rispetto al valor medio

Statistica induttiva:

La statistica induttiva si propone di fornire procedure sistematiche per la verifica della

significatività di un campione di dati in termini sia di scelta della numerosità che di

rappresentatività dell’intera popolazione. Possiamo grosso modo distinguere i seguenti argomenti:

- Stima puntuale: consiste nel determinare dai dati il valore di un parametro e nel valutare

l’attendibilità della stima.

- Stima di intervallo: si vuole determinare un intervallo di valori entro il quale possa cadere con

buona probabilità il valore di un parametro incognito.

- Criteri di verifica delle ipotesi: scelta sistematica tra possibili valori di un parametro quello più

verosimile sulla base dell’evidenza sperimentale.

- Analisi della varianza: per verificare ipotesi complesse.

- Programmazione degli esperimenti: tecniche di campionamento e di scelta della numerosità

del campione.

Stima puntuale del valore medio e della varianza:

Consideriamo un insieme Ω di N unità e sia X una v.a. che rappresenta i valori di una determinata

, = 1, … , }

qualità degli elementi dell’insieme Ω.

che assume i valori { su Il valor medio e la

varianza di X sono definiti nel seguente modo:

1

2 2

∑ ∑ (

= = − µ)

=1 =1

Ma non potendo analizzare l’intero insieme risultato di valore incognito. Si estrae dunque da Ω un

campione casuale di n < N elementi e se ne valuta la media e la varianza campionaria:

]

[ ̂

= µ

2

̂2

=

=1

̂ =

{

2

−1

̂2

= (1 − )

{ −1

2

Di spesso non se ne conosce il valore ma occorre farne una stima:

−1

2 2

]

[ =

2

1

2 ∑

= ( − ̂ ) {

=1 −1

2 2

]

[ =

−1

̂:

Per avere stima non distorta della varianza campionaria è opportuno ricorrere a

̂

2 2

[ ] =

,1

2

1

̂

2 2 ∑

= = ( − ̂ ) { 4

4 4

]

[(−)

−3 2

=1

,1 2

−1 −1 = ( − ) =

̂

2 4

−1 −1

,1

2

−1 −1

̂ ̂

2 2 2 2

= = ( − ̂ ) [ ] =

=1

,2 ,2

−1 (−1) 2

2 2 √

̂ ̂ ( 1)

2 2

√ [( − [ ]) ] − 2

,1 ,1 √

= = =

̂ 2

−1

2

[ ]

,1

Se si vuole una distribuzione addensata intorno allo 0 si può richiede un c.v minore di 0,2 il che

implica un campione n di numerosità pari 50:

2

= < 0,2 → ≥ 50

−1 4

2

2

=

Questo risultato vale con la premessa di avere che è un risultato valido solo se la

̂

2

−1

,1

distribuzione è gaussiana e la curtosi è pari a 0. Per avere stima più precisa (o meno dispersa) si

deve avere:

• 0 < < 2 → > 100

Per

• > 2 → > 500

Sintetizzando si ha che: 2

2 −1

̂2

̂2 = (1 − )

= −1

{ {

̂ ̂

2 2

1 −1 1

̂ ̂

2 2

2 2

,1 ,2

= = = (1 − ) = (1 − )

̂ ̂

−1 −1 −1

Stima di intervallo e controllo statistico della qualità:

Si è visto dunque che la stima di valor medio è una stima accurata in quanto ha distorsione nulla,

e la sua precisione aumenta all'aumentare della dimensione n del campione casuale analizzato.

Questo significa che se si analizzassero più campioni di dimensione n , si otterrebbero tanti valori

̂

differenti della stima puntuale , ma che si localizzano intorno al valore incognito , potendo

̂ −

peraltro presentare errori positivi e negativi che hanno mediamente un range dell'ordine di

2

,1

√ .

E’ più utile fornire un intervallo di possibili valori tale che si possa ritenere con una

,

certa confidenza che il valore incognito appartenga a tale intervallo:

( ∈ ) = 1 −

, %

̂

In questo caso non si fornirebbe un unico valore attendibile per a meno di un errore medio

2

,1

√ 1 −

pari a , ma un intervallo di valori attendibili per con una confidenza dell' .

, %

Considerando la variabile standardizzata ̂ −

=

,1

→ ∞

Per n tale variabile tende in distribuzione, per il teorema del limite centrale, ad una normale

~(0,1),

standard il che implica che per N abbastanza grande:

̅ ̅)

(− ≤ ≤ = 1 −

% ) ) )

( ≤ − ∪ ( ≥ = (|| ≥ =

Con percentile della Gaussiana con cui coincide

%

Dunque fissato l’1 , livello di confidenza si ha che:

% ̂ −

,1 ,1

− ≤ ≤ → ̂ − ≤ ≤ ̂ +

,1 √ √

√ 1 1

̂

2 2

= ̂ − ≤ ≤ ̂ +

Da cui, ricordando che segue che

,1 −1 √−1 √−1

L’ampiezza dell’intervallo di confidenza dipende sostanzialmente dalla numerosità del campione:

1

∆ = 2

, − 1

per cui, all'aumentare della dimensione del campione analizzato, a parità di confidenza, l'intervallo

diventa più stretto, dando luogo ad una valutazione più precisa dei valori attendibili del

, .

parametro incognito

Nel caso in cui n è piccolo non si può approssimare ad una distribuzione normale ma occorre

̂ ~(0,1)

avere un’ipotesi di partenza di gaussianità dei dati. Se i dati sono gaussiani

Ricordando che la t-student è definita come rapporto tra una normale e la radice di una chi-

quadro(somma di normali) fratto i gradi di libertà, si ha che

̂ − ̂ − ̂ −

/√

= = = ~

−1

̂

2

2

2 ̂

√∑ ( − ̂ )

√∑ ( − ̂ ) 1

=1

=1 ( − 1)

2 (

− 1)

̅ ̅)

(− ≤ ≤ = 1 −

Allora è dato dal percentile della t-student con n-1 gradi di libertà.

% 1 1

̂ − ≤ ≤ ̂ +

− 1 − 1

√ √

Gli stessi ragionamenti possono essere estesi nel caso in cui si voglia verificare la qualità di un

2

processo di produzione. Si hanno dei valori nominali di µ e . Per controllare che il processo

mantenga la qualità nel tempo, vengono prelevati ad intervalli regolari dei campioni di dimensione

̂ .

n e su questi si calcola la media campionaria Dato che la distribuzione si suppone gaussiana, n

può essere scelto anche piccolo: ̂ −

= ~ (0,1)

/√

̂ ∈ [ ± ]

Da cui segue che il processo di produzione è da ritenersi idoneo se % √

Test statistici d’ipotesi:

I test statistici consistono in procedure per validare ipotesi di modello riguardanti le caratteristiche

statistiche di dati sperimentali ottenuti come risultati di un

dato fenomeno aleatorio.

: =

0 1

: =

1 2 |

( >

̅ ) =

Livello di significatività del test: 0 %

Fisso all’ la probabilità di sbagliare, cioè di non accettare un valore estremo per poter

%

considerare accettabile sebbene sia vera. Probabilità di commettere errore di tipo I: rifiuto

0 0

{ >

̅ }

quando è vera. L’insieme dei valori per cui si rifiuta l’ipotesi nulla prende il nome

0 0

di set critico del test. −

1

| ) )

( >

̅ = ( > + = ( > ) = dove m1 deriva da H0 vera

0 1

| )

( <

Errore di secondo tipo: si accetta H0 quando è falsa

1

Se m1> m2

| ) )

( <

̅ = ( < − =

0 1 ≠

Se l’ipotesi alternativa fosse stata 0 1

) )

( < − ∪ ( > +

1 1

̅ | )

− = ( > 0

̅

Il p-value dice, avendo osservato un valore della statistica e supponiamo che tale valore si trovi

nella zona di rifiuto dell’ipotesi nulla, qual è la probabilità di osservare un valore più grande di

,

questo. Se il p-value è inferiore al livello di significatività allora accetto H0, altrimenti rifiuto.

Test di confronto:

In molti casi pratici si deve poter confrontare la stima campionaria di una statistica ( media,

varianza…) con valori considerati come noti, evidentemente acquisiti da indagini precedenti.

Confronto tra medie:

misure appaiate:

I soggetti delle misure coincidono, dunque i dati sono tra loro dipendenti, dipendono dal soggetto

in esame. La variabilità dei dati è legata solo alla presenza di soggetti differenti in uno stesso

gruppo. ∆ = −

,1 ,0

1 1

∑ ∑ [ ] ]

̂ = − = ∆ ̂ = [

̂ −

̂ =

̂ −

̂

∆ ,1 ,0 ∆ 1 0 1 0

=1 =1

Si passa dunque dalla statistica test: [ ]

:

̂ =

̂ : ̂ =

̂ −

̂ = 0

0 1 0 0 ∆ 1 0

[ ]

:

̂ −

̂ : ̂ > 0

1 1 0 1 ∆

A questo punto si costruisce il set critico e, dopo aver certificato la gaussianità dei dati, poichè la

̂

∆ −

̂

2 ∆

=

varianza è stimata come , si approssima la distribuzione della statistica test a una t-

∆ −1

student.

{ } ) ]

= ̂ > ̅ → (

̂ ∈ | = (

̂ > [

̂ +

̂ | ) = (

̂ >

̂ ) =

̂ ̂

∆ ∆ 0 ∆ ∆ 0 ∆ %

∆ ∆

̂

̂ =

Con ̂

Misure non appaiate:

nota:

Se si devono confrontare due medie per capire se la loro differenza sia significativa o dovuta al

caso ma i dati variano anche per il fatto che i dati si riferiscono a gruppi differenti di soggetti si

parla di misure non appaiate. Si indica con e le medie calcolate sui due gruppi, il test

1 2

̂

∆ =

̂ −

̂:

d’ipotesi si farà su 2 1

̂]

: [ ∆ = 0

0 ̂]

: [ ∆ ≠ 0

1

Se è nota allora si farà riferimento ai percentili di una Normale e si avrà che:

̂ ̂ ̂ ̂ 2 2

(|µ | > ̅ ) = (µ > [µ ] +

̂ | ) = (µ > √ + ) =

̂ 0 %

µ ̂ ̂

1 2

2 2

2 2 2 2

= =

Con , e calcolati come e

̂ ̂ ̂ ̂

1 2 1 2

1 2

incognita:

̂

̂

Nell’ipotesi che la varianza dei dati sia costante, e che la differenza tra sia del tutto

2 1

̂

µ

̂

̂

casuale, la varianza di , se e sono stimate, è pari a

1 2 2 2

+ 1 1

̂ 1 2

1 2

2

= ( + )

µ + − 2

1 2 1 2

Questo perché per l’ipotesi di omoschedasticità dei dati presa per vera (ipotesi da accertare) si ha

che 2 2 2

= = ℎ

1 2 2 2

1 1

2 2

2 2

1 2

= + = + = ( + ) →

µ ̂ ̂

2 2 1 2 1 2

̂ ̂ 2 2

2 2

( (

− 1) + − 1) 1 1 + 1 1

̂ 1 2 1 2

1 2

1 2

2

= ( + ) = ( + )

µ + − 2 + − 2

1 2 1 2 1 2 1 2

2 2

1 1

1 2

2 2

∑ ∑

= ( ( −

̂) = ( ( −

̂)

Con e

1, 1 2, 2

1 2

=1 =1

1 2

Il set d’ipotesi sarà sempre:

̂]

: [ ∆ = 0

0 ̂]

: [ ∆ ≠ 0

1

Ma per il set critico si farà riferimento ai percentili di una t-student con :

1 + 2 − 2

̂|

̂ ̂ ̂

(|µ

| > ̅ ) = (µ > [µ +

̂ = > =

] | )

̂ 0 1+2−2 %

µ 2 2

+ 1 1

1 2

1 2

√ ( + )

+ − 2

1 2 1 2

( )

Nel caso in cui si debba rifiutare l'ipotesi che la varianza dell'insieme dei dati del primo e del

secondo gruppo sia costante, dunque i dati sono eteroschedastici, c’è una differenza significativa

2 2

tra le varianze dei due gruppi, allora si ha:

1 2

̂

̂

2 2

̂ 1 2

2

= + da cui segue che livello di significatività può essere calcolato come :

µ

1 2 2

̂ ̂

2 2

2

1 +

( )

1

̂|

|µ 2

> = =

con

, % 2 2

̂ ̂

̂ ̂ 2 2

2 2

1 2 1 2

√ + ( ) ( )

1 2 1 2

( ) +

Anteprima
Vedrai una selezione di 6 pagine su 23
Sintesi modelli Pag. 1 Sintesi modelli Pag. 2
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Sintesi modelli Pag. 6
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Sintesi modelli Pag. 11
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Sintesi modelli Pag. 16
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Sintesi modelli Pag. 21
1 su 23
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Ingegneria industriale e dell'informazione ING-INF/04 Automatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher lucia23111995 di informazioni apprese con la frequenza delle lezioni di Modellistica e identificazione e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Roma La Sapienza o del prof De Santis Alberto.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community