Anteprima
Vedrai una selezione di 10 pagine su 197
Tesi di laurea in scienze statistiche ed economiche: modelli di regressione Pag. 1 Tesi di laurea in scienze statistiche ed economiche: modelli di regressione Pag. 2
Anteprima di 10 pagg. su 197.
Scarica il documento per vederlo tutto.
Tesi di laurea in scienze statistiche ed economiche: modelli di regressione Pag. 6
Anteprima di 10 pagg. su 197.
Scarica il documento per vederlo tutto.
Tesi di laurea in scienze statistiche ed economiche: modelli di regressione Pag. 11
Anteprima di 10 pagg. su 197.
Scarica il documento per vederlo tutto.
Tesi di laurea in scienze statistiche ed economiche: modelli di regressione Pag. 16
Anteprima di 10 pagg. su 197.
Scarica il documento per vederlo tutto.
Tesi di laurea in scienze statistiche ed economiche: modelli di regressione Pag. 21
Anteprima di 10 pagg. su 197.
Scarica il documento per vederlo tutto.
Tesi di laurea in scienze statistiche ed economiche: modelli di regressione Pag. 26
Anteprima di 10 pagg. su 197.
Scarica il documento per vederlo tutto.
Tesi di laurea in scienze statistiche ed economiche: modelli di regressione Pag. 31
Anteprima di 10 pagg. su 197.
Scarica il documento per vederlo tutto.
Tesi di laurea in scienze statistiche ed economiche: modelli di regressione Pag. 36
Anteprima di 10 pagg. su 197.
Scarica il documento per vederlo tutto.
Tesi di laurea in scienze statistiche ed economiche: modelli di regressione Pag. 41
1 su 197
Disdici quando vuoi 162x117
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Sintesi

tesi.jpgModelli di regressione per fattori controllabili non lineari nei parametri: possibili contributi della Geometria Differenziale. Tesi di Laurea per il Corso di Laurea Specialistica in Scienze Statistiche ed Economiche Indirizzo per il Controllo della Qualità ed il Marketing, Università cattolica del sacro cuore di Milano. La tesi tratta dell'utilizzo della metodologia geometrico-differenziale in ambito di analisi dei modelli statistici non lineari. L'autore ha iniziato un dottorato di ricerca in Statistica.

Dall'Introduzione

Nell'ambito delle scienze sperimentali un aspetto fondamentale della ricerca coinvolge l'individuazione di relazioni all'interno di un insieme di variabili delle quali almeno una sia da ritenersi casuale, sia essa per fluttuazioni aleatorie, possibili errori di misurazione o effettiva impossibilità di effettuare detta rilevazione.

La presenza di una componente stocastica richiede necessariamente l'abbandono dell'ottica deterministica (o "Galileiana"), la quale condurrebbe alla specificazione di soli legami funzionali esatti tra le variabili atte a descrivere la realtà fenomenica oggetto di studio, e della quale ci si potrà avvalere soltanto in un primo momento con lo scopo di poter meglio orientare il lavoro, senza avere però alcuna pretesa di completezza di analisi in un ambito di incertezza.

Tenuto conto dell'impossibilità sperimentale di stabilire e controllare esattamente tutte le variabili, l'approccio deterministico necessiterà dunque di essere completato e corretto. Tale compito viene svolto avvalendosi di quelle tecniche statistiche che consentono di esprimere le relazioni intercorrenti nell'insieme di variabili tramite espressioni funzionali delle stesse, che si riterranno generalmente valide a meno di una componente di errore, tenendo conto della quale saremo in grado di non tralasciare l'aleatorietà onnipresente nelle situazioni reali.

Scarica la tesi PDF (1,1 MB)

Parole chiave: tesi di laurea in statistica economia, regressione, geometria differenziale.

Approfondimenti

Dispense di Geometria Differenziale e di Calcolo Differenziale Assoluto (Calcolo Tensoriale) ad opera di Arrigo Amadori

Introduction to Tensor Calculus and Continuum Mechanics, di HEINBOCKEL, J. H.

Intrinsic Geometry of Surfaces, di ALEKSANDROV, A. D. e ZALGALLER, V. A.

Course of Differential Geometry, di SHARIPOV. R. A.

Why to Calculate, When to Use, and How to Understand Curvature Measures of Nonlinearity, KAROLCZAK, M.

Estratto del documento

N

K

k curvatura normale di C in p

n , p C , p Σ

dipende dall’orientazione di e , quello di solo

il segno di C

k k

g , p n , p

Σ

dall’orientazione di .

Dalle formule di Frenet-Serret si ha

( ) ( )

′′

α κ

= =

K N

( )

s s s

C ϕ

N N

è la normale principale alla curva, detto l’angolo fra (normale

dove n si ha

principale alla curva) e la normale alla superficie

κ κ ϕ

= =

n N

k , cos

n κ ϕ

=

k sin

g

La curvatura geodetica sarà quindi nulla qualora la normale principale della curva e

la normale alla superficie coincidano.

Prendendo le mosse da questa scomposizione Bates e Watts introdussero le loro

misure relative di non linearità come due quantità riguardanti rispettivamente la

intrinseca indotta dai parametri

natura non lineare del modello e la non linearità ,

dimensioni della varietà riemanniana

considerando una estensione generica a p

definita dalle medie del modello in funzione dei parametri.

p

4.2 Perché introdurre misure di curvatura nell’analisi dei modelli non lineari

Posto che la natura degli errori delle variabili in considerazione in un modello sia

casuale (ed essi siano indipendenti e normalmente distribuiti, con media nulla e

varianza finita), la significatività della procedura dei LS è dovuta al fatto che le

100

stime conseguenti dei parametri posseggono alcune proprietà statistiche ottimali.

questo significa che le stime sono

Esclusivamente per il caso del modello lineare

non distorte, coincidenti con le stime di ML e raggiungono il limite inferiore di

varianza. In questi termini il metodo dei LS fornisce i migliori parametri possibili.

Si tenga a mente che solo stime con le proprietà sopraccitate permettono il calcolo

di un affidabile range per la loro varianza e della vera correlazione esistente tra di

esse, forniscono previsioni della variabile dipendente con determinata probabilità di

errore ed assicurano test statistici significativi (in termini di applicabilità).

Le stime LS per modelli non lineari invece non posseggono le proprietà ottimali di

cui si è già discusso. Sono solitamente distorte e distribuite in modo non normale, e

la loro varianza eccede in buona misura il minimo di varianza stabilito dal limite

inferiore di Rao-Cramér. L’estensione della distorsione, della non normalità e

l’eccesso di varianza variano in modo significativo da modello a modello, ed anche

all’interno dello stesso modello (fra parametri differenti); ciò dipende da un gran

numero di fattori, incluso l’ammontare dei dati disponibili e la loro distribuzione

nello spazio sperimentale. È quindi forse più appropriato parlare di una

combinazione nell’analisi della non linearità e delle stime dei modelli

dati-modello

non lineari.

È noto che, comunque, le stime LS dei parametri nei modelli non lineari

raggiungono le proprietà statistiche ottimali delle stime del modello lineare

asintoticamente e quindi, sotto le condizioni che le variabili dipendenti (i fitted

) posseggano errori che rispettino le ipotesi già introdotte, più grande sarà il

values

campione, più vicine saranno le proprietà delle stime a quelle ottimali.

Sfortunatamente non è possibile dire a priori quanto grande debba essere un

campione perché ci si avvicini sufficientemente a queste proprietà asintotiche. Per

alcuni modelli non lineari tali proprietà sono bene approssimate anche per piccole

dimensioni campionarie (6-10 unità), mentre per altri modelli questo non è vero se

non in presenza di numerosità elevate (50-100), in altri casi ancora servono

campioni ulteriormente più grandi, che potrebbero non essere materialmente

ottenibili (ad esempio per motivi economici, potrebbero essere esperimenti molto

costosi). 101

Fino ad ora non si conosce una regola che stabilisca a priori la dimensione

campionaria per ottenere le desiderate proprietà a fronte di un modello non lineare,

qualunque miglioramento in merito può essere ottenuto solamente a posteriori, ma

per poter far questo è necessario disporre di qualche misura quantitativa di

(ovvero di non linearità), che consenta di orientare gli

deviazione dalla linearità

sforzi in modo fruttifero.

In letteratura sono presenti molti tentativi per quantificare questa deviazione,

ovvero quanto diversamente il modello non lineare si comporti rispetto a quello

lineare, e per fornire una metodologia di valutazione del comportamento vicino al

(close to linear). Le prime misure quantitative di comportamento non lineare

lineare

furono proposte nel 1960 da Beale. Guttmann e Meeter qualche anno più tardi

scrissero a riguardo delle limitazioni del metodo di Beale. Nel 1971 Box derivò

alcune formule per stimare la distorsione delle stime secondo i LS, che vennero

esaminate successivamente da Gillis e Ratkowski tramite approfonditi studi di

simulazione. Contemporaneamente vennero introdotte misure di non linearità da

Bates e Watts nel loro fondamentale lavoro del 1980. Essi svilupparono nuove

misure di non linearità basate sul concetto intuitivo di curvatura noto dalla

geometria differenziale, applicandolo a spazi multi-dimensionali (tali concetti sono

quelli che abbiamo introdotto nel corso di questa tesi, ed in particolare nel terzo

capitolo); essi fornirono inoltre relazioni tra le loro misure e quelle proposte in

precedenza da Beale, e mostrarono come la misura di distorsione di Box fosse

collegata alla loro proposta.

Bates e Watts stabilirono che la non linearità di un modello può essere

convenientemente separata in due componenti:

• non linearità intrinseca IN

, d’ora in poi ( )

intrinsic

• non linearità indotta dai parametri PE

, d’ora in poi ( )

parameters-effect

102

Non linearità intrinseca

IN

La non linearità rappresenta la curvatura della superficie multi-dimensionale

chiamata luogo delle soluzioni del modello. Essa è legata al particolare modello ed

all’insieme di dati, il numero dei dati e la loro distribuzione nello spazio e non può

essere modificata da trasformazioni matematiche dei parametri

(riparametrizzazione), risultandone quindi indipendente. Solitamente decresce

all’aumentare dei dati per un determinato modello, non è però nota alcuna relazione

IN

riguardante la misura in cui questo accada. La curvatura è pari a zero per il

modello lineare, e si avvicinerà a tale valore per i modelli non lineari

asintoticamente, ovvero al tendere ad infinito della dimensione campionaria. È

IN

interessante sottolineare quanto un valore ridotto di implichi una distorsione

trascurabile nella previsione della variabile dipendente, e renda i limiti di confidenza

determinati significativi. Geometricamente indica quanto, in prossimità del punto di

stima parametrica, il luogo delle soluzioni si discosti dal suo piano tangente (o dalla

sua tangente, nel caso di un solo parametro e quindi di una curva come luogo delle

soluzioni).

Non linearità indotta dai parametri

PE

La non linearità è una misura di curvatura associata alla forma matematica e

alla particolare scelta dei parametri, in tal senso può essere modificata tramite la

riparametrizzazione. Tramite una opportuna riparametrizzazione, può essere ridotta

ad un qualunque valore desiderato (idealmente zero). Geometricamente la curvatura

PE è collegata alla proiezione delle linee parametriche sul piano tangente al luogo

delle soluzioni nel punto di stima: se il modello è lineare questo darà luogo ad una

griglia di proiezioni delle linee coordinate parallele ed equispaziate tra di loro, cosa

che non avverrà nel caso di un modello non lineare; quanto più la proiezione sarà

vicina ad avere le proprietà appena enunciate, tanto più il modello potrà dirsi

IN

prossimo alla linearità nel comportamento dei parametri. Nella condizione di una

trascurabile, tanto più piccola sarà la non linearità indotta dai parametri, tanto più il

103

modello nel suo complesso approssimerà il comportamento di un modello lineare.

Di conseguenza sarà necessario un numero inferiore di iterazioni per raggiungere la

convergenza nella stima dei parametri secondo l’algoritmo impiegato (da notare che

nel caso del modello lineare il calcolo non richiede iterazioni), e formule e test

statistici impiegati per il modello lineare (ad esempio il test e la correlazione dei

t

parametri) saranno da ritenersi più validi. In breve, i parametri stimati saranno più

vicini ai loro stimatori di minima varianza.

La misura di distorsione di Box

Tale misura e la (percentage bias) furono proposte da Box

distorsione percentuale IN PE

nel 1971. Sono misure di non linearità indirettamente legate ad e , e

rappresentano entrambe misure individuali di non linearità. Sono collegate al

singolo parametro e a come questo compare nel modello, e possono indicare quei

parametri che si comportano nel modo “più non lineare”, e suggerire quindi verso

quali orientare una eventuale riparametrizzazione (le misure di distorsione di Box

risentono quindi di trasformazioni parametriche). Possono essere impiegate inoltre

per valutare a priori l’impatto di una qualsivoglia riparametrizzazione senza dover

stimare nuovamente i parametri del modello, tramite un’opportuna relazione. La

distorsione percentuale esprime il la distorsione del parametro in relazione alla sua

stima secondo i minimi quadrati, è una quantità utile che quantifica in una certa

misura il comportamento non lineare del parametro stesso. Escludendo il caso in cui

un parametro rappresenti un termine costante nel modello, quanto più vicino il

percentage bias sarà allo zero, tanto apparirà più prossimo il suo comportamento a

quello lineare. È stata introdotta una regola arbitraria che afferma che una

distorsione percentuale superiore all’1% è una buona indicazione di comportamento

non lineare; è però importante sottolineare che l’apparire linearmente di un

parametro nell’espressione di un modello non lineare non necessariamente implica

un comportamento lineare nella stima, un Box bias pari a zero o altre proprietà

statistiche che possiamo attenderci da un modello lineare.

104

Lo Standard Radius

Un importante elemento legato alle misure di curvatura di non linearità ed

impiegato nella loro computazione è il (Standard

Dettagli
197 pagine