Riassunto statistica

Appunti di statistica basati su appunti personali del publisher presi alle lezioni del prof. Di Battista dell’università degli Studi Gabriele D'Annunzio - Unich, facoltà di economia, Corso di laurea in Economia e management. Scarica il file in formato PDF!

Esame Statistica

Facoltà Economia

Dal corso del Prof. Di Battista Francesco

Università Università degli studi Gabriele D'Annunzio di Chieti e Pescara

Publisher ND64

A.A. 2018-2019

48 pagine

1 download

Appunto

Vota 4,0 / 5 (2)

Scarica

Estratto del documento

B

somma n +n =N rappresenta il complesso del fenomeno reale che è composto da

A B

un numero finito di misure. Supponendo che il collettivo sia osservato n volte e ogni

volta l’osservazione sia indipendente dalle altre. Inoltre supponiamo che la

composizione del collettivo non cambi da un’osservazione all’altra, ossia, la

numerosità del collettivo osservato rimena N e le frequenze 0 e (1- 0).

Distribuzione geometrica

Partendo dal modello bernoulliano ci si può chiedere quante prove bisogna ripetere

per avere il primo successo. Nel caso dell’elezione a presidente della regione di cui

al paragrafo precedente , si vuole sapere con quale frequenza si avrà la prima

scheda votata con il nominativo del candidato A nella procedura di spoglio. Indicando

con 0 la probabilità del successo e con 1- 0 la probabilità dell’insuccesso allora il

modello teorico geometrico assumerà la seguente forma:

=( 1- 0) 0 per k=0,1,2,..

dove k è il numero delle prove.

Il modello geometrico dipende da 0 e lo indicheremo in sintesi con:

x G(0)

Distribuzione Binomiale Negativa

Una generalizzazione della distribuzione geometrica è data dalla distribuzione

binomiale negativa che ci fornisce la frequenza relativa di ottenere un successo dopo

che in x+r-1 prove il numero di successi è pari a r-1. La distribuzione Binomiale

negativa coincide con quella geometrica quando r=1.

Distribuzione di Poisson

Il fenomeno reale schematizzato dalla distribuzione binomiale dipende dalla

numerosità delle ripetizioni indipendenti indicato con n e dalla frequenza relativa 0

dei successi della misura di cui si vuole conoscere il numero degli esiti favorevoli. In

questo contesto si può immaginare che il numero delle ripetizione n sia elevato ossia

un numero molto grande di ripetizioni e che la frequenza relativa sia piccola nel

senso che la misura di cui si vuole conoscere il numero degli esiti sia rara nel

collettivo posto a valutazione. In questo caso è utile introdurre una nuova

distribuzione teorica nota in letteratura con il nome di distribuzione di Poisson detta

anche legge degli eventi rari. Essa schematizza una variabile di fondamentale

importanza ed è utile per determinare il numero di volte in cui misura qualitativa

d’interesse poco frequente si verifica in un dato intervallo di tempo( spazio). Il

modello decisionale di Poisson è caratterizzato dal solo parametro . Da cui si

deduce che le frequenze relative teoriche della distribuzione ricavata sono calcolabili

dall’espressione seguente:

Distribuzione uniforme

Il più banale dei modelli per le variabili continue è quello uniforme. Questo tipo di

modello ha scarsa applicazione in ambito reale ma viene più volte utilizzato nelle

simulazioni quando si vogliono generare numeri casuali in un definito intervallo di

numeri reali. Le variabili uniforme la pensiamo definita nell’intervallo chiuso [a,b] e

diremo che la variabile assumerà per ogni punto la stessa frequenza relativa . Mentre

all’esterno di questo intervallo, suddetta variabile sarà nulla.

Distribuzione normale o di Gauss

Il modello teorico sicuramente più famoso per le molteplici applicazioni sia a

fenomeni reali, è il modello normale(o curva di Gauss). Da un lato può essere

utilizzato come un modello che approssima molto verosimilmente una moltitudine di

casi reali. La maggior parte delle misure antropometriche si suppongono distribuirsi

secondo questo modello. Dall’altro lato, suddetto modello assume un’importanza

fondamentale nell’ambito della teoria dell’inferenza statistica. Limitandoci al primo

aspetto diremo che questo tipo di modello bene interpreta le misure quantitative di

fenomeno reali che si distribuiscono simmetricamente intorno ad un valore

rappresentativo. Il modello di Gauss può essere visto anche come distribuzione di

una variabile casuale che chiameremo variabile casuale normale. Un risultato molto

utile in particolare riguardo l’inferenza statistica è la combinazione lineare di variabili

casuali normali dove diciamo che una combinazione di variabili casuali indipendenti è

ancora una variabile casuale.

Variabile normale standardizzata

Quando si opera con il modello binomiale ci si accorge che il calcolo del coefficiente

binomiale è intrattabile da un punto di vista computazionale. Per risolvere questo

problema si ricorre ad un risultato asintotico dovuto a de Moivre che afferma quando

p 0,5 la distribuzione della binomiale è simmetrica rispetto alla media, cioè np.

Effettuando un’opportuna trasformazione lineare, della variabile x nella variabile

casuale z= si ha che, per il modello binomiale z= , detta variabile tende,

per n ad una distribuzione normale di media zero e varianza 1. z N(0,1). Questo

risultato è importante dal momento che il modello binomiale è approssimabile al

modello normale.

L’interpolazione analitica

L’analisi di un fenomeno reale tramite una distribuzione teorica passa attraverso la

stima dei parametri dei modelli sopra indicati. Questa fase può essere risolta usando

un approccio inferenziale, cioè estraendo un campione casuale dalla popolazione di

riferimento o attraverso un approccio di interpolazione analitica. Se ci poniamo in

quest’ottica l’obiettivo è quello di determinare una funzione y= f(x) dove con x

indichiamo la variabile del fenomeno reale intesa come variabile indipendente e y la

variabile risposta, ad esempio la frequenza associata a ciascuna modalità della

variabile x, ritenuta essere dipendente attraverso la funzione f(x) dalla variabile x. Il

primo passo della interpolazione analitica è quello di rappresentare graficamente le

coppie dei dati osservati. Questa fase è estremante utile per stabilire il modello

teorico più opportuno o più in generale la funzione matematica che potrebbe essere

più adatta ad interpolare i dati. Una volta stabilita la funzione si noterà che esistono

diverse funzioni dello stesso tipo che potrebbero interpolare i dati. È facilmente

intuibile che il passaggio essenziale dell’interpolazione analitica è la stima dei

parametri. Questa fase può essere condotta attraverso due procedimenti essenziali.

1. Imponendo che la funzione passi per i punti definiti dalle coppie di

osservazioni. Questo tipo di interpolazione è scarsamente utilizzato per

diversi motivi tra i quali il più importante è che in questo contesto si ha

bisogno di un modello matematico con un numero di parametri pari alle k

coppie di coordinate individuate dai dati osservati. Questo implica che il

modello interpolante non è facilmente interpretabile per valori diversi da quelli

osservati e non è parsimonioso nel senso che dipende da un numero di

parametri elevato.

2. Imponendo che la funzione interpolante si approssima il meglio possibile alle

coppie di coordinate osservate si rende necessario definire un criterio di

ottimizzazione che restituisca la migliore funzione di interpolazione.

Questo secondo procedimento è il più utilizzato e per questo gli daremo maggior

risalto in quando sebbene i dati interpolanti siano affetti da errori, ci permette di

scegliere la più opportuna funzione che interpreta il fenomeno oggetto di studio.

È parsimonioso nel senso che non è necessario elevare il numero di parametri

da stimare, il che rende più facile l’interpretazione del fenomeno reale che si

vuole studiare.

Il metodo dei minimi quadrati

In questo metodo si ottiene stabilendo un criterio che minimizzi un’opportunità

funzione degli scostamenti. Il metodo più noto è il metodo dei minimi quadrati. Esso

impone come funzione degli scostamenti la somma degli scarti al quadrato. In

definitiva si tratta di risolvere un problema di ricerca del minimo di una funzione s-

variata (s- variabili) le cui soluzioni le indichiamo con 0 ,0 ,...,0 .

1 2 s

non parametrico

-L’approccio

-stima kernel univariata

Nella stima non parametrica non si fa alcuna assunzione a priori sulla distribuzione

da cui sono estratti i dati; questi vengono utilizzati attraverso tecniche inferenziali, per

stimare tutta la funzione di densità f(x).

Uno dei metodi non parametrici è la stima kernel. L’idea è quella di considerare una

funzione K, detta appunto kerne, simmetrica intorno a 0 e tale che .

浔

Spesso si utilizza come kernel una funzione di densità.

La quantità (x-X ) è detta bump perché ha la forma di una “gobba”; in tal modo

la stima è data dalla somma dei bump K rappresenta il kernel riscalato.

h è un parametro che determina la larghezza del bump ed è detto ampiezza di banda

o parametro di smooting.

Se si utilizza come kernel la normale standard avremo che il kernel riscalato sarà

una normale a media 0 e varianza h . Quindi h riveste lo stesso ruolo dello scarto

quadratico medio, ovvero all’aumentare di h aumeterà la larghezza della campana,

mentre un valore piccolo di h indica un funzione kernel molto concentrata intorno al

suo valore centrale e quindi una campana stretta e alta.

Stima kernel multivariata

Nel caso di stima kernel di una densità multidimensionale, le cose si complicano in

quanto non bisogna specificare un solo parametro di smoothing h, ma tutta una

matrice di ampiezza di banda H. Inoltre la scarsità dei dati in uno spazio

multidimensionale rende difficoltosa la stima.

In generale H è una matrice simmetrica completa che ci dà maggiore flessibilità e

quindi maggiore probabilità di avvicinarci alla funzione vera f da stimare.

È possibile avere due semplificazioni per H, entrambe hanno gli elementi fuori della

diagonale uguali a zero, nella prima semplificazione nella diagonale principale

abbiamo d valori di h , i = 1,….,d, nella seconda semplificazione gli elementi della

diagonale sono tutti uguali, abbiamo così un unico parametro h da stimare.

Capitolo 10

Quando ci esprimiamo in termini di statistica multivariata ci riferiamo allo studio delle

relazioni esistenti tra più caratteri osservati rispetto ad uno stesso fenomeno reale.

L’obiettivo è quello di studiare l’esistenza di reazioni di dipendenza o di associazione

tra diversi caratteri presi in esame su uno stesso fenomeno reale, nonché di

descrivere ed interpretare tali relazioni e di effettuare previsioni. Per analizzare le

relazioni causa- effetto non è possibile limitarsi allo studio delle singole distribuzioni

di frequenza ma sarà necessario analizzare contemporaneamente due o più

caratteristiche oss

Anteprima

Vedrai una selezione di 10 pagine su 48