Anteprima
Vedrai una selezione di 8 pagine su 33
Teoria statistica delle decisioni Pag. 1 Teoria statistica delle decisioni Pag. 2
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Teoria statistica delle decisioni Pag. 6
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Teoria statistica delle decisioni Pag. 11
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Teoria statistica delle decisioni Pag. 16
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Teoria statistica delle decisioni Pag. 21
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Teoria statistica delle decisioni Pag. 26
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Teoria statistica delle decisioni Pag. 31
1 su 33
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Teoria statistica delle decisioni (Inferenza statistica)

-> sulla base degli investimenti programmati quest’anno mi posso aspettare che il tasso di disoccupazione

decresca?

-> una determinata terapia sperimentata su un determinato numero di pazienti può essere considerata

efficace?

-> i prodotti che escono da una certa linea di produzione si possono ritenere conformi a certi standard di

qualità?

Partendo da pochi dati si vogliono comprendere le conseguenze più vaste e le conclusioni generali. Ci

poniamo problemi che non sono più di tipo deduttivo ma di tipo induttivo (inferenziale). Il ragionamento

deduttivo è un ragionamento nel quale si va dal generale al particolare (es. tutte le matricole del campus

Luigi Einaudi hanno un’età maggiore/uguale a 18 anni), il ragionamento induttivo è un ragionamento in cui

si parte dall’osservazione del particolare per giungere a una legge generale (a dire la verità questa non è

l’unica forma di ragionamento induttivo o inferenziale –dal latino duco/fero-, questa conoscenza non deve

necessariamente andare dal particolare al generale, potrebbe anche andare da un particolare osservato a

un altro particolare analogo osservabile futuro). Nel primo caso si tratta di inferenza strutturale, nel

secondo di inferenza predittiva. Es. di inferenza predittiva: si osserva l’andamento di un titolo di borsa per

un certo numero di giorni, dopo di che ciò che interessa non è tanto capire il meccanismo/la legge che sta

sotto ai valori dei titoli di borsa, interessa piuttosto prevedere sulla base dei dati passati quale sarà il valore

del titolo di borsa domani, nel breve periodo, nel medio periodo ecc. Es. di inferenza strutturale: a partire

da pochi dati osservati si vuole cercare di farsi un’idea su quale sia il meccanismo generatore di quei dati

(quale sia la legge che fa sì che quei dati si manifestino, quella che li genera = parent distribution).

Definizioni

Generale: è la cosiddetta “popolazione statistica” = l’insieme di tutte le unità statistiche che sono oggetto di

interesse (es: nello studio del reddito nazionale italiano la pop. statistica è la sommatoria di tutti coloro che

percepiscono un reddito in Italia). Un insieme la cui lista dei componenti è perfettamente definita, un

insieme dai limiti ben definiti, non sfumati. Il reddito nazionale = X rappresenta la popolazione target, la

popolazione obiettivo del mio studio (è difficile rintracciare tutti i veri redditi, perché c’è reddito nero, ci

sono i settori sommersi, le dichiarazioni false ecc. per es. è recente la notizia che si vuole considerare anche

il reddito prodotto dall’economia sommersa). La popolazione target non è detto che sia raggiungibile, la

popolazione statistica non è tutta osservata, ma solo osservabile. Ciò di cui disponiamo è un campione.

Quindi partiremo da un particolare per arrivare a un campione.

Particolare -> campione (un certo numero di osservazioni su un gruppo limitato di unità statistiche della

popolazione effettivamente accessibile al campionamento. Per es. nell’esempio del reddito ciò che è

accessibile sono le dichiarazioni dei redditi effettivamente consegnate dai redditieri, questo non

rappresenta la popolazione target ma la “popolazione campionata”).

Noi assumeremo per tutto il corso di teoria stat. delle decisioni che la popolazione obiettivo/target e la

popolazione campionata siano uguali (nella realtà non è detto che siano uguali ma esistono poi una serie di

correttivi per riaggiustare lo studio che saranno oggetto di studio di altri corsi). Il campione, in questo

corso, è un sottoinsieme di elementi che proviene dalla popolazione statistica ed è stato sottoposto

all’ipotesi che popolazione target e popolazione campionata siano uguali.

Es: supponiamo di voler indagare le abitudini di consumo degli individui residenti nel comune di Torino.

Questa è la popolazione target. È una popolazione obiettiva? Sì, perché all’anagrafe esiste la lista di tutti i

residenti nel comune di Torino, è un insieme definito. Nell’indagine però non ci sono le risorse economiche

e temporali per sondare tutte le abitudini di consumo dei residenti di Torino, per cui si ricorre a un

sottoinsieme, a un campione. Sul campione devo fare un’altra ipotesi importante, devo assumere che il

campione sia rappresentativo della popolazione. È un’ipotesi necessaria affinché i risultati abbiano senso.

Questo è un problema a parte rispetto a quello dell’identità fra popolazione target e popolazione

campionata. Bisogna adottare tecniche e metodi per far sì che il campione sia rappresentativo. Per

esempio, se l’intervista viene effettuata telefonicamente si rischia che nel campione rientrino solo

possessori di telefonia fissa e presenti sull’elenco telefonico. Se si fa solo in determinate ore si escludono

per esempio studenti e lavoratori ecc. Tutto questo viene affrontato in un corso a parte, nella teoria dei

campioni. In questo corso il campione è un input ed è già dato.

La popolazione statistica la indichiamo con una lettera maiuscola, l’unica cosa che cambia è che in statistica

descrittiva la X rappresentava la variabile statistica, ora non è più la collezione delle unità osservate, ma la

collezione delle unità statistiche potenzialmente osservabili ma in realtà non tutte osservate perché non vi

sono le risorse. Quindi la X sarà una variabile casuale/aleatoria. Perché questa cosa quando lì dentro ci sono

i redditi di tanti individui? E’ una variabile di cui non conosco la realizzazione osservata, ma tutte le possibili

osservazioni, non sappiamo quale determinazione assume, noi siamo in una posizione ex ante rispetto

all’osservazione di un certo numero di redditi che poi saranno i redditi campionati.

Generale = popolazione statistica = variabile aleatoria. Il campione è un insieme di osservazioni ripetute su

un fenomeno di interesse (es. il reddito). Ci sono varie modalità di osservazione (per es. con o senza

remissione). Noi assumeremo che gli elementi del campione vengano SEMPRE ESTRATTI CON

REIMMISSIONE/RIMESSA dalla popolazione. Questo comporta indipendenza dei risultati delle singole

estrazioni (stocasticamente indipendenti). Il campione concettualmente è un vettore di variabili casuali, che

sono ciascuna una copia identica rappresentativa della popolazione. (X1, X2, …, Xn) sono mutualmente

indipendenti, inoltre ciascun elemento del campione è perfettamente rappresentativo della popolazione (è

identico in distribuzione alla popolazione). n minuscolo = taglia o dimensione del campione.

Simbolo X senza nessun indice in basso è relativo alla popolazione, Xn sono gli elementi del campione

(ciascun elemento del campione è identico in distribuzione alla popolazione. Questo vuol dire che se

estraggo un elemento a caso dalla popolazione e ne osservo il reddito, a priori mi aspetto che i valori

possibili per il reddito di questo individuo abbiano la stessa legge di probabilità della popolazione,

dell’italiano tipo). Questo campione viene di solito brevemente descritto con la sigla iid (indipendenti e

identicamente distribuiti come la popolazione).

Partiremo sempre con “Dato un campione Xn iid dalla popolazione X”; vogliamo infatti farci delle idee sulla

legge di probabilità della popolazione.

Variabile statistica: lista di coppie x , f con i = 1,…,k costituite da: modalità distinte+frequenza associata a

i i

ciascuna modalità, disposte per convenzione dalla più piccola alla più grande in caso di qualitativi ordinabili

o quantitativi (perché a partire da questo si può costruire una f di ripartizione). Le fi sono tutte maggiori di

zero e minori di 1.

Variabile aleatoria/casuale:

Come le variabili casuali discrete e dotate di numero finito di modalità. (xi, pi) con i = 1, …, k.

Ciò che cambia è il punto di vista. Es. Non sono state intervistate tutte le persone presenti in classe ma si

estrae a caso e si associa a ogni modalità una probabilità maggiore di zero e minore di uno.

Mano a mano che la numerosità di individui di una popolazione aumenta, la differenza fra un

campionamento con reimmissione e uno senza reimmissione sfuma.

Inferenza predittiva = arrivo a Xn+1, Xn+2 (particolare)

Inferenza strutturale = p (x; parametro (i)) (generale) o f (x; parametro (i)) -> sono funzioni, la prima

X X

funzione di probabilità, la seconda funzione di densità di probabilità (nel caso continuo).

Entrambe possono essere riassunte dalla loro funzione di ripartizione F (x; theta)

X

per es. Be (theta) [Bernoulliana con parametro theta, vuol dire che la variabile x assume solo due valori X ->

x = 0 -> M oppure x = 1 ->F

1 2

k=2

p (x1) =p(0) = f -> frequenza dei maschi p(x2)=p(1)=f

M F

La Bernoulli rappresenta tutti i fenomeni diticotomici. La variabile X Bernoulliana è caratterizzata da (x;

X 1-X

theta) dove theta (1-theta) X=0,1

theta = prob (X=1)=f -> probabilità del successo o probabilità dell’1

F

1-theta = prob (X=0)= f M

Ma la stessa cosa si può fare con variabili continue (per es. la variabile Normale, che dipende dai parametri

media e varianza).

Noi faremo sempre inferenza strutturale, poi una volta stabilita la legge che genera le osservazioni useremo

l’inferenza predittiva per predire quali saranno determinate osservazioni future.

Ammorbidiamo le ip. Considereremo anche forme di campionamento più complesse, articolate (per

esempio campioni stratificati per cui non si pesca dall’urna semplicemente con remissione, ma tenendo

conto della composizione della popolazione, pescando da varie urne in modo da avere nel campione le

proporzioni della composizione della popolazione).

Il termine inferenza strutturale è antico e moderno. Attualmente per inferenza strutturale non si intende

solo inferenza quantitativa ma anche qualitativa ovvero della forma delle relazioni fra le variabili (è

diventata una cosa molto più estesa).

Inferenza quantitativa: si suddivide in inferenza parametrica e inferenza non parametrica.

L’inferenza parametrica: è quella nella quale della legge di probabilità della popolazione è nota la forma a

meno di un numero finito di parametri. Per esempio la forma della Funzione di ripartizione ha parametri (x;

theta) con theta ignoto. Vi è un numero finito di parametri incogniti.

Inferenza non parametrica: la forma della funzione di ripartizione è incognita. I parametri possono essere

noti o incogniti ma tanto è un problema secondario, perché tanto non si conosce la forma. Si scrive Fx con F

incognita, senza nemmeno indicare i parametri. Si può anche dire che la F è nota a meno di un numero

infinito di parametri (per esempio gli infiniti quantili). Noi ci limitiamo a dire che è incognita la forma della

funzione di ripartizione.

Esempio: se io estraessi da questa classe 10 persone per capire quale percentuale della classe ha superato

l’esame di statistica, come dovremmo formalizzare il problema? La variabile che mi interessa è Superato o

Non superato.

X può assumere valore 0 o valore 1 (insuccesso e successo) e sostanzialmente la legge di probabilità di

questa variabile aleatoria X è una Bernoulli, di parametro ϑ.

Be(theta) -> X 1-X

p(x; theta) = ϑ *(1- ϑ)

ϑ [0,1] X = 0,1

Vogliamo sapere il valore di ϑ = Pr (x=1) = f(x )=f(1)

2

ϑ € Θ (spazio parametrico)

Facciamo attenzione a qual è lo spazio parametrico ovvero che valore possono assumere i parametri.

E’ un problema di stima puntuale parametrica. Ovvero stabilire qual è il più plausibile dei valori del

parametro theta all’interno di Θ. Come faccio a stabilire qual è il più plausibile dei valori all’interno dello

spazio parametrico?

Θ = *0,1+

ϑ dov’è? Più vicino a zero, più vicino a uno, a 0.5?

Bisogna effettuare la scelta del miglior surrogato possibile per ϑ incognito.

La stima puntuale parametrica sarà il primo degli argomenti di cui ci occuperemo.

Altri problemi di cui ci occuperemo (indice del corso):

La stima per o mediante intervallo

Il test di ipotesi statistiche

Declinati sia in versione parametrica sia in versione non parametrica (la seconda molto meno).

Stima puntuale parametrica

Dettagli
A.A. 2015-2016
33 pagine
4 download
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher massimodragotto di informazioni apprese con la frequenza delle lezioni di Teoria statistica delle decisioni e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Carota Cinzia.