Teoria statistica delle decisioni

Name: Teoria statistica delle decisioni
Rating: 4.0 (2 reviews)
Author: massimodragotto

Revisionato il 18/04/2026

di massimodragotto

Publisher

Vota 4,0/5 (2)

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Appunti del corso di laurea in economia e statistica per le organizzazioni dell'università degli studi di Torino. Corso del secondo anno in teoria statistica delle decisioni, …

Esame Teoria statistica delle decisioni

Facoltà Economia

Dal corso del Prof. Carota Cinzia

Università Università degli studi di Torino

A.A. 2015-2016

33 pagine

4 download

Appunto

Scarica

Estratto del documento

Teoria statistica delle decisioni (Inferenza statistica)

-> sulla base degli investimenti programmati quest’anno mi posso aspettare che il tasso di disoccupazione

decresca?

-> una determinata terapia sperimentata su un determinato numero di pazienti può essere considerata

efficace?

-> i prodotti che escono da una certa linea di produzione si possono ritenere conformi a certi standard di

qualità?

Partendo da pochi dati si vogliono comprendere le conseguenze più vaste e le conclusioni generali. Ci

poniamo problemi che non sono più di tipo deduttivo ma di tipo induttivo (inferenziale). Il ragionamento

deduttivo è un ragionamento nel quale si va dal generale al particolare (es. tutte le matricole del campus

Luigi Einaudi hanno un’età maggiore/uguale a 18 anni), il ragionamento induttivo è un ragionamento in cui

si parte dall’osservazione del particolare per giungere a una legge generale (a dire la verità questa non è

l’unica forma di ragionamento induttivo o inferenziale –dal latino duco/fero-, questa conoscenza non deve

necessariamente andare dal particolare al generale, potrebbe anche andare da un particolare osservato a

un altro particolare analogo osservabile futuro). Nel primo caso si tratta di inferenza strutturale, nel

secondo di inferenza predittiva. Es. di inferenza predittiva: si osserva l’andamento di un titolo di borsa per

un certo numero di giorni, dopo di che ciò che interessa non è tanto capire il meccanismo/la legge che sta

sotto ai valori dei titoli di borsa, interessa piuttosto prevedere sulla base dei dati passati quale sarà il valore

del titolo di borsa domani, nel breve periodo, nel medio periodo ecc. Es. di inferenza strutturale: a partire

da pochi dati osservati si vuole cercare di farsi un’idea su quale sia il meccanismo generatore di quei dati

(quale sia la legge che fa sì che quei dati si manifestino, quella che li genera = parent distribution).

Definizioni

Generale: è la cosiddetta “popolazione statistica” = l’insieme di tutte le unità statistiche che sono oggetto di

interesse (es: nello studio del reddito nazionale italiano la pop. statistica è la sommatoria di tutti coloro che

percepiscono un reddito in Italia). Un insieme la cui lista dei componenti è perfettamente definita, un

insieme dai limiti ben definiti, non sfumati. Il reddito nazionale = X rappresenta la popolazione target, la

popolazione obiettivo del mio studio (è difficile rintracciare tutti i veri redditi, perché c’è reddito nero, ci

sono i settori sommersi, le dichiarazioni false ecc. per es. è recente la notizia che si vuole considerare anche

il reddito prodotto dall’economia sommersa). La popolazione target non è detto che sia raggiungibile, la

popolazione statistica non è tutta osservata, ma solo osservabile. Ciò di cui disponiamo è un campione.

Quindi partiremo da un particolare per arrivare a un campione.

Particolare -> campione (un certo numero di osservazioni su un gruppo limitato di unità statistiche della

popolazione effettivamente accessibile al campionamento. Per es. nell’esempio del reddito ciò che è

accessibile sono le dichiarazioni dei redditi effettivamente consegnate dai redditieri, questo non

rappresenta la popolazione target ma la “popolazione campionata”).

Noi assumeremo per tutto il corso di teoria stat. delle decisioni che la popolazione obiettivo/target e la

popolazione campionata siano uguali (nella realtà non è detto che siano uguali ma esistono poi una serie di

correttivi per riaggiustare lo studio che saranno oggetto di studio di altri corsi). Il campione, in questo

corso, è un sottoinsieme di elementi che proviene dalla popolazione statistica ed è stato sottoposto

all’ipotesi che popolazione target e popolazione campionata siano uguali.

Es: supponiamo di voler indagare le abitudini di consumo degli individui residenti nel comune di Torino.

Questa è la popolazione target. È una popolazione obiettiva? Sì, perché all’anagrafe esiste la lista di tutti i

residenti nel comune di Torino, è un insieme definito. Nell’indagine però non ci sono le risorse economiche

e temporali per sondare tutte le abitudini di consumo dei residenti di Torino, per cui si ricorre a un

sottoinsieme, a un campione. Sul campione devo fare un’altra ipotesi importante, devo assumere che il

campione sia rappresentativo della popolazione. È un’ipotesi necessaria affinché i risultati abbiano senso.

Questo è un problema a parte rispetto a quello dell’identità fra popolazione target e popolazione

campionata. Bisogna adottare tecniche e metodi per far sì che il campione sia rappresentativo. Per

esempio, se l’intervista viene effettuata telefonicamente si rischia che nel campione rientrino solo

possessori di telefonia fissa e presenti sull’elenco telefonico. Se si fa solo in determinate ore si escludono

per esempio studenti e lavoratori ecc. Tutto questo viene affrontato in un corso a parte, nella teoria dei

campioni. In questo corso il campione è un input ed è già dato.

La popolazione statistica la indichiamo con una lettera maiuscola, l’unica cosa che cambia è che in statistica

descrittiva la X rappresentava la variabile statistica, ora non è più la collezione delle unità osservate, ma la

collezione delle unità statistiche potenzialmente osservabili ma in realtà non tutte osservate perché non vi

sono le risorse. Quindi la X sarà una variabile casuale/aleatoria. Perché questa cosa quando lì dentro ci sono

i redditi di tanti individui? E’ una variabile di cui non conosco la realizzazione osservata, ma tutte le possibili

osservazioni, non sappiamo quale determinazione assume, noi siamo in una posizione ex ante rispetto

all’osservazione di un certo numero di redditi che poi saranno i redditi campionati.

Generale = popolazione statistica = variabile aleatoria. Il campione è un insieme di osservazioni ripetute su

un fenomeno di interesse (es. il reddito). Ci sono varie modalità di osservazione (per es. con o senza

remissione). Noi assumeremo che gli elementi del campione vengano SEMPRE ESTRATTI CON

REIMMISSIONE/RIMESSA dalla popolazione. Questo comporta indipendenza dei risultati delle singole

estrazioni (stocasticamente indipendenti). Il campione concettualmente è un vettore di variabili casuali, che

sono ciascuna una copia identica rappresentativa della popolazione. (X1, X2, …, Xn) sono mutualmente

indipendenti, inoltre ciascun elemento del campione è perfettamente rappresentativo della popolazione (è

identico in distribuzione alla popolazione). n minuscolo = taglia o dimensione del campione.

Simbolo X senza nessun indice in basso è relativo alla popolazione, Xn sono gli elementi del campione

(ciascun elemento del campione è identico in distribuzione alla popolazione. Questo vuol dire che se

estraggo un elemento a caso dalla popolazione e ne osservo il reddito, a priori mi aspetto che i valori

possibili per il reddito di questo individuo abbiano la stessa legge di probabilità della popolazione,

dell’italiano tipo). Questo campione viene di solito brevemente descritto con la sigla iid (indipendenti e

identicamente distribuiti come la popolazione).

Partiremo sempre con “Dato un campione Xn iid dalla popolazione X”; vogliamo infatti farci delle idee sulla

legge di probabilità della popolazione.

Variabile statistica: lista di coppie x , f con i = 1,…,k costituite da: modalità distinte+frequenza associata a

i i

ciascuna modalità, disposte per convenzione dalla più piccola alla più grande in caso di qualitativi ordinabili

o quantitativi (perché a partire da questo si può costruire una f di ripartizione). Le fi sono tutte maggiori di

zero e minori di 1.

Variabile aleatoria/casuale:

Come le variabili casuali discrete e dotate di numero finito di modalità. (xi, pi) con i = 1, …, k.

Ciò che cambia è il punto di vista. Es. Non sono state intervistate tutte le persone presenti in classe ma si

estrae a caso e si associa a ogni modalità una probabilità maggiore di zero e minore di uno.

Mano a mano che la numerosità di individui di una popolazione aumenta, la differenza fra un

campionamento con reimmissione e uno senza reimmissione sfuma.

Inferenza predittiva = arrivo a Xn+1, Xn+2 (particolare)

Inferenza strutturale = p (x; parametro (i)) (generale) o f (x; parametro (i)) -> sono funzioni, la prima

X X

funzione di probabilità, la seconda funzione di densità di probabilità (nel caso continuo).

Entrambe possono essere riassunte dalla loro funzione di ripartizione F (x; theta)

X

per es. Be (theta) [Bernoulliana con parametro theta, vuol dire che la variabile x assume solo due valori X ->

x = 0 -> M oppure x = 1 ->F

1 2

k=2

p (x1) =p(0) = f -> frequenza dei maschi p(x2)=p(1)=f

M F

La Bernoulli rappresenta tutti i fenomeni diticotomici. La variabile X Bernoulliana è caratterizzata da (x;

X 1-X

theta) dove theta (1-theta) X=0,1

theta = prob (X=1)=f -> probabilità del successo o probabilità dell’1

F

1-theta = prob (X=0)= f M

Ma la stessa cosa si può fare con variabili continue (per es. la variabile Normale, che dipende dai parametri

media e varianza).

Noi faremo sempre inferenza strutturale, poi una volta stabilita la legge che genera le osservazioni useremo

l’inferenza predittiva per predire quali saranno determinate osservazioni future.

Ammorbidiamo le ip. Considereremo anche forme di campionamento più complesse, articolate (per

esempio campioni stratificati per cui non si pesca dall’urna semplicemente con remissione, ma tenendo

conto della composizione della popolazione, pescando da varie urne in modo da avere nel campione le

proporzioni della composizione della popolazione).

Il termine inferenza strutturale è antico e moderno. Attualmente per inferenza strutturale non si intende

solo inferenza quantitativa ma anche qualitativa ovvero della forma delle relazioni fra le variabili (è

diventata una cosa molto più estesa).

Inferenza quantitativa: si suddivide in inferenza parametrica e inferenza non parametrica.

L’inferenza parametrica: è quella nella quale della legge di probabilità della popolazione è nota la forma a

meno di un numero finito di parametri. Per esempio la forma della Funzione di ripartizione ha parametri (x;

theta) con theta ignoto. Vi è un numero finito di parametri incogniti.

Inferenza non parametrica: la forma della funzione di ripartizione è incognita. I parametri possono essere

noti o incogniti ma tanto è un problema secondario, perché tanto non si conosce la forma. Si scrive Fx con F

incognita, senza nemmeno indicare i parametri. Si può anche dire che la F è nota a meno di un numero

infinito di parametri (per esempio gli infiniti quantili). Noi ci limitiamo a dire che è incognita la forma della

funzione di ripartizione.

Esempio: se io estraessi da questa classe 10 persone per capire quale percentuale della classe ha superato

l’esame di statistica, come dovremmo formalizzare il problema? La variabile che mi interessa è Superato o

Non superato.

X può assumere valore 0 o valore 1 (insuccesso e successo) e sostanzialmente la legge di probabilità di

questa variabile aleatoria X è una Bernoulli, di parametro ϑ.

Be(theta) -> X 1-X

p(x; theta) = ϑ *(1- ϑ)

ϑ [0,1] X = 0,1

Vogliamo sapere il valore di ϑ = Pr (x=1) = f(x )=f(1)

ϑ € Θ (spazio parametrico)

Facciamo attenzione a qual è lo spazio parametrico ovvero che valore possono assumere i parametri.

E’ un problema di stima puntuale parametrica. Ovvero stabilire qual è il più plausibile dei valori del

parametro theta all’interno di Θ. Come faccio a stabilire qual è il più plausibile dei valori all’interno dello

spazio parametrico?

Θ = *0,1+

ϑ dov’è? Più vicino a zero, più vicino a uno, a 0.5?

Bisogna effettuare la scelta del miglior surrogato possibile per ϑ incognito.

La stima puntuale parametrica sarà il primo degli argomenti di cui ci occuperemo.

Altri problemi di cui ci occuperemo (indice del corso):

La stima per o mediante intervallo

Il test di ipotesi statistiche

Declinati sia in versione parametrica sia in versione non parametrica (la seconda molto meno).

Stima puntuale parametrica

Dato un campione i.i.d. da X -> p (x; ϑ) ϑ € Θ

X

Come posso all’interno dello spazio parametrico Θ selezionare un “theta cappello” ?

Theta è un parametro incognito, ovvero un numero certo (reale) ma non noto

La X maiuscola in pedice è la variabile casuale (popolazione)

La x minuscola è un numero reale realizzazione (modalità) di una variabile casuale, in particolare della

variabile casuale X popolazione.

All’interno del corso di probabilità i parametri theta erano sempre dati, qua no (?)

“p” è la legge di probabilità della variabile casuale X,

la variabile casuale una funzione definita sullo spazio degli eventi che assume valori reali, quindi le sue

modalità sono sempre valori reali (per esempio, anche se ci interroghiamo sul fatto che uno abbia superato

o meno l’esame di statistica e le modalità saranno sì o no, ovvero qualitative, poi per trattarle le dovremo

trasformare in numeri reali 0 e 1). La legge di probabilità di una variabile casuale è misura della plausibilità

del verificarsi di ciascuna realizzazione possibile per la variabile stessa.

Theta col cappello sarà la risposta al nostro problema: non sappiamo quanto vale theta, vogliamo farci

un’idea su theta a partire dal campione e la stima che produciamo la indichiamo con theta cappello ovvero

il miglior surrogato di theta non noto.

Il campione lo indichiamo con (X1, X2, …, Xn)

Esempio 1) ESPERIMENTO: Il generico studente dentro a quest’aula ha superato sì o no l’esame di

Statistica? X 1-X

X -> Be (ϑ) -> p (x; ϑ) = ϑ (1-ϑ) X(0,1) Θ=[0-1]

X

Prob ,X=1-=Θ

Stima di ϑ = ϑcappello

Possiamo disporre di n osservazioni. n= dimensione campionaria

La distribuzione di probabilità della risposta di del primo studente è una Bernoulli con un parametro dato

dalla frequenza relativa di coloro che qui dentro hanno superato il corso di Statistica:

X -> Be(ϑ) -> p (x; ϑ) = p (x; ϑ)

1 X1 X

X -> Be(ϑ) -> p (x; ϑ) = p (x; ϑ)

2 X2 X

…

X -> Be(ϑ) -> p (x; ϑ) = p (x; ϑ)

n Xn X

Questo ci fa vedere che gli elementi del campione X1, X2 ecc. vanno pensati come copie identiche della

popolazione. Quindi se la popolazione è una Bernoulliana fatta in un certo modo, la distribuzione di tutti gli

elementi del campione è identica. Ciascun elemento del campione è una variabile casuale che ha una

propria realizzazione, la legge di probabilità del campione è uguale a quella della popolazione (questo vuol

dire identica distribuzione ed è identica perché il theta è sempre uguale).

Ora il problema

X | (X1, X2, … ,Xn) -> p (x1,x2,…,xn; ϑ) ovvero la legge di probabilità congiunta

(X1, X2, …, Xn) =1 =1

(; ) (; )

X | (X1, X2, … ,Xn) -> p (x1,x2,…,xn; ϑ) = =

(X1, X2, …, Xn)

Dobbiamo tener presente che (X1, …, Xn) = campione aleatorio = n-upla variabili casuali

e poi invece le realizzazioni (quando ottengo le risposte vere e propria) (x1, … xn) = campione osservato = n-

upla di numeri reali.

Problema: Accuratezza della stima. L’accuratezza della stima è misura della credibilità (affidabilità) delle

inferenze che produciamo. =1 /

La funzione campionaria t (X1, …, Xn) = X =

X (in realtà la sbarra sta sopra perché indica X medio -> stimatore di theta). La sua realizzazione si chiama

stima e si indica con la lettera minuscola corrispondente, ovvero valore reale assunto dalla variabile casuale

stimatore.

La domanda che ci facciamo è: n = 6, la somma con i che va da 1 a n=6 di X ;

La somma di 6 Bernoulliane indipendenti e identiche so come si distribuisce? Si indica con la freccia

serpentina

Il numero complessivo dei successi su 6 prove Bernoulliane iid come si distribuisce? Si distribuisce secondo

una binomiale. (RIPASSO: 1 definizione generale di variabile casuale; 2 variabile casuale Bernoulli Be (ϑ); 3

variabile casuale binomiale Bi (n, ϑ))

Alla domanda come si distribuisce la risposta è: il numero complessivo di successi ssu 6 prove bernoulliane

si distribuisce secondo una binomiale con n=6 e parametro incognito ϑ ovvero Bi(6, ϑ).

Noi sappiamo che la Bernoulli ?

0 P(0) = 1-ϑ

Be(ϑ) 1 P(1) = ϑ

Come si distribuisce il campione osservato? (questo è un passo intermedio)

A questa domanda la volta scorsa abbiamo risposto in generale dicendo: si distribuisce come p (x1,

X1…Xn

=1 (; )

…xn)= =

p (x1=0; x2=0; x3=1; x4=0; x5=1; x6=1) = (1- ϑ) * (1- ϑ) * (ϑ) * (1- ϑ) * (ϑ) * (ϑ) =

X1…X6 =6 =6

(1- ϑ)^ * (ϑ) ^ = (1- ϑ) ^3 * (ϑ)^3

=1 =1

Ma ora formalizziamo così utilizzando la binomiale: (passo conclusivo)

Bi (6, ϑ) = (n ) * ϑ^ * (1- ϑ)^n-

1 1

)

(

n! 6!

_________________ vuol dire che nell’esempio delle 6 prove ___

Anteprima

Vedrai una selezione di 8 pagine su 33