Estratto del documento

Inferenza statistica

Introduzione

Per inferenza statistica si intende il processo che permette, noti i risultati/informazioni ottenute, quindi le caratteristiche del campione estratto (es. condizione professionali degli intervistati), di risalire alle caratteristiche dell’intera popolazione (per il momento incognite). Si parlerà di inferenza parametrica quando l’obiettivo di indagine è quello di acquisire informazioni su una o più caratteristiche specifiche (parametri appunto) della popolazione, quali media, varianza, ecc.

Data la definizione, va chiarito che tramite indagini inferenziali, i risultati ottenuti, per la natura dell’indagine, non sono mai certi, precisi, ma sono sempre soggetti ad errore, sì che il principale problema e obiettivo nell’inferenza sarà quello di utilizzare tecniche che consentano di ottenere risultati apprezzabili/affidabili, cioè con margini di errore che siano sostenibili nell’indagine in esame; procedimento che consiste in termini concettuali nel “calcolo del grado di affidabilità dei risultati ottenuti”.

La difficoltà o impossibilità di ricavare il carattere di interesse sull’intera popolazione è ciò che spinge lo statistico a ricorrere all’inferenza statistica piuttosto che alla statistica descrittiva; tuttavia le ragioni alla base di tale impossibilità possono essere molte:

  • Mancanza del tempo che sarebbe necessario per acquisire tali dati (capita spesso che le decisioni debbono essere prese in tempi brevi);
  • Mancanza di fondi/risorse finanziarie a sostenere una tale indagine;
  • Impossibilità di procedere con la rilevazione sull’intera popolazione: si pensi a quelle rilevazioni che avvengono per via sperimentale (la numerosità dei lanci che posso fare con un dado, costituenti il collettivo di un dato esperimento, possono essere infiniti);
  • Mancanza di necessità di conoscere l’esatto valore del parametro (es. la media della distribuzione) ma sufficiente bisogno di una sua approssimazione.

Popolazione

È indispensabile distinguere tra:

  • Popolazione fisica: corrisponde al collettivo di unità, finito o infinito, reale o ipotetico, del quali si è interessati a studiare un certo carattere.
  • Popolazione statistica: l’insieme delle caratteristiche quantitative o qualitative rilevate su ogni unità della popolazione fisica, con riferimento al carattere oggetto di interesse.

L’assunzione è che ogni elemento/unità della popolazione fisica venga descritta tramite una modalità del carattere oggetto di studio. La variabile casuale/aleatoria X è invece quella variabile la cui legge di probabilità (o distribuzione) F indica appunto il grado di verificabilità delle modalità x di X:

Esempio:

Si consideri la distribuzione di frequenza dei foglietti di un’urna che ne contiene 100:

  • { x: 10, 15 = 5}
  • P(X = x) = {0.4, 0.3, 0.3}

Possiamo adesso a scopo didattico considerare questa variabile “Tipo di foglietto estratto dall’urna” sotto due punti di vista:

  • Considero X come una variabile statistica e la relativa distribuzione di frequenza delle numerazioni dei foglietti;
  • Considero X come una variabile casuale generata estraendo a caso con ripetizione i foglietti e adottando tra l’altro una impostazione classica.

Mentre nel primo punto di vista il numero dei foglietti, contemporaneamente collocati nell’urna, risulta finito e pari a 100, nella seconda impostazione le modalità non sono contemporanee e le estrazioni, quindi le unità statistiche sono infinite.

Per parametro si intende la caratteristica numerica di sintesi della popolazione oggetto di studio, che chiaramente risulta non nota e di cui si vogliono acquisire informazioni tramite indagine inferenziale; parametro potrebbe ad es. essere una media, varianza, percentuale, la dimensione della popolazione, ecc.

Campionamento

Come accennato all’inizio, piuttosto che basare la propria indagine sull’intera popolazione è più opportuno considerarne solo una parte, quindi un campione, quale uno dei tanti possibili sottoinsiemi della popolazione. Requisito fondamentale del campione è la sua rappresentatività della popolazione in esame: un campione si definisce rappresentativo se rispecchia le proporzioni con le quali si presentano le modalità della popolazione: per soddisfare tale requisito è sufficiente scegliere in modo causale le unità che entreranno a far parte del campione, solo in tal modo il carattere oggetto di studio non sarebbe influenzato dalla scelta del campione, quello ottenuto sarà allora un c.d. Campione Casuale: se ad esempio per effettuare un sondaggio elettorale si intervistassero solo le persone che passano in una certa via, in cui è posta la sede di un partito, è chiaro che il sondaggio sarebbe distorto a favore di quel partito.

Proprietà dei rappresentatività dei campioni casuali: Si dimostra che “I campioni casuali determinati (con giudizio/tecnica) hanno massima probabilità di essere rappresentativi”.

Considerazione: Andiamo a fare 1000 estrazioni causali (o bernoulliane) con ripetizione. Procedendo con l’esperimento la c.d. legge dei grandi numeri ci dimostra la proprietà prima enunciata, secondo cui all'aumentare del numero delle prove fatte il valore della frequenza relativa tende al valore teorico della probabilità:

  • 10, frequenza relativa 0.70;
  • 20, frequenza relativa 0.20;
  • 30, frequenza relativa 0.10;

Risultati come si nota estremamente simili a quelli ottenuti utilizzando la impostazione classica. Possiamo allora affermare che il risultato della buona rappresentatività è dato dalla concordanza tra le probabilità e le frequenze relative delle modalità della variabile sotto esame, le quali tendono ad approssimare all’aumentare del numero degli esperimenti le probabilità e quindi a rendere rappresentative queste ultime.

Tipi di campioni

Esistono fondamentalmente due tipi di campioni:

  • Campione non probabilistico: campione in cui gli individui vengono scelti senza tenere conto della probabilità di ciascun individuo di appartenere al campione;
  • Campione probabilistico: campione in cui gli individui vengono scelti tenendo conto della probabilità nota di ciascun individuo di appartenere al campione.

Tra i vari tipi di campionamento probabilistico, adotteremo un solo tipo di campione casuale:

Campione casuale semplice con ripetizione (o Campione bernoulliano)

Definizione: Il Campione casuale semplice con ripetizione (o campione bernoulliano) è determinato attribuendo ad ogni unità statistica della popolazione oggetto di esame la stessa probabilità di essere estratta; ciò però non deve essere intesa come stessa probabilità attribuita ad ogni modalità della popolazione.

Formalizzazione campione bernoulliano o “n-pluo campione”: (X1, X2, … , Xn)

Requisiti: (X1, X2, … , Xn)

Requisiti di tale campione di dimensione n (formato da n v.c. “posto”):

  • Le variabili casuali/aleatorie che lo costituiscono sono stocasticamente indipendenti (l’esito di una rilevazione non deve influire sull’esito delle altre);
  • Ogni Xi è identicamente distribuita come la popolazione di partenza X.

Requisiti facilmente riassumibili nella sigla i.i.d.: le n variabili aleatorie sono assunte “identiche (come X) e stocasticamente indipendenti”.

In altri termini: X1, X2, … , Xn

Legge di distribuzione di probabilità

Essendo innanzitutto il vettore aleatorio composto da n v.c. i.i.d. ad esso sarà associata una legge di distribuzione di probabilità congiunta. In particolare se la popolazione è rappresentata da una v.c.:

  • Discreta, si tratta di funzione di probabilità congiunta del campione, la funzione: k∏ p(X1,…,Xn) = p(x1,…,xn) = ∏i=1k p(xi)
  • Continua, si tratta di funzione di densità congiunta del campione, la funzione: k∏ f(X1,…,Xn) = f(x1,…,xn) = ∏i=1k f(xi)

Realizzazione e spazio campionario

A seguito dell’osservazione, i valori delle variabili casuali posto costituenti il campione risultano noti e vengono chiamati realizzazione campionaria e indicati con (X1 = x1, X2 = x2, … , Xn = xn) = (x1, x2, … , xn)

Esempio:

Similmente all’esperimento con l’urna, presentiamo la realizzazione di un possibile campione di dimensione 5 (n=5): (10,5,10,15,10)

Da quanto visto fino ad ora so anche che la realizzazione della media campionaria riferita al 5-pluo campione è:

(x1 + x2 + x3 + x4 + x5)/5 = (10 + 5 + 10 + 15 + 10)/5 = 10

Probabilità di osservare un’osservazione

P(x1, x2, … , xn) = ?

Essendo le variabili posto “i.i.d.” (essendo in particolare incondizionate) allora la variabile congiunta/multivariata è data dal prodotto delle marginali:

  • n∏ P(x1, x2, … , xn) = P(x1) ∗ P(x2) ∗ … ∗ P(xn) = ∏i=1n P(xi)

In riferimento al precedente esempio:

  • n∏ P(10,5,10,15,10) = P(x1 = 10) ∗ P(x2 = 5) ∗ … ∗ P(xn = 10) = 0.4 ∗ 0.3 ∗ 0.4 ∗ 0.3 = 0.00576

Per spazio campionario si intende l’insieme di tutte le possibili realizzazioni, (X1, X2, … , Xn), del vettore casuale.

Esempio

In una popolazione finita di 6 famiglie si consideri la seguente variabile casuale: X: numero di televisori per famiglia. Variabile la cui distribuzione di probabilità poniamo sia:

  • { x: 0, 1, 2, 3, 4}
  • p(x): 1/6, 1/6, 1/3, 1/3

Supponiamo di estrarre dalla popolazione un campione bernoulliano di ampiezza 2, (X1, X2) :

Si considerino quindi le seguenti variabili casuali “posto”:

  • X1: esiti della 1ª estrazione = variabile casuale
  • X2: esiti della 2ª estrazione = variabile casuale

..dove..

  • { x1: 0, 1, 2, 3, 4}
  • p(x1): 1/6, 1/6, 1/3, 1/3

..e..

  • { x2: 0, 1, 2, 3, 4}
  • p(x2): 1/6, 1/6, 1/3, 1/3

Cioè le variabili posto hanno la stessa distribuzione di probabilità (o potrei dire anche di frequenza relativa) della variabile considerata sul collettivo.

Spazio campionario

Lo spazio campionario sarà dato allora dall’insieme di tutte le possibili coppie di elementi che possiamo estrarre, con ripetizione, dalla popolazione (o anche dall’insieme delle possibili realizzazioni del campione):

  • {(0,0), (0,2), (0,3), (0,4), (2,0), (2,2), (2,3), (2,4), (3,0), (3,2), (3,3), (3,4), (4,0), (4,2), (4,3), (4,4)}

Probabilità congiunta

La probabilità congiunta di estrazione di ogni realizzazione è determinabile come segue:

  • P(X1 = x1i ∩ X2 = x2j) = P(x1i) ∗ P(x2j)

..essendo il campione con ripetizione, come era stato a sua volta dimostrato, le variabili sono stocasticamente indipendenti, sì che..

  • P(x1i) ∗ P(x2j)

Andiamo adesso a determinare la legge di probabilità congiunta del campione bernoulliano di dimensione 2: essendo le variabili “posto” fra loro i.i.d. basta fare il prodotto tra le probabilità marginali della determinata modalità:

Statistica

Nell’ambito della statistica descrittiva la popolazione veniva spesso sintetizzata tramite opportuni indici di posizione (tra i principali la media e la mediana) e/o di variabilità. Chiaramente nell’ambito della inferenza statistica, anche le informazioni contenute in un campione possono essere anch’esse sintetizzate tramite una certa funzione campionaria o c.d. “statistica”.

Una qualunque funzione delle n variabili casuali costituenti il campione è detta Statistica quando non dipende da parametri non noti della popolazione (deve dipendere solo da parametri noti):

  • X1, X2, ..., Xn → g(X1, X2, ..., Xn)

Tra le principali statistiche:

  • Media campionaria: 1/ni=1n Xi
  • Momento campionario di ordine k: ∑i=1n Xik
  • Varianza campionaria: ∑i=1n (Xi - X̄)2

Distribuzione di campionamento della statistica

Si considerino tutti i possibili campioni casuali di ampiezza n estraibili da una data popolazione, con o senza remissione. Per ciascun campione posso calcolare una certa statistica, quale ad es. la media, varianza, ecc., che potrà variare da campione a campione. Ottengo in questo modo una “Distribuzione di campionamento della statistica”: è la distribuzione di tutti i possibili valori assumibili dalla statistica stessa, ricavati da campioni casuali di pari dimensione estratti dalla popolazione, a cui posso associare la relativa probabilità dell’evento.

Media campionaria

Definizione: Si consideri una popolazione con valore atteso e varianza rispettivamente:

  • μ = E(X)
  • σ² = V(X)

..estraendo da X un campione bernoulliano di ampiezza n, (X1, X2, … , Xn), sia la Media campionaria quella statistica:

  • 1/n ∑i=1n Xi = (X1 + X2 + … + Xn)/n

È determinata come si può vedere dalla sommatoria delle n variabili casuali “posto” costituenti il campione fratto la dimensione del campione stesso delle variabili “posto” diviso la dimensione del campione determinato. La Media Campionaria, come qualunque statistica del resto, è essa stessa una variabile casuale (casuale in quanto in base al campione considerato cambia di valore), definibile anche come variabile n-dimensionale (nell’esempio precedente bidimensionale); è inoltre la statistica più importante ed utilizzata nelle indagini statistiche.

Esempio

Calcolare la funzione di probabilità della media campionaria:

Ricollegandomi all’esempio precedente, volendo riassumere le informazioni campionarie contenute in (X1, X2) tramite la statistica, conoscendo anche la legge di probabilità congiunta del campione, posso calcolarmi prima la legge di probabilità congiunta della media campionaria e poi la funzione di probabilità della stessa:

Nota bene:

  • x1, x2 = 2,0 → x̄ = 1

Esempio:

Realizzazione media campionaria relativamente alle coppie (o legge di probabilità congiunta della media campionaria):

X1 = 0 X1 = 2 X1 = 3 X1 = 4
X2 = 0 0 1 1.5 2
X2 = 2 1 2 2.5 3
X2 = 3 1.5 2.5 3 3.5
X2 = 4 2 3 3.5 4

Funzione di probabilità della media campionaria:

  • { x̄: 0, 1, 1.5, 2, 2.5, 3, 3.5, 4}
  • p(x̄): 1/36, 1/12, 2/9, 6/36, 9/36, 9/36, 9/36, 1/36

Media aritmetica e varianza della Media campionaria

Per ottenere questi due risultati è però prima necessario considerare la generica combinazione lineare di n-variabili casuali “W” e determinarne media e varianza, per poi ricavarci tramite le tecniche di induzione algebrica la media e varianza della media campionaria.

Inizio regressione: ragionamento su combinazione lineare di n-variabili casuali:

Sia come detto:

  • W = a1X1 + a2X2 + … + anXn = ∑i=1n aiXi

..si tenga presente che per il momento non ci importa se le generiche variabili casuali “posto” siano fra loro “i.i.d.”..

Procediamo con il calcolo della media:

  • E(W) = E(a1X1 + a2X2 + … + anXn) = a1E(X1) + a2E(X2) + … + anE(Xn)

..considero adesso la somma delle variabili posto evidenziate, come un’unica variabile casuale “Y”, sì che otterrei..

  • E(W) = a1E(X1) + E(Y) = a1E(X1) + a2E(X2) + … + anE(Xn)

Analogamente prima considero la somma delle variabili posto evidenziate come un’unica variabile casuale “Y”, sì da ottenere..

..

Anteprima
Vedrai una selezione di 10 pagine su 68
Elementi di probabilità e statistica - Inferenza Statistica Pag. 1 Elementi di probabilità e statistica - Inferenza Statistica Pag. 2
Anteprima di 10 pagg. su 68.
Scarica il documento per vederlo tutto.
Elementi di probabilità e statistica - Inferenza Statistica Pag. 6
Anteprima di 10 pagg. su 68.
Scarica il documento per vederlo tutto.
Elementi di probabilità e statistica - Inferenza Statistica Pag. 11
Anteprima di 10 pagg. su 68.
Scarica il documento per vederlo tutto.
Elementi di probabilità e statistica - Inferenza Statistica Pag. 16
Anteprima di 10 pagg. su 68.
Scarica il documento per vederlo tutto.
Elementi di probabilità e statistica - Inferenza Statistica Pag. 21
Anteprima di 10 pagg. su 68.
Scarica il documento per vederlo tutto.
Elementi di probabilità e statistica - Inferenza Statistica Pag. 26
Anteprima di 10 pagg. su 68.
Scarica il documento per vederlo tutto.
Elementi di probabilità e statistica - Inferenza Statistica Pag. 31
Anteprima di 10 pagg. su 68.
Scarica il documento per vederlo tutto.
Elementi di probabilità e statistica - Inferenza Statistica Pag. 36
Anteprima di 10 pagg. su 68.
Scarica il documento per vederlo tutto.
Elementi di probabilità e statistica - Inferenza Statistica Pag. 41
1 su 68
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Giuseppe Di palma di informazioni apprese con la frequenza delle lezioni di Elementi di probabilità e statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Politecnica delle Marche - Ancona o del prof Mattioli Elvio.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community