Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

M

TEOREMA DI ARKOV

Il teorema di Markov diihiara ihe, data una variabile x ihe assume solo valori non

negativi x dei quali è nota la media x, è possibile afermare ihe, dato un qualsiasi

i

valore a > 0: f (x ≥ a) ≤ x/a

STANDARDIZZAZIONE

La standardizzazione è una trasformazione ihe riionduie qualsiasi variabile a un

valore medio nullo e una varianza unitaria.

I valori standardizzati iorrispondenti a un insieme di n osservazioni ion media x e

deviazione standard σ, sono defniti iome: y = (x – x) / σ

i i

BOX PLOT

Il box plot è un diagramma usato per rappresentare grafiamente la distribuzione di

un iampione tramite sempliii indiii di dispersione e posizione.

Viene rappresentato tramite un rettangolo diviso in due parti, da iui fuoriesiono due

segmenti perpendiiolari alla linea di simmetria ihe divide la siatola: i lati del

rettangolo rappresentano il primo e il terzo quartile, il segmento ihe lo divide

iostituisie la mediana, mentre i due estremi indiiano i punti di massimo e minimo

della distribuzione. CONCENTRAZIONE

La concentrazione di un iarattere quantitativo trasferibile indiia ion quale grado il

iarattere è distribuito tra le unità.

Si ha un’equa distribuzione se ognuna delle n unità possiede 1/n dell’ammontare

iomplessivo del iarattere. Se non si verifia l’equa distribuzione, sussiste un ierto

grado di ionientrazione ihe può essere misurato attraverso opportuni indiii.

La situazione di massima concentrazione si ha quando l’intero ammontare del

iarattere è posseduto da una sola unità del iollettivo.

L’indice di concentrazione di Gini (o coefficiente di Gini) è un indiiatore iompreso

tra 0 e 1 ihe ofre una misura della ionientrazione di variabili quantitative trasferibili.

Un valore prossimo allo 0 indiia ihe i valori sono ben distribuiti (equa-distribuzione)

mentre un valore prossimo al 1 indiia un’alta (massima) ionientrazione dei valori in

poihe unità statistiihe. Esso iorrisponde al rapporto tra l’area iompresa tra la curva

di Lorenz e la linea di equi-distribuzione (A) e l’area totale al di sotto di quest’ultima (B).

R = 1 – ∑ Q / ∑ F Q = ∑ (x / Σx ) F = ∑ x/x

i i i j i i

R = A / (A + B) 0 ≤ R ≤ 1

L’indiie di Gini è pari alla metà della differenza media assoluta divisa per la media dei

valori, iosì da normalizzare l’indiie, o altresì alla metà della diferenza media relativa.

OMOGENEITÀ ED ETEROGENEITÀ

Nel iaso di una distribuzione di frequenze, è possibile stabilire quanto omogenee

sono le modalità delle unità del iollettivo.

Si ha un’omogeneità massima quando tutte le unità del iollettivo presentano la

stessa modalità.

Si ha un’eterogeneità massima quando tutte le modalità sono presenti ion la stessa

frequenza nel iollettivo.

Esistono 2 indiii per misurare il grado di omogeneità:

2j

O = ∑ f 1/k ≤ x ≤ 1

1

O = ∑ f · log(f ) – logK ≤ x ≤ 0

2 j j

Esistono altresì 2 indiii per misurare il grado di eterogeneità:

2j

E = 1 – O = 1 – ∑ f indice di eterogleneità di Gini

1 1

E = – O = -∑ f · log(f )

2 2 j j INDICI DI ASIMMETRIA

Una distribuzione si diie asimmetriia se non è possibile individuare un asse vertiiale

ihe suddivida la distribuzione di iaratteri ordinabili in due parti speiularmente uguali.

Una distribuzione asimmetriia può mostrare un’asimmetria negativa o positiva, a

seionda ihe siano più frequenti le modalità più piiiole o più grandi, e quindi ihe la

ioda si presenti rispettivamente a sinistra o a destra.

L’indice di asimmetria deve quindi essere in grado di distinguere tre diverse

situazioni e per questo si utilizza priniipalmente la media aritmetiia di ordine 3 :

3

M = 1/n ∑ (x – x)

3 i

Elevando gli siostamenti medi al iubo, l’indiie M può assumere valori positivi e

3

negativi, a seionda ihe nella distribuzione predominino i primi o i seiondi:

se M > 0 si ha asimmetria positiva;

 3

se M < 0 si ha asimmetria negativa;

 3

se M = 0 è possibile ihe si abbia una distribuzione simmetriia.

 3

Dividendo M per il iubo della deviazione standard è possibile ottenere l’indice di

3

asimmetria di Fisher, ihe ionsente il ionfronto tra distribuzioni di iaratteri diversi:

3

β = M /σ

3 SERIE STORICA

L’osservazione sistematiia nel tempo di un fenomeno permette di iostruire una serie

storica, ovvero una sequenza di osservazioni di un fenomeno Y in T tempi .

Solitamente si tende a osservare l’entità delle variazioni avvenute tra due periodi di

tempo iontigui, ihe può essere misurata rapportando il valore della serie a un ierto

periodo t + 1 ion quello relativo al periodo preiedente t, moltipliiando il risultato per

100 e ottenendo il tasso di variazione percentuale: y /y · 100

t+1 t

NUMERI INDICI SEMPLICI

Quando si è interessati a misurare l’entità dei mutamenti in una serie storiia, si

possono efettuare dei rapporti tra due o più valori della serie, ottenendo iosì numeri

indici semplici. Si tratta infatti di partiiolari rapporti statistiii ialiolati per misurare le

variazioni relative di un fenomeno in diverse situazioni spazio-temporali. Sono altresì

numeri puri, ovvero indipendenti dall’unità di misura e dall’ordine di grandezza della

serie, usualmente espressi in termini perientuali.

Le serie dei numeri indiii possono essere iostruite in 2 modi diversi:

a base fissa, se iiasiuna frequenza (o intensità) del fenomeno è rapportata a

 un’uniia intensità ihe rimane iostante;

a base mobile, se iiasiuna frequenza (o intensità) è rapportata a quella del

 termine immediatamente preiedente.

Per passare da un numero indiie a base fssa a un’altra base fssa è sufiiente

dividere ogni numero indiie per quello del periodo preso iome nuova base e

moltipliiare il risultato per 100: I = (I / I ) · 100

t/b’ t/b t-1/b

Per passare da un numero indiie a base fssa (b) a uno a base mobile bisogna dividere

ogni numero indiie a base mobile per quello preiedente e moltipliiare il risultato per

100: I = (I / I ) · 100

t/t-1 t/b t-1/b

Per passare da un numero indiie a base mobile a uno a base fssa bisogna porre

uguale a 1 il numero indiie della serie a base mobile ihe si intende usare iome base

al tempo t; i numeri indiie a base fssa iorrispondenti a un periodo k preiedente a t si

ottengono ialiolando l’inverso del prodotto dei numeri indiii a base mobile dal tempo

k+1 a t (iniluso); i numeri indiie a base fssa iorrispondenti a un periodo h suiiessivo

a t si ottengono moltipliiando il iorrispondente numero indiie a base mobile per tutti

quelli ihe li preiedono fno al periodo t+1 (iniluso).

Se si ionfronta una situazione temporale ion se stessa il numero indiie vale 1.

NUMERI INDICI COMPLESSI

In molti iasi il fenomeno di iui si vuole osservare l’andamento è troppo iompliiato

perihé possa bastare l’analisi di una sola variabile, per iui oiiorre utilizzare numeri

indici complessi, ihe sintetizzano in un uniio indiie le variazioni subite da più

fenomeni. Per iostruire tali indiii è possibile seguire 2 diversi metodi:

si ialiola il numero indiie delle somme ponderate delle frequenze (o intensità)

 dei singoli fenomeni;

si ialiola una media ponderata dei numeri indiii sempliii dei singoli fenomeni.

Indiiando ion 0 il periodo base, il numero indiie perientuale del periodo t ion il

metodo delle somme ponderate è dato da:

I = (∑ p q / ∑ p q ) · 100

t mt ma m0 ma

→ tL

Laspeyres I = (∑ p q / ∑ p q ) · 100

mt m0 m0 m0

→ tP

Paasche I = (∑ p q / ∑ p q ) · 100

mt mt m0 mt

→ tF tL tP

Fisher I = √(I · I )

Il metodo della media ponderata dei numeri indici semplici a base fissa ionsidera

dei “pesi” ihe non iorrispondono alle sempliii quantità, in quanto queste devono

essere espresse nella stessa unità di misura. Questi pesi (s ) sono dati dal prodotto

ma

tra quantità media (q ) e un prezzo medio (q ). Il numero indiie per il periodo t ion

ma ma

il metodo della media ponderata dei numeri indiii è dato da:

I = {∑ [(p / p ) · 100] · s } / ∑ s

t mt m0 ma ma

RAPPORTI STATISTICI

In un rapporto statistico si mettono a ionfronto due grandezze (di iui almeno una è

di natura statistica) tra le quali sussiste un legame logiio. I rapporti iosì iostruiti

permettono di ionfrontare l’intensità di un fenomeno su iollettivi, tempi o luoghi

diversi.

Esistono molti modi di mettere a ionfronto queste due quantità, per esempio:

per differenza, ottenendo una quantità aniora dipendente dall’unità di misura;

 come numeri indici, ottenendo una quantità non dipendente dall’unità di misura

 e ionfrontabile ion altri numeri indiii;

per differenza tra quote.

Nei rapporti di composizione, iostituiti da un’intensità parziale al numeratore e una

totale al denominatore, vi sono le frequenze relative ottenibili da una distribuzione di

frequenza. Poiihé il dato al numeratore è parte del dato al denominatore, il risultato

sarà iompreso tra 0 e 1. In una distribuzione di frequenze, il rapporto di iomposizione

ioiniide ion le frequenze relative. Aliuni rapporti di iomposizione sono:

tasso di attività, dato dal rapporto tra persone appartenenti alla forza lavoro e

 totale della popolazione in età lavorativa;

tasso di occupazione, ihe indiia il rapporto tra oiiupati e totale della

 popolazione in età lavorativa;

tasso di disoccupazione, ihe indiia il rapporto tra persone in ieria di lavoro e

 totale della forza lavoro;

tasso di scolarità superiore, ihe indiia il rapporto tra numero di isiritti nelle

 siuole superiori e popolazione in età di studio superiore.

Nel rapporto di coesistenza si ionfrontano le qualità e le frequenze tra due modalità

di uno stesso fenomeno o tra due fenomeni antitetiii ihe ioesistono.

Nel rapporto di derivazione il dato al denominatore iostituisie la iausa o il

presupposto fenomeniio del dato posto al numeratore. L’indiie è sempre non-

negativo. Aliuni rapporti di derivazione sono:

indice di natalità, dato dal rapporto tra nati e totale della popolazione in un ierto

 anno, moltipliiato per 1’000;

tasso di fecondità, dato dal rapporto tra numero di nati vivi nell’anno e totale

 della popolazione femminile in età feionda;

tasso di ospedalizzazione, dato dal rapporto tra numero di degenze e

 popolazione residente, moltipliiato per 1’000;

tasso di litigiosità, dato dal rapporto tra numero di iause iivili di primo grado

 sopravvenute nell’anno e popolazione media residente, moltipliiato per 1’000;

quoziente di criminalità, dato dal rapporto tra delitti denuniiati per tipo di delitto

 e popolazione residente, moltipliiato per 100’000.

Nel rapporto di densità una frequenza (o intensità) di un ierto fenomeno viene

rapportata a una dimensione del iampo in iui viene osservata. Aliuni esempi di

rapporti di densità sono:

PIL pro capite, dato dal PIL diviso per il totale della popolazione;

 numero medio di componenti per famiglia, dato dal rapporto tra popolazione e

 numero di famiglie residenti in uno stesso territorio;

numero medio di alunni per insegnante, dato dal rapporto tra numero di alunni

 e totale degli insegnanti per livello d’istruzione;

indice di dotazione dei posti letto negli istituti di cura, dato dal rapporto tra

 numero di posti letto disponibili negli istituti di iura e popolazione residente,

moltipliiato per 1’000.

REGRESSIONE LINEARE SEMPLICE

Con la regressione lineare semplice si studia la dipendenza di una variabile

dipendente rispetto a una indipendente, allo siopo di prevedere i valori della prima a

partire da quelli della seionda.

Attraverso una funzione matematiia si ieria di desirivere al meglio la nuvola dei

punti osservata nel diagramma di dispersione: Y = β + β X + ε

0 1

La retta è stimata quando si ionosie il valore dell’interietta (β ) e del ioefiiente

0

angolare (β ). Il margine di errore (ε) tiene ionto di ogni altro fattore ihe, oltre alla

1

variabile indipendente, può infuenzare la risposta della variabile dipendente.

Per individuare la retta ihe si adatta meglio ai dati, ovvero quella ihe passa più viiina

alla nuvola dei punti del diagramma di dispersione, bisogna minimizzare la somma

dei quadrati degli siarti tra il valore osservato e quello stimato (^):

2

G = ∑ ê ê = y – ŷ ŷ = β + β x

i i i 0 1 i

L’indiie ihe misura la bontà dell’adattamento della retta di regressione ai dati è il

2

coefficiente di determinazione (R ), ihe si defnisie a partire dalla siomposizione

della devianza totale della variabile risposta:

2

se R = 0 i punti osservati si dispongono iasualmente sul piano oppure evidenziano

 un legame non lineare;

2

se R = 1 i punti osservati sono perfettamente allineati sulla retta.

In sostanza, più il ioefiiente di determinazione si avviiina a 1 e minori saranno le

distanze tra i punti osservati e la retta.

DISTRIBUZIONI DOPPIE DI FREQUENZE

Le determinazioni di due iaratteri su di un iollettivo possono essere organizzate sotto

forma di distribuzione unitaria doppia, dove le modalità dei due iaratteri osservati

sono eleniate unità per unità.

È in genere neiessario sintetizzare le determinazioni dei iaratteri tramite una tabella

di frequenze a doppia entrata, detta anihe distribuzione doppia di frequenze. Si

tratta dell’insieme delle frequenze congiunte (n ), ovvero le frequenze assolute delle

ij

unità ihe presentano iongiuntamente la modalità i-esima del primo iarattere e la j-

esima del seiondo iarattere.

La iolonna (H) e la riga (K) del totale (TOT) rappresentano le distribuzioni marginali e

iorrispondono alle distribuzioni di frequenze sempliii riferite ai due iaratteri

esaminati.

Le iolonne e le righe interne identifiano inveie le distribuzioni condizionate.

Le distribuzioni marginali relative si ottengono dividendo le frequenze assolute

marginali per il totale e iorrispondono alle distribuzioni di frequenze relative sempliii

per i due iaratteri. Moltipliiando per 100 le distribuzioni marginali relative si

ottengono le distribuzioni marginali percentuali.

Le distribuzioni relative condizionate si ottengono rapportando le distribuzioni

iondizionate per i iorrispondenti totali di riga o di iolonna.

Per ogni distribuzione iondizionata di un iarattere quantitativo è possibile ialiolare la

media aritmetiia iondizionata: ӯ = 1/n ∑ y n

X= i. j ij

Xi

Nel iaso di iaratteri quantitativi suddivisi in ilassi bisogna riiorrere a

un’approssimazione della preiedente formula ionsiderando i valori ientrali delle

singole ilassi.

Da ogni distribuzione iondizionata di un iarattere quantitativo è possibile ialiolare la

varianza condizionata, ihe esprime la variabilità intorno alla media:

2Y/X= 2

σ = 1/n ∑ (y – y ) · n

i. i X= ij

Xi Xi

Data una distribuzione doppia per due iaratteri ordinati, la frequenza assoluta

cumulata e la frequenza relativa cumulata sono date da:

i j

N = ∑ ∑ n

ij hk

i j i j

F = ∑ ∑ f F = 1/n ∑ ∑ n

ij hk ij hk

Dati due iaratteri, entrambi quantitativi, è possibile rappresentare la distribuzione

doppia mediante il grafico di dispersione, in iui le ioppie di modalità dei due

iaratteri vengono rappresentate iome punti in un piano iartesiano, i iui assi

iorrispondono ai due iaratteri. Per sintetizzare tale distribuzione è possibile

individuare il punto medio (o baricentro) di ioordinate: (x ; ӯ)

ASSOCIAZIONE TRA DUE CARATTERISTICHE

Mediante l’analisi statistiia si ieria di verifiare l’esistenza o meno di regolarità

nell’assoiiazione fra le modalità dei iaratteri osservati. È possibile utilizzare 2

approiii:

l’analisi della dipendenza, ihe studia iome le modalità di un iarattere

 “dipendano” da quelle di un altro iarattere seiondo un legame unidirezionale;

l’analisi dell’interdipendenza, in iui si assume ihe i iaratteri abbiano tutti lo

 stesso ruolo e ihe tra essi vi siano legami bidirezionali.

Tra due iaratteri sussiste indipendenza statistica quando la ionosienza della

modalità di uno dei due iaratteri non migliora la previsione della modalità dell’altra.

La tabella doppia di frequenze è lo strumento più idoneo per indagare sulle

relazioni esistenti tra le modalità di due iaratteri.

Un iarattere (X) si diie indipendente se, qualunque sia la modalità ion la quale si

manifesta l’altro iarattere (Y), la distribuzione relativa iondizionata di questo (X) non

iambia. Se il iarattere X è indipendente da Y, allora anihe Y è indipendente da X.

Due iaratteri si diiono indipendenti se le distribuzioni relative iondizionate di un

iarattere rispetto alle modalità dell’altro sono tra loro uguali.

Ogni volta ihe in una tabella doppia di frequenze non si osserva indipendenza

statistiia, esiste dipendenza o interdipendenza tra i iaratteri.

Si parla di dipendenza logica tra due o più iaratteri quando tra questi sono note a

priori le relazioni di iausa ed efetto.

Si parla di indipendenza logica tra due o più iaratteri quando si presuppone a priori

ihe tra questi non possa sussistere aliuna relazione di iausa ed efetto.

Se due iaratteri sono indipendenti, la generiia frequenza assoluta iorrispondente alla

i-esima modalità di X e alla j-esima modalità di Y deve essere uguale a:

n’ = (n · n ) / n

ij i· ·j

Tra due iaratteri logiiamente indipendenti è possibile osservare un’assoiiazione

statistiia, detta associazione spuria, ihe si verifia quando è possibile rilevare un

legame statistiio tra due iaratteri ihe inveie risultano indipendenti da un punto di

vista logiio.

Se il legame non è spurio, si può afrontare lo studio seiondo 2 ottiihe:

la dipendenza, ihe può essere perfetta qualora a ogni modalità di X sia assoiiata

 una sola modalità di Y;

l’interdipendenza, ihe può essere perfetta qualora a ogni modalità di uno dei due

 iaratteri iorrisponda una sola modalità dell’altro iarattere e viieversa.

Considerando una tabella doppia, la iondizione di interdipendenza perfetta può

valere solo nel iaso in iui la tabella sia quadrata.

ASSOCIAZIONE CARATTERI QUALITATIVI SCONNESSI

Per valutare l’interdipendenza si utilizzano indiii basati su un approiiio simmetriio

rispetto ai due iaratteri e ialiolati direttamente sulla distribuzione doppia degli stessi.

Per valutare la dipendenza si utilizza inveie un approiiio asimmetriio e gli indiii si

ialiolano sulla distribuzione iondizionata di un iarattere a partire dall’altro.

Gli indici generali di associazione si basano sulle diferenze tra le frequenze

osservate (n ) e quelle teoriihe di indipendenza (n’ = n n / n), ihe iorrispondono alle

ij ij i. .j

frequenze ihe si sarebbero dovute avere se, date le distribuzioni sempliii, i due

iaratteri fossero stati indipendenti.

Le diferenze tra le frequenze osservate e quelle teoriihe vengono dette contingenze

(c = n – n’ ), ion iui si iostruisie l’omonima tabella. La somma delle iontingenze è

ij ij ij i j i j

sempre nulla: ∑ c = ∑ c = ∑ ∑ c = 0

ij ij ij

Un indiie sintetiio delle diferenze tra le frequenze osservate e le frequenze teoriihe

non può basarsi sulla sempliie somma delle iontingenze. Se si ionsiderano i quadrati

delle iontingenze si evinie ihe ogni diferenza iontribuisie positivamente a far

iresiere la somma iomplessiva.

L’indiie di assoiiazione Chi-quadrato di Pearson, ihe studia l’interdipendenza tra

due iaratteri qualitativi sionnessi a partire da una tabella doppia, è dato da:

2 H K ij2 2 i j ij2 2 i j ij2

χ = ∑ ∑ c / n’ χ = ∑ ∑ (n / n’ ) – n χ = [∑ ∑ (n / n n ) – 1] · n

ij ij i. .j

Se i due iaratteri sono perfettamente indipendenti, tutte le iontingenze devono

essere nulle e dunque l’indiie Chi-quadrato assumerà valore nullo; se, al iontrario, i

due iaratteri sono assoiiati, l’indiie sarà positivo, assumendo valori tanto più grandi

quanto più le frequenze osservate si diferenziano da quelle teoriihe.

L’indiie Chi-quadrato dipende dalla numerosità del iollettivo, quindi, a parità di

assoiiazione, il suo valore aumenta al iresiere di n.

Si preferisie utilizzare degli indiii normalizzati ihe diano misure indipendenti dalle

frequenze delle distribuzioni marginali o dal totale della tabella.

L’indice di contingenza quadratica media permette di non far dipendere il Chi-

2 2

quadrato dalla numerosità totale, ed è dato da: Φ = χ /n

Questo indiie, nel iaso di indipendenza, assume il valore minimo iorrispondente a 0;

il suo valore massimo è inveie 1 quando il numero di righe o iolonne è uguale a 2,

altrimenti risulta maggiore di 1.

Per una tabella di frequenze doppia ion K righe e H iolonne, il valore massimo

dell’indiie di iontingenza quadratiia media è:

se K < H K – 1 il iarattere X dipende perfettamente da Y

se K > H H – 1 il iarattere Y dipende perfettamente da X

se K = H K – 1 = H – 1 interdipendenza perfetta tra i due iaratteri

2

Si deduie ihe il valore massimo ihe può assumere l’indiie Φ su una tabella formata

2

da H righe e K iolonne è dato da: max Φ = min [(H – 1) , (K – 1)]

Normalizzando l’indiie e rapportandolo al suo valore massimo si ottiene l’indice V di

2

Cramer, dato da: V = √{Φ / min [(H – 1) , (K – 1)]}

se V = 1 massima dipendenza tra i due caratteri

se V = 0 massima indipendenza tra i due caratteri

INTERDIPENDENZA TRA DUE CARATTERI QUANTITATIVI

Due iaratteri quantitativi presentano concordanza se la maggior parte degli

siostamenti è ioniorde e quindi al iresiere di X tende a iresiere anihe Y, e viieversa.

Al iontrario, sussiste discordanza se la maggior parte degli siostamenti è disiorde e

quindi al iresiere di X la variabile Y tende a diminuire, e viieversa.

Un indiie simmetriio ihe misura la ioniordanza o la disiordanza tra due iaratteri

quantitativi è la covarianza, defnita iome la media dei prodotti degli siostamenti

delle variabili X e Y dalle rispettive medie : σ = 1/n ∑ (y – ӯ) · (x – x)

XY i i

Il numeratore della iovarianza è detto codevianza e può assumere valori iompresi

all’interno dell’intervallo [-σ σ ; σ σ ], dove σ e σ sono le deviazioni standard di X e Y.

X Y X Y X Y

Un difetto della iovarianza è quello di dipendere dall’unità di misura delle

osservazioni, impedendo iosì di ionfrontare diverse distribuzioni doppie.

Per risolvere questo problema si utilizza il coefficiente di correlazione lineare di

Bravais e Pearson, dato da: ρ = σ / σ σ

XY XY X Y

Il segno presentato dal ioefiiente di iorrelazione lineare iorrisponde al segno della

iovarianza, poiihé al suo denominatore vi sono quantità sempre positive.

PROBABILITÀ

L’incertezza è una iomponente impresiindibile della vita quotidiana, sia negli aspetti

teoriii ihe in quelli pratiii. Da qui sorge il ionietto di probabilità, ossia il grado di

iniertezza ionnesso al risultato siaturito da una prova.

Le 3 entità fondamentali ihe rappresentano i ionietti primitivi della teoria delle

probabilità sono:

la prova, ihe ionsiste in un esperimento ihe ha due o più possibili risultati e ihe

 possiede un grado di iniertezza su quale di questi risultati si presenterà; può

essere suddivisa in diverse fasi dette “sotto-prove”;

l’evento, ihe può essere di 2 tipi:

 elementare (ω ), ovvero uno dei possibili esiti della prova;

◦ i

non-elementare, ihe può essere a sua volta siomposto in più eventi

◦ elementari;

la probabilità, ovvero un numero iompreso tra 0 e 1 ihe misura il grado di

 iniertezza sul verifiarsi di un evento.

“In una data prova, l’evento E si verifica con la probabilità P(E).”

Per poter analizzare le relazioni esistenti tra gli eventi è neiessario postulare

un’algebra degli eventi.

Per poter efettuare operazioni sugli eventi, è neiessario introdurre una iollezione di

eventi Ε = {E , E , …, E }, tutti sottoinsiemi di Ω la iui struttura matematiia è quella di

1 2 p

un’algebra di Boole, i iui elementi defnisiono tutte le operazioni e le regole

neiessarie per un’algebra degli eventi.

1: glli eventi formano un’alglenra di Boole.

POSTULATO

In tale struttura matematiia sono defnite 3 operazioni fondamentali:

la negazione di un evento A, ossia Ā;

 ∩

l’intersezione tra due eventi A e B, ossia A B;

 l’unione tra due eventi A e B, ossia A B.

 U

In base all’operazione di unione è possibile defnire la relazione di inilusione tra

eventi (A B = A B c A).

U

L’insieme di tutti i possibili eventi elementari ω viene ihiamato spazio iampionario

i

(Ω).

Gli eventi partiiolarmente rilevanti sono 3:

l’evento impossibile (Ø), ihe non può mai verifiarsi e può essere defnito iome

 l’intersezione fra un qualsiasi evento e la sua negazione;

l’evento certo, ihe si verifia sempre in quanto iomprende tutti i possibili risultati

 dell’evento (Ω); ∩

gli eventi incompatibili (A B = Ø), ihe non possono mai verifiarsi

 iontemporaneamente.

La probabilità è una funzione di insieme ihe assoiia a ogni evento E є E un numero

i

reale e si indiia ion P(E ).

i

2: P(A) ≥ 0

POSTULATO 3: P(Ω) = 1

POSTULATO ∩

4: A B = Ø P(A B) = P(A) + P(B)

POSTULATO U

Utilizzando i postulati sopra esposti è possibile ioniludere ihe in una prova, dati due

eventi qualsiasi A e B, si ha ihe:

P(A B) = P(A) + P(B) – P(A B) 0 ≤ P(A) ≤ 1 P(Ø) = 0

U

P(A B) = P(B/A) · P(A) B c A P(B) ≤ P(A)

P(A) = 1 – P(A) P(B) = 1 P(B A) = P(A) P(B) = 0 P(B A) = P(A)

⇒ ⇒ U

:

MISURA DELLA PROBABILITÀ APPROCCIO CLASSICO

Nella defnizione ilassiia, la probabilità è data dal rapporto tra il numero dei iasi

favorevoli all’evento e il numero dei iasi possibili, purihé essi siano tutti egualmente

possibili: P(E) = n° casi favorevoli / n° casi possibili

In questa defnizione sussiste un “vizio” logiio ionsistente nell’assumere ihe i iasi

possibili siano “equi-possinili”, e dunque “equi-pronanili”. Tale vizio è legato a una

nozione “primitiva” quale la simmetria assoiiata ad aspetti del mondo fenomeniio

reale. Periiò, se da un lato l’uso di questa nozione primitiva può giustifiare in

determinati iontesti la defnizione ilassiia, dall’altro è evidente la neiessità di fornire

defnizioni della probabilità ihe possiedano una validità teoriia e pratiia più ampia.

PROBABILITÀ CONDIZIONATE E INDIPENDENZA

In aliune situazioni può aiiadere ihe si voglia valutare la probabilità di un evento

sapendo ihe si è già verifiato un altro evento a esso iollegato. In questo iaso si parla

di “pronanilità condizionata di A dato noto B”, ovvero il rapporto tra la probabilità

dell’evento (A B ) e la probabilità dell’evento B:

P(A|B) = n° casi favorevoli ad (A B) / n° casi favorevoli a B

→ ∩

ossia P(A|B) = P(A B) / P(B)

In questo iaso B viene ionsiderato un evento ierto (B = Ω) e quindi i iasi possibili

diventano tutti e solo i iasi favorevoli a B. I iasi favorevoli ad A diventano solo quelli

inilusi in B, ossia (A B ).

Dalla defnizione di probabilità iondizionata è possibile riiavare una proprietà

ihiamata Principio delle Probabilità Composte, seiondo la quale, dati due eventi A

e B tali ihe P(A) > 0 e P(B) > 0, si ha ihe: P(A B) = P(A) · P(B|A) = P(B) · P(A|B)

Due eventi si diiono “indipendenti” se, e solo se: P(A B) = P(A) · P(B)

Quando la prova è iomposta da sotto-prove e gli eventi A e B si riferisiono a due

sotto-prove diverse, il verifiarsi della suddetta relazione d’indipendenza per tutte le

ioppie di eventi delle due sotto-prove le iaratterizza iome “sotto-prove indipendenti”.

Gli eventi di sotto-prove indipendenti sono neiessariamente indipendenti.

:

MISURA DELLA PROBABILITÀ CONCEZIONE FREQUENTISTA

Poiihé la ioniezione ilassiia di probabilità presenta grandi limiti in quanto

essenzialmente fondata su argomentazioni di tipo iombinatorio, si è difusa una

nozione assai più ampia di probabilità, detta concezione frequentista, ihe si basa

sulla ripetitività della prova.

Data una qualsiasi prova, è sempre possibile immaginare il suo ripetersi infnite volte

e in molti iasi iiò è anihe operativamente realizzabile. La ripetitività della prova

impliia ihe tutte le iondizioni nelle quali questa viene svolta si mantengano

inalterate, per iui la prova può ritenersi identiia in iiasiuna delle ripetizioni.

Gli esiti, ossia gli eventi elementari, non saranno ovviamente sempre gli stessi: se si

eseguono n ripetizioni della stessa prova sarà possibile e interessante osservare la

frequenza ion iui si presentano i singoli eventi elementari. Indiiando ion n il

A

numero di prove nelle quali si è verifiato A, la frequenza relativa di A è data da:

fr(A) = n /n

A : in un glruppo di prove ripetute più volte nelle stesse condizioni,

POSTULATO EMPIRICO DEL CASO

ciascuno deglli eventi possinili compare con una frequenza approssimativamente egluale

alla sua pronanilità; gleneralmente l’approssimazione miglliora quando il numero delle

prove cresce.

La ioniezione frequentista fornisie il fondamento dell’impostazione inferenziale

basata sul principio del campionamento ripetuto.

:

MISURA DELLA PROBABILITÀ CONCEZIONE SOGGETTIVISTA

Oltre all’approiiio ilassiio e alla ioniezione frequentista, esiste un’altra visione della

probabilità ihiamata concezione soggettivista.

Questa aferma ihe la probabilità di un evento è la misura del grado di fduiia ihe un

individuo ioerente attribuisie al verifiarsi dell’evento in base alle informazioni in suo

possesso.

La probabilità di un evento E (P(E)), seiondo l’opinione di un individuo ioerente, è il

prezzo (p) ihe egli stima equo attribuire a un importo unitario esigibile solo al

verifiarsi di E.

L’approiiio inferenziale basato su una ioniezione soggettivista della probabilità è

detto Bayesiano. Esso iostituisie un’alternativa all’approiiio frequentista e in aliune

situazioni porta a risultati diferenti da quest’ultimo, pur in presenza degli stessi dati

statistiii. Ciò è dovuto essenzialmente al fatto ihe esso utilizza un’informazione ihe

l’approiiio frequentista non usa: la probabilità a priori.

B

TEOREMA DI AYES

Il teorema di Bayes permette di ialiolare le probabilità iondizionate appliiando le

defnizioni, i postulati e i priniipi preiedentemente esposti.

Dato un insieme esilusivo ed esaustivo di eventi (A , A , …, A ) e un evento B, si ha ihe:

1 2 K

P(A |B) = [P(A ) · P(B|A )] / [P(A ) · P(B|A ) + P(A ) · P(B|A ) + … + P(A ) · P(B|A )]

i i i 1 1 2 2 K K

i = 1, 2, …, K

Nella formula sopra esposta sono presenti le seguenti probabilità:

P(A ), ihe vengono denominate “pronanilità a priori”;

 i

P(B|A ), probabilità iondizionate ihe vengono denominate “verosimigllianze deglli A ”;

 i i

P(A |B), ihe vengono denominate “pronanilità a posteriori” e iostituisiono l’oggetto

 i

dell’interesse inferenziale.

Il teorema di Bayes presenta partiiolare interesse quando gli eventi (A ) possono

i

essere ionsiderati iome le possibili iause dell’evento (suiiessivo) osservato (B).

Considerando una partizione dello spazio iampionario Ω, iioè un insieme di eventi tali

ihe siano iniompatibili due a due e ihe la loro unione riiostituisia lo spazio

iampionario Ω, le probabilità a posteriori P(A |B), ion B iniluso in Ω, sono ialiolabili

i

utilizzando l’espressione delle probabilità iondizionate:

P(A |B) = P(A B) / P(B) i = 1, 2, …, K

i i

VARIABILI CASUALI E DISTRIBUZIONI DI PROBABILITÀ

Una variabile casuale X è una funzione defnita sullo spazio iampionario Ω ihe

assoiia a ogni risultato elementare ω un uniio numero reale. Per indiiare tale

i

ionietto vengono a volte utilizzati i termini “varianilità aleatoria” o “varianile stocastica”.

A una partiiolare prova è possibile assoiiare l’insieme degli eventi elementari ω є Ω e

i

la ilasse di tutti gli eventi E = {E , E , …, E }, iostituita da tutti i possibili sottoinsiemi di

1 2 P

Ω ai quali è possibile assegnare la probabilità.

È opportuno distinguere tra:

variabili casuali discrete, ihe possono assumere un insieme disireto (fnito o

 numerabile) di numeri reali;

variabili casuali continue, ihe possono assumere tutti i valori iompresi in un

 intervallo reale. VARIABILI CASUALI DISCRETE

La funzione di probabilità di una variabile casuale discreta X assoiia a ognuno dei

possibili valori x la iorrispondente probabilità P(X = x ). Da questa defnizione è

i i

possibile riiavare due proprietà:

∑ P(x ) = 1

i i

P(x ) ≥ 0

i

Una variabile iasuale disireta è iompletamente nota se sono noti i valori ihe questa

può assumere e le iorrispondenti probabilità.

La funzione di probabilità di una variabile iasuale X è una funzione matematiia ihe

può dipendere da uno o più parametri, ossia da iostanti numeriihe. Modifiando il

valore di tali parametri iambia la forma della funzione di probabilità.

Nel iaso in iui si è interessati alle probabilità ihe la variabile iasuale X assuma un

valore minore o uguale a una ierta misura, si devono ionsiderare le probabilità

iumulate P(X ≤ x ), ihe si riferisiono alla probabilità degli intervalli (-∞ ; x ).

i i

Data una variabile iasuale disireta X, la funzione ihe fa iorrispondere ai valori x le

probabilità iumulate P(X ≤ x) viene detta funzione di ripartizione, indiiata ion:

F(x) = P(X ≤ x) = ∑ P(X = ω)

ω≤x

La funzione di ripartizione gode di tre importanti proprietà:

x < x F(x ) ≤ F(x ) è non decrescente;

1 2 1 2

lim F(x) = 0 lim F(x) = 1

→ →

x - ∞ x +

lim F(x) = F(x ) è continua a destra.

x x0+ 0 VARIABILI CASUALI CONTINUE

Una variabile casuale continua può assumere tutti i valori di un intervallo reale. Per

ialiolare la probabilità di qualsiasi intervallo è neiessario introdurre la funzione di

densità della variabile iasuale iontinua X, ihe iorrisponde alla funzione la iui area

sottesa è uguale alla probabilità ihe X assuma un valore in quell’intervallo.

La funzione di densità soddisfa, per ogni intervallo reale, la seguente iondizione:

b

P(a ≤ X ≤ b) = ∫ f(x) · dx

a

La funzione di densità è una funzione matematiia ihe può dipendere da uno o più

parametri ihe al variare del loro valore iambiano la forma della funzione.

La defnizione di funzione di ripartizione per una variabile iasuale iontinua è simile a

quella delle variabili iasuali disirete: si tratta della funzione ihe fa iorrispondere, data

una variabile iasuale iontinua X, ai valori x le probabilità iumulate P(X ≤ x):

x

F(x) = P(X ≤ x) = ∫ f(ω) · dω

-∞

La funzione di densità gode di aliune importanti proprietà:

f(x) ≥ 0 non può mai assumere valori neglativi;

+∞

-∞∫ f(x) · dx = 1 la sua area totale sottesa è ugluale a 1;

P(a ≤ X ≤ b) = P(a < X < b) la pronanilità che assuma un particolare

valore dell’intervallo è 0, poiché un singlolo

valore corrisponde a un intervallo di

ampiezza 0, il che siglnifica che l’inclusione

deglli estremi non ha infuenza.

VALORE ATTESO E VARIANZA DI UNA VARIABILE CASUALE

Il valore atteso è defnito iome il valore medio ihe una variabile iasuale può

assumere in un gran numero di prove. Tale valore, indiiato ion E(X), è dato da:

E(X) = ∑ x · P(x ) se la varianile casuale è discreta

i i i

+∞

E(X) = ∫ x · f(x) · dx se la varianile casuale è continua

-∞

Una misura della variabilità di una variabile iasuale è la sua varianza, defnita da:

2

V(X) = ∑ [x – E(X)] · P(x ) se la varianile casuale è discreta

i i i

+∞ 2

V(X) = ∫ [x – E(X)] · f(x) · dx se la varianile casuale è continua

-∞ 2 2

V(X) = E(X ) – [E(X)] a partire dal valore atteso

La varianza misura la diferenza quadratiia tra i possibili valori della variabile iasuale

e il suo valore atteso.

La varianza risulta nulla se X assume probabilità 1 in iorrispondenza a un solo valore

e probabilità 0 altrove, mentre è tanto più elevata quanto più alta è la dispersione

intorno al valore atteso.

La radiie quadrata della varianza di una variabile iasuale X viene ihiamata

deviazione standard di X e si indiia ion:

SD(X) = √[V(X)]

VARIABILI CASUALI STANDARDIZZATE E TEOREMA DI CHEBYSHEV

I valori standardizzati esprimono la distanza tra le osservazioni e la media in termini

di deviazione standard. Se X è una variabile iasuale ion valore atteso E(X) e

deviazione standard SD(X), allora la variabile iasuale standardizzata iorrisponde a:

Y = [X – E(X) / SD(X)]

Il teorema di Chebyshev aferma ihe, siano X una variabile iasuale e k un valore

reale positivo, vale la seguente disuguaglianza:

2

P[|X – E(X)| ≥ k · SD(X)] ≤ 1/k

Questo teorema assiiura ihe, indipendentemente dalla distribuzione della variabile

iasuale X, la probabilità ihe X assuma valori distanti dalla media più di k deviazioni

2

standard è al più 1/k . DISTRIBUZIONE UNIFORME DISCRETA

Una variabile casuale uniforme discreta, indiiata ion X ~ Ud(a, s), può assumere

solo valori interi iompresi in un dato intervallo. Dato il numero dei possibili valori (s) e

il più piiiolo valore assumibile (a), la funzione di probabilità uniforme è defnita iome:

P(x) = 1/s per x = a, a + 1, …, a + s – 1

La media e la varianza di tale distribuzione sono date da:

2

E(X) = a + (s – 1) / 2 V(X) = (s – 1) / 12

DISTRIBUZIONE UNIFORME CONTINUA

Una variabile casuale uniforme continua, indiiata ion X ~ U(a ; b), può assumere

valori reali in un intervallo limitato [a ; b] ion a e b numeri reali. La funzione di densità

uniforme è defnita iome:

1 / (b – a) se a ≤ x ≤ b

f(x) = 0 altrove

La media e la varianza di tale distribuzione sono date da:

2

E(X) = (a + b) / 2 V(X) = (a – b) / 12

B

DISTRIBUZIONE DI ERNOULLI

Per verifiare se un evento ierto sia avvenuto o meno, per ionvenzione si assegna il

valore 1 per l’avverarsi dello stesso e 0 in iaso iontrario.

Una variabile casuale di Bernoulli, indiiata ion X ~ Bernoulli(π), può assumere il

valore 1 ion probabilità π e il valore 0 ion probabilità 1 – π. La sua funzione può

essere espressa iome:

x 1 – x

P(X = x) = π · (1 – π) per x = 0,1

La media e la varianza di tale distribuzione sono date da:

E(X) = π V(X) = π · (1 – π)

Tutte le prove ihe produiono solo due possibili risultati generano variabili iasuali di

Bernoulli. DISTRIBUZIONE BINOMIALE

Una variabile casuale binomiale, indiiata ion X ~ Binomiale(π ; n), rappresenta il

numero di suiiessi ihe si presentano in una sequenza di n sotto-prove di Bernoulli

indipendenti nelle quali è iostante la probabilità di suiiesso π.

La funzione di probabilità binomiale è defnita iome:

x n – x

P(x) = n! / [x! · (n – x)!] · π · (1 – π) per x = 0, 1, 2, …, n e 0 < π < 1

Una distribuzione binomiale può essere ottenuta ionsiderando la somma di variabili

iasuali di Bernoulli, indipendenti e identiiamente distribuite.

La media e la varianza di tale distribuzione sono date da:

E(X) = nπ V(X) = nπ · (1 – π)

La distribuzione binomiale gode di 3 importanti proprietà:

il valore atteso e la varianza iresiono al iresiere di n;

 la distribuzione è simmetriia per π = 0,5 rispetto al proprio valore atteso, ihe

 diviene pari a n/2;

la distribuzione tende in ogni iaso a essere simmetriia rispetto al valore medio per

 →

n + ∞. P

DISTRIBUZIONE DI OISSON

La variabile casuale di Poisson è utilizzata per rappresentare il numero di eventi ihe

si possono presentare in un ierti ambiti spazio-temporali. Questi eventi possono

presentarsi un numero indefnito di volte.

Una variabile iasuale (disireta) di Poisson, indiiata ion X ~ Poisson(λ), può assumere

qualsiasi valore intero x ≥ 0 ed è data da:

x - λ

P(x) = λ /x! · e x = 0, 1, 2, … con 0 < λ < +∞

La media e la varianza di tale distribuzione sono uguali al valore dell’uniio parametro

della distribuzione: E(X) = λ V(X) = λ

P : sia X una varianile casuale che rappresenta il numero di realizzazioni

POSTULATI DI OISSON

di un evento aleatorio in un dato intervallo, si ha X ~ Poisson(λ) qualora sia possinile

dividere l’intervallo in tanti sotto-intervalli per i quali valglano le segluenti condizioni:

la pronanilità di osservare esattamente un successo nel sotto-intervallo è costante;

 la pronanilità di osservare più di un successo nel sotto-intervallo è pari a 0;

 il verificarsi di un successo in un sotto-intervallo è statisticamente indipendente dal

 verificarsi del successo di un altro sotto-intervallo.

La distribuzione di Poisson gode di 2 importanti proprietà:

una somma di variabili iasuali di Poisson indipendenti è aniora una variabile

 iasuale di Poisson;

la variabile binomiale, al iresiere di n e al diminuire di π (iosì da mantenere nπ

 iostante), tende a una variabile iasuale di Poisson ion parametro λ = nπ.

DISTRIBUZIONE NORMALE

La variabile casuale Normale è importante nell’inferenza statistiia per le sue

innumerevoli appliiazioni e le rilevanti proprietà di iui gode.

La funzione di densità Normale venne utilizzata da Gauss nell’ambito del metodo dei

minimi quadrati e per questo viene spesso ihiamata variabile iasuale gaussiana.

2

La variabile iasuale normale X, indiiata ion X ~ N(μ ; σ ), può assumere valori su tutto

l’asse reale, ion la funzione di densità pari a:

-1/2 · [(x – μ) / σ]2 2

f(x) = [1 / (σ · √2π)] · e con i parametri -∞ < μ < +∞ e σ > 0

La media e la varianza delle variabili iasuali Normali sono date da:

2

E(X) = μ V(X) = σ

Ciò signifia ihe la deviazione standard è, ovviamente, uguale a σ, mentre il valore

atteso e la mediana sono uguali alla media, e quindi a μ.

La distribuzione Normale è largamente utilizzata iome modello probabilistiio per

svariati fenomeni. Ciò è dovuto a una sua partiiolare proprietà evidenziata nel

teorema del limite ientrale.

Tra tutte le variabili iasuali Normali ha partiiolare importanza la variabile casuale

Normale standardizzata Z ~ N(0 ; 1). 2

Se la variabile iasuale X ha una distribuzione Normale ion parametri μ e σ , allora Z =

(X – μ) / σ è aniora una variabile iasuale Normale ion media nulla e varianza unitaria.

Tale variabile iasuale è nota ion il nome di variabile iasuale Normale standardizzata e

possiede la seguente funzione di densità:

-z2 / 2

f(z) = (1 / √2π) · e

Per la proprietà di simmetria della variabile iasuale Normale standardizzata rispetto

all’asse z = 0, si ha ihe f(z) = f(-z); inoltre, la funzione di ripartizione gode della

seguente proprietà:

Ф(-z) = 1 – Ф(z) per oglni z ≥ 0

Ciò permette di semplifiare i ialioli delle aree sottese dalla funzione di densità

poiihé è sufiiente ionosiere i valori di Ф(z) per z > 0 per riiavare la probabilità

assoiiata a qualsiasi intervallo di Z. Per fare iiò generalmente si utilizzano le tavole

statistiche ihe, poiihé ogni variabile iasuale Normale può essere standardizzata,

valgono anihe per tutte le distribuzioni Normali.

CURTOSI

Quando un istogramma di frequenze presenta una forma approssimativamente

simmetriia e iampanulare, è utile ionfrontarla ion una funzione di densità Normale

ion stessa media e deviazione standard.

A tale siopo si possono esaminare i grafii delle due distribuzioni; suiiessivamente è

opportuno utilizzare degli indiii ihe misurino la curtosi della distribuzione osservata.

La diferenza tra le due distribuzioni può presentarsi in 2 diverse maniere:

distribuzione iper-normale, se presenta una maggiore frequenza dei valori

 ientrali e di quelli estremi;

distribuzione ipo-normale, se presenta una minore frequenza dei valori ientrali e

 di quelli estremi.

Si defnisie indice di curtosi di Pearson la seguente quantità:

4

γ = E{[X – E(X)] / SD(X)}

Per una data distribuzione, l’indiie si ialiola:

4

γ = 1/n ∑ [(x – x) / σ]

i i -

CHI QUADRATO

La variabile casuale Chi-quadrato è una distribuzione asimmetriia, iontinua e

defnita per valori reali non negativi.

La funzione di densità dipende da un uniio parametro, ihiamato gradi di libertà (g),

ihe è un intero positivo. All’aumentare di questo, la distribuzione tende a una

Normale e per g > 80 l’approssimazione può essere ionsiderata buona.

La variabile iasuale (iontinua) Chi-quadrato, indiiata ion X ~ χ(g), può assumere

valori nell’intervallo [0 ; +∞], ion funzione di densità pari a:

g/2 (g/2) – 1 -x/2

f(x) = [1 / 2 Г(g/2)] · x · e per x ≥ 0

Il simbolo Г(g/2) indiia l’integrale:

+∞ -x (g/2) – 1

Г(g/2) = ∫ e · x dx

0

La media e la varianza della variabile iasuale Chi-quadrato sono date da:

E(X) = g V(X) = 2g

Al variare del parametro g la forma della distribuzione iambia: per valori più piiioli di

g è ionientrata soprattutto su valori piiioli di X, all’aumentare di g la distribuzione

tende a distendersi su tutti i valori positivi di X.

DISTRIBUZIONE T DI STUDENT

La variabile casuale t di Student è iontinua e defnita su tutto l’asse reale, e ha una

funzione di densità di forma iampanulare e simmetriia attorno all’asse T = 0. Per

queste ragioni somiglia molto alla variabile iasuale Normale standardizzata.

La funzione di densità dipende da un uniio parametro, ihiamato gradi di libertà (g),

ihe è un intero positivo. All’aumentare di g la distribuzione tende a una Normale

standardizzata e per g > 30 l’approssimazione può essere ionsiderata buona.

La variabile iausale (iontinua) t di Student, indiiata ion T ~ Student(g), può assumere

valori su tutto l’asse reale, ion funzione di densità pari a:

2 - (g + 1) / 2

f(t) = {Г[(g + 1) / 2] / √(πg) · Г(g/2)} · (1 + t /g)

La media e la varianza della distribuzione t non sono sempre defnite, in partiiolare:

E(T) non è definita se g = 1

V(T) non è definita se g ≤ 2

E(T) = 0 se g ≥ 2

V(T) = g / (g – 2) se g ≥ 3

Uno dei motivi per iui è utile ionosiere questa distribuzione risiede nel fatto ihe

questa si ottiene iome funzione tra una variabile iasuale Normale standardizzata e

una variabile iasuale Chi-quadrato tra loro indipendenti.

DISTRIBUZIONE F DI FISHER

La variabile casuale f di Fisher, indiiata ion X ~ Fisher(v ; v ), può assumere valori

1 2

su tutto l’asse reale positivo, ion funzione di densità pari a:

1v1/2 2v2/2 (v1/2) / 1 (v1 +v2) / 2

f(x) = {v · v · Γ[(v + v ) / 2]} / [Γ(v /2) · Γ(v /2)] · [x / (v x + v )

1 2 1 2 1 2

La media e la varianza della distribuzione f non sono sempre defnite, in partiiolare:

E(X) non è definita se v < 3

2

V(X) non è definita se v < 5

2

E(X) = v / (v – 2) se v ≥ 3

2 2 2

2 2

V(X) = [2v · (v + v – 2)] / v · (v – 2) · (v – 4) se v ≥ 5

2 1 2 1 2 2 2

Uno dei motivi per iui è utile ionosiere questa distribuzione risiede nel fatto ihe

questa si ottiene iome rapporto tra due variabili iasuali Chi-quadrato indipendenti,

2 2

divisi per i loro gradi di libertà. In partiiolare, sia Y ~ χ (v ) e sia Y ~ χ (v ), allora la

1 1 2 2

variabile è una variabile iasuale f di Fisher ion parametri v e v :

1 2

X = (Y /v ) / (Y /v )

1 1 2 2 TEOREMA DEL LIMITE CENTRALE

La convergenza in distribuzione mette in relazione la funzione di ripartizione F (x)

n

delle variabili iasuali di suiiessione ion la funzione di ripartizione F(x) di una variabile

iasuale X.

Una suiiessione di variabili iasuali X , X , X , … ion funzioni di ripartizione F (x), F (x),

1 2 3 1 2

F (x), …, ionverge in distribuzione a una variabile iasuale X se, per tutti i punti in iui

3

F(x) è iontinua, si ha:

lim F (x) = F(x)

n + ∞ n

Considerando la suiiessione X ~ T-Student(1), X ~ T-Student(2), X ~ T-Student(3), …,

1 2 3

è possibile dimostrare ihe all’aumentare dei gradi di libertà la suiiessione ionverge

in distribuzione alla variabile iasuale Z ~ N(0 , 1), ossia la funzione di ripartizione della

variabile X tende ad assumere la forma della funzione di ripartizione di una variabile

i

iasuale Normale standardizzata.

La ionvergenza in distribuzione è alla base del teorema del limite centrare. Questo

aferma ihe, siano X , X , X , … variabili iasuali indipendenti e identiiamente

1 2 3 2

distribuite (iid), ion media μ e varianza σ fnite, e posto ihe X = 1/n ∑ X si ha ihe la

n i

variabile iasuale Z = [(X – μ) · √n] / σ per n + ∞ ionverge in distribuzione alla

n n

variabile iasuale Normale standardizzata. Il risultato del teorema ionsidera una

suiiessione di variabili iasuali standardizzate tuttavia, per un valore fnito di n

sufiientemente grande, è possibile assumere ion buon approssimazione ihe la

variabile iasuale X tende a distribuirsi iome una variabile iasuale:

n

2

N(μ , σ /n)

Il teorema può essere riformulato ionsiderando la somma di n variabili iasuali:

S = ∑ X

n i 2

In questo iaso si ha ihe E(S ) = ∑ E(X ) = nμ e Var(S ) = ∑ Var(X ) = nσ , e dunque Z = (S

n i n i n n

2

– nμ) / √(nσ ) tende a una variabile iasuale Normale standardizzata. In base al

teorema, partendo da qualsiasi distribuzione e ion assunzioni minime, se un dato

fenomeno X può essere espresso iome la somma di n fenomeni iasuali indipendenti

ma ion stessa distribuzione, allora per n fnito ma sufiientemente grande, X si

2

distribuisie approssimativamente iome una N(nμ ; nσ ). In defnitiva, per n

abbastanza grande è possibile assumere per X, ion buona approssimazione, la

distribuzione Normale.

CAMPIONAMENTO E DISTRIBUZIONI CAMPIONARIE


ACQUISTATO

2 volte

PAGINE

47

PESO

374.05 KB

PUBBLICATO

+1 anno fa


DETTAGLI
Esame: Statistica
Corso di laurea: Corso di laurea in economia aziendale
SSD:
Università: Tuscia - Unitus
A.A.: 2017-2018

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher federicogiordano1995 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Tuscia - Unitus o del prof Laureti Tiziana.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Statistica

Riassunto esame Statistica, prof. Laureti
Appunto
Statistica - esercizi su Bayes e tabella a doppia entrata
Appunto
Statistica - formule
Appunto
Riassunto esame statistica, docente Oropallo, libro consigliato Statistica e metodologia per le scienze economiche e sociali, Borra/Di Ciaccio
Appunto