Che materia stai cercando?

Statistica Appunti scolastici Premium

Appunti di statistica basati su appunti personali del publisher presi alle lezioni della prof. Grassini dell’università degli Studi di Firenze - Unifi, della facoltà di economia, Corso di laurea in economia aziendale. Scarica il file in formato PDF! voto preso: 25

Esame di Statistica docente Prof. L. Grassini

Anteprima

ESTRATTO DOCUMENTO

come asse temporale, mentre su quella verticale possono essere poste le quantità numeriche oggetto della

misurazione; in questo modo si otterrà, per ogni osservazione, un punto sul piano cartesiano: il grafico sarà

allora la risultante della congiunzione dei diversi punti ottenuti. Ricapitolando, una distribuzione di

frequenze è una tabella che racchiude, nella colonna di sinistra, il numero di osservazioni, e nella colonna di

destra, il numero di classi. Dunque, per costruire una distribuzione di frequenza si deve:

1. determinare k, ovvero il numero delle classi di intervallo, il quale viene scelto in modo arbitrario

(data set più grandi permettono di determinare più classi di intervallo, contrariamente a quelli più

piccoli; se poi si selezionano poche classi, determiniamo una perdita d informazioni sulle

caratteristiche della distribuzione);

2. scegliere l’ampiezza W delle classi di intervallo, la quale può essere la stessa per tutte le classi di

intervallo, e si determina nel modo seguente: W = (valore massimo – valore minimo) / numero di

classi (W può essere arrotondato per eccesso);

3. le classi di intervallo devono essere collettivamente esaustive e mutamente esclusive (cioè senza

sovrapposizioni): ciascuna osservazione deve appartenere a una ed una sola classe.

Distribuzioni di frequenza particolari sono: la distribuzione delle frequenze relative, che è ottenuta

dividendo ciascuna frequenza per il numero complessivo di osservazioni (moltiplicando la proporzione

risultante per 100% si ottiene la distribuzione delle frequenze percentuali); la distribuzione delle

frequenze cumulate, la quale si ottiene sommando alla frequenza della classe corrente le frequenze di tutte

le classi precedenti ; e la distribuzione delle frequenze relative cumulate, che si ottiene cumulando le

frequenze relative. Avendo ottenuto la distribuzione delle frequenze, è possibile rappresentarla graficamente,

tramite due grafici in particolare: l’istogramma, che è composto da rettangoli verticali adiacenti, costruiti su

una linea orizzontale sulla quale sono delimitate le stesse classi di intervallo individuate nelle distribuzioni

di frequenze. L’area del rettangolo è proporzionale al numero di osservazioni della classe corrispondente;

l’ogiva, invece, è una spezzata che rappresenta la distribuzione delle frequenze percentuali cumulate, infatti

essa unisce i punti che rappresentano le percentuali cumulate di osservazioni con valori minori del limite

superiore di ciascuna classe. Possiamo poi dire che, la forma di un istogramma è detta simmetrica, se le

osservazioni sono bilanciate o distribuite in modo approssimativamente regolare, intorno al centro

dell’istogramma. La distribuzione è invece asimmetrica (o obliqua) se le osservazioni non sono distribuite

in modo simmetrico rispetto al valore centrale della distribuzione. Nel diagramma ramo-foglia, invece, i

dati sono raggruppati secondo le loro cifre più significative (rami), mentre le cifre meno significative di ogni

osservazione (foglie) sono elencate a destra di ogni ramo, separatamente e in ordine decrescente. Attraverso

il diagramma di dispersione, su di un piano cartesiano, si determinano punti che sono associati a coppie di

valori, che costituiscono un’osservazione congiunta delle due variabili. Questo tipo di diagramma evidenzia:

 i possibili valori di ogni variabile;

 la distribuzione dei dati all’interno dei valori possibili;

 l’eventuale relazione tra le due variabili;

 la presenza di eventuali valori anomali.

Attraverso una tabella a doppia entrata, è possibile descrivere le relazioni tra dati categorici e ordinali;

essa elenca la frequenza delle osservazioni per ogni combinazione di classi di misura di due variabili. Il

numero di celle è determinato dalla combinazione di tutte le possibili classi per ognuna delle due variabili.

Una tabella con r righe e c colonne viene indicata come tabella r x c. quando le due variabili sono entrambe

qualitative si parla di tabella di contingenza, la quale è illustrata con diagrammi a barre.

CAPITOLO III – Descrizione numerica dei dati

Le misure di tendenza centrale forniscono informazioni quantitative sull’osservazione tipica nei dati.

Analizziamo tre tipi di tendenze centrali:

 media aritmetica, è la somma dei valori di tutte le osservazioni divisa per il numero di osservazioni.

Se i dati si riferiscono all’intera popolazione, la media della popolazione, μ, è uguale a: μ = Σx /N =

i

(x’ + x’’ + … + x )/N, dove N è la dimensione della popolazione. Se i dati provengono da un

N

campione, allora la media del campione, x, è data da: x = Σx /n = (x’ + x’’ + … + x )/n;

i n

 mediana, è l’osservazione centrale di un insieme di osservazioni ordinate in modo non decrescente.

Se n è un numero dispari, la mediana è l’osservazione centrale, se n è un numero pari, essa si ottiene

dalla media delle due osservazioni centrali. La mediana si trova nella posizione 0.50(n + 1);

 moda, dato un insieme di osservazioni, essa p la modalità che si presenta il maggior numero di volte.

Nel caso di una distribuzione simmetrica, la media e la mediana sono uguali, mentre se la media è minore

della mediana, allora la distribuzione è obliqua a sinistra, se invece la media è maggiore della mediana, la

distribuzione è obliqua a destra. Una possibile causa dell’asimmetria è la presenza di outlier, ovvero valori o

estremamente grandi o estremamente piccoli. Oltre però alle misure di tendenza centrale, sono necessari altri

parametri per fornire una descrizione completa dei dati. Questi parametri sono:

 campo di variazione, è la differenza tra il massimo e il minimo dei valori osservati. Esso però non è

una soddisfacente misura di dispersione, in quanto è influenzato dagli outlier;

 differenza interquartile (IQR), misura la variabilità del 50% centrale dei dati, essa è la differenza

tra l’osservazione Q , terzo quartile, e l’osservazione Q , primo quartile. Q si trova nella posizione

3 1 1

0.25(n + 1), mentre Q nella posizione 0.75(n + 1);

3

 i cinque numeri di sintesi, si riferiscono a cinque misure descrittive: il minimo, il primo quartile, la

mediana, il terzo quartile e il massimo (m < Q < mediana < Q < M). Una rappresentazione grafica

1 3

dei cinque numeri di sintesi è possibile tramite il diagramma a scatola e baffi;

 varianza della popolazione σ^2, è la somma delle differenze, al quadrato, tra ciascuna osservazione

e la media della popolazione, divisa per la dimensione della popolazione: σ^2 = [Σ(x – μ)^2]/N. La

i

varianza campionaria s^2, invece, è la somma delle differenze, al quadrato, tra ciascuna

osservazione e la media del campione, divisa per la dimensione del campione meno 1: s^2 = [Σ(x –

i

x)^2]/(n – 1);

 scarto quadratico medio della popolazione σ, corrisponde alla radice quadrata della varianza della

popolazione: σ = rad(σ^2). Analogamente, lo scarto quadratico medio campionario s, è:

s = rad(s^2).

Osservati questi criteri, possiamo dire che, per ogni osservazione con media μ, scarto quadratico medio σ e

k > 1, la percentuale di osservazioni, chiamata disuguaglianza di Chebychev, che appartengono

all’intervallo (μ – kσ; μ + kσ) è: almeno 100(1 – (1/k^2)%, dove k rappresenta il fattore moltiplicativo

dello scarto quadratico medio. Per le popolazioni di grandi dimensioni però, questo metodo risulta

inefficacie, per questo motivo se ne utilizza un altro. Dunque, la regola empirica, per le popolazioni di

grandi dimensioni, fornisce una valutazione della percentuale approssimata di osservazioni il cui

scostamento, in più o in meno della media, è pari al massimo a una, due o tre volte lo scarto quadratico

medio:

 approssimativamente il 68% delle osservazioni sono nell’intervallo μ +/- 1σ;

 approssimativamente il 95% delle osservazioni sono nell’intervallo μ +/- 2σ;

 quasi tutte le osservazioni, 99,73%, sono nell’intervallo μ +/- 3σ.

Quando i dati sono raggruppati, si usano misure di sintesi ponderate, come:

 media ponderata, essa equivale a: x = Σw x /Σw , dove w è il peso dell’i-esima osservazione;

i i i i

 media e varianza approssimate per dati raggruppati, i dati sono raggruppati in K classi, con

frequenze f , f … f . Indicando con m , m … m i valori centrali di ogni classe, e con una

1 2 k 1 2 k

popolazione di N osservazioni, dove N = Σf , abbiamo che la media è uguale a: μ = Σf m /N, mentre

i i i

la varianza è: σ^2 = [Σf (m – μ)^2]/N. Invece, con un campione di n osservazioni, con n = Σf ,

i i i

abbiamo che la media è uguale a: x = Σf m /n, e la varianza è: s^2 = [Σf (m – X)^2]/(n – 1).

i i i i

La covarianza (Cov) è una misura della relazione lineare tra due variabili. Un valore positivo indica una

relazione diretta o positiva e un valore negativo indica una relazione inversa o negativa. La covarianza della

popolazione, è: Cov(X,Y) = σ = [Σ(x – μ )(y – μ )]/N. La covarianza campionaria, invece, è uguale a:

xy i x i y

Cov(X,Y) = s = [Σ(x – x)(y – y)]/(n – 1). Indice numerico però, più opportuno della covarianza per

xy i i

misurare l’intensità della relazione lineare tra due variabile, è il coefficiente di correlazione lineare, il

quale fornisce sia la direzione sia l’intensità della relazione. Esso si calcola dividendo la covarianza per il

prodotto degli scarti quadratici medi delle due variabili. Il coefficiente di correlazione lineare della

popolazione è: p = Cov(X,Y)/σ σ ; il coefficiente di correlazione lineare campionario, invece, è uguale a:

x y

r = Cov(X,Y)/s s . Il valore di questo coefficiente varia tra -1 e +1: quanto più r è vicino a +1, tanto più i

x y

punti che rappresentano le osservazioni sono vicini a una retta crescente, che indica una relazione lineare

positiva; quanto più r è vicino a -1, tanto più i punti sono vicini a una retta decrescente, indicante una

relazione lineare negativa. Quando r è uguale a zero, non c’è relazione lineare tra x e y, ma ciò non significa

che non ci sia nessun tipo di relazione tra di essi.

CAPITOLO IV – Probabilità

Un esperimento aleatorio (o casuale) è un processo che porta a due o più risultati senza che si possa

prevedere quale di questi si realizzerà (es. lancio di una moneta). Dell’esperimento, si possono specificare

tutti i possibili risultati, definiti eventi elementari (es. esce testa). L’insieme di questi eventi elementari è

definito spazio campionario, S. Si definisce, invece, evento un qualsiasi sottoinsieme di eventi elementari

di uno spazio campionario. L’evento può essere: impossibile, O, e in questo caso rappresenta l’assenza di

elementi elementari; certo, ed è rappresentato da tutti gli eventi elementari ed lo stesso S. chiamando A e B

due eventi dello spazio campionario S, la loro intersezione, è l’insieme di tutti gli eventi elementari di S che

appartengono sia ad A sia a B. ovviamente, l’intersezione si verifica sole se si verificano sia A che B. Con il

termine probabilità congiunta di A e B si indica la probabilità dell’intersezione di A e B. nel caso in cui i

due eventi non abbiano in comune nessun evento elementare, essi sono detti mutuamente esclusivi; di

conseguenza la loro intersezione è l’evento impossibile. L’unione degli eventi A e B, invece, è definita come

l’insieme di tutti gli eventi elementari di S che appartengono ad almeno uno dei due eventi. Essa si verifica

se A o B o entrambi si verificano. Se l’unione dei due eventi copre l’intero spazio campionario, allora gli

eventi sono collettivamente esaustivi. Considerando adesso, unicamente l’evento A, si definisce evento

complementare di A (A), l’insieme degli eventi elementari appartenenti ad S ma non ad A.

Introdotti questi concetti basilari, vediamo i diversi tipi di approcci alla probabilità:

1. approccio classico, secondo questa concezione, ipotizzando che tutti i risultati dello spazio

campionario siano ugualmente possibili, la possibilità di un evento è la proporzione di volte che

l’evento si verifica. Questa si calcola dividendo il numero degli eventi elementari dello spazio

campionario che soddisfano l’evento, per il numero di eventi elementari in S. La probabilità

dell’evento A è quindi uguale a: P(A) = N /N;

A

2. approccio frequentista, in questo caso, la probabilità è il limite della proporzione di volte in cui

l’evento A si verifica in numero elevato, n, di ripetizioni di un esperimento. Di conseguenza si ha

che: P(A) = lim (n /n) (n è il numero di volte in cui A si è verificato ed n è il numero totale di

n∞ A A

ripetizioni dell’esperimento);

3. approccio soggettivo, la probabilità, in questo caso, esprime il livello individuale di fiducia del

verificarsi di un certo evento. Le probabilità di questo tipo sono personali quindi, dunque non è detto

che persone diverse giungano allo stesso risultato; esse dipendono dalle diverse conoscenze e dal

diverso modo di interpretarle (abbiamo dunque P(A|I), ovvero la probabilità dell’evento A è

condizionata dall’informazione del soggetto).

L’ultimo approccio è quello assiomatico, il quale necessita di uno studio più approfondito, dovendo esso

sviluppare una struttura per il calcolo matematico della probabilità. Per far ciò devono essere stabiliti tre

assiomi, che le probabilità dovranno soddisfare. Dunque, sia S lo spazio campionario di un esperimento

casuale, siano O gli eventi elementari e sia A un generico evento. Per ciascun evento A dello spazio

i

campionario S, si assume che P(A) sia sempre definita e che si abbiano i seguenti assiomi della probabilità:

1. se A è un qualunque evento dello spazio campionario S: 0 < P(A) < 1;

2. se A è un evento di S allora: P(A) = ΣP(O );

i

3. P(S) = 1.

La conseguenza del primo assioma è che, se lo spazio campionario S è formato da N eventi elementari

ugualmente possibili (E , E ,…,E ), allora: P(E ) = 1/N. La conseguenza del secondo assioma invece,

1 2 N i

prevede che, se lo spazio campionario S è formato da N eventi elementari ugualmente possibili e l’evento A

è formato da N di questi eventi elementari, allora: P(A) = N /N. Infine, la conseguenza del terzo assioma

A A

dice che, se E , E ,…, E sono eventi collettivamente esaustivi, la probabilità della loro unione è:

1 2 K

P(E , E ,…, E ) = 1.

1 2 K

Per la regola dell’evento complementare abbiamo che P(A) = 1 – P(A), con A evento di S ed A suo

complementare. Per la regola additiva della probabilità, invece, dati due eventi, A e B, la probabilità della

loro unione è: P(AUB) = P(A) + P(B) – P(A B). La probabilità dell’intersezione è sottratta in quanto essa

viene contata de volte. Analizziamo adesso, sempre due eventi, A e B, uno dei quali, B, si p verificato. È

interessante calcolare così, la probabilità condizionata di A, sapendo che B si è verificato. Avremo quindi

che: P(A|B) = P(A B)/P(B); allo stesso modo avremo: P(B|A) = P(A B)/P(A). Una conseguenza diretta

della probabilità condizionata è la regola moltiplicativa della probabilità, la quale implica che la

probabilità dell’intersezione di due eventi, può essere derivata dalla probabilità condizionata, come:

P(A B) = P(A|B)P(B), e analogamente: P(A B) = P(B|A)P(A). In alcuni casi particolari, sapere che B si è

verificato, non cambia la probabilità dell’evento A; quando ciò accade, siamo di fronte all’indipendenza

statistica, un caso cioè, dove la probabilità condizionata di A dato B, è uguale alla probabilità non

condizionata di A. Dunque, due eventi sono detti statisticamente indipendenti, se: P(A B) = P(A)P(B).

Dalla regola moltiplicativa possiamo poi dedurre che: P(A|B) = P(A) e P(B|A) = P(B).

Consideriamo adesso due distinti insiemi di eventi, A e B , loro due eventi, A e B , sono mutuamente

h k i j

esclusivi ed esaustivi nell’ambito di ciascun insieme, ma la loro intersezione può verificarsi tra tutti gli

eventi dei due insiemi. Quindi, due insiemi considerati congiuntamente, sono chiamati bivariati, e le

relative probabilità sono dette probabilità bivariate. In questo contesto, le probabilità delle intersezioni,

P(A B ), sono chiamate probabilità congiunte. Le probabilità per i singoli eventi, P(A ) o P(B ) sono dette

i j i j

probabilità marginali, le quali sono ai margini di una tabella a doppia entrata e possono essere calcolate

sommando le probabilità della corrispondente riga o colonna. Dunque, per ottenere le probabilità marginali

di un evento, si sommano semplicemente le corrispondenti probabilità congiunte: P(A ) = P(A B ) +

i i 1

P(A B ) + … + P(A B ). Infine si può inoltre verificare se due eventi siano o meno statisticamente

i 2 i j

indipendenti; per esserlo, la probabilità congiunta dei due eventi dovrebbe essere uguale al prodotto delle

rispettive probabilità marginali: P(A B ) = P(A )P(B ). Nel caso in cui, ogni evento A è statisticamente

i j i j i

indipendente da ogni evento B , allora A e B, eventi ottenuti dall’unione di eventi mutuamente esclusivi e

j

collettivamente esaustivi, sono eventi indipendenti.

Riconsideriamo ora la regola moltiplicativa della probabilità [P(A B) = P(A|B)P(B) = P(B|A)P(A)]. Da

questa regola deriva il teorema di Bayes, il quale fornisce un modo per aggiornare le probabilità

condizionate usando le informazioni disponibili. Inoltre esso fornisce un metodo per modificare i giudizi

probabilistici in presenza di nuove informazioni. Questo teorema afferma quindi che:

P(B|A) = P(A|B)P(B)/P(A) e P(A|B) =P(B|A)P(A)/P(B). una formulazione generale del seguente teorema,

può essere data considerando K eventi mutuamente esclusivi e collettivamente esaustivi E , …, E , e un

1 K

evento qualunque A; di conseguenza, la probabilità condizionata di E dato A, può essere espressa come:

i

P(E |A) = [P(A|E )P(E )]/[P(A|E )P(E ) + … + P(A|E )P(E )]. In conclusione, i passi risolutivi per

i i i 1 1 K K

l’applicazione del teorema di Bayes sono:

1. definizione del sottoinsieme di eventi relativi al problema;

2. definizione della probabilità per gli eventi considerati precedentemente;

3. calcolo della probabilità degli eventi complementari;

4. applicazione del teorema di Bayes per calcolare le probabilità necessarie alla soluzione del problema.

CAPITOLO V – Distribuzioni di probabilità e variabili aleatorie discrete

Una variabile aleatoria è una variabile che assume valori numerici in corrispondenza ai risultati di un

esperimento aleatorio. Si possono distinguere due tipi di variabile aleatoria: discreta, se essa può assumere

al più un insieme numerabile di valori; continua, se invece può assumere qualunque valore in un intervallo.

Ovviamente per quest’ultime non si possono elencare tutte le possibili realizzazioni, che risultano essere

infinite. Di conseguenza, le variabili aleatorie continue vengono considerate come se fossero discrete,

quando l’attribuzione di probabilità ai singoli risultati possibili è significativa; tutte le altre variabili saranno

considerate continue. In questo capitolo, considereremo solo variabili aleatorie discrete.

Supponiamo che X sia una variabile aleatoria discreta e che x sia una sia possibile realizzazione. La

probabilità che una variabile aleatoria X assuma il valore x è indicata con: P(X=x). La funzione di

probabilità, P(x), di una variabile aleatoria discreta X, esprime la probabilità che X assume il valore x,

come funzione di x, ovvero: P(x) = P(X=x), per ogni valore di x. In questo senso, la funzione di probabilità

indica anche la distribuzione di probabilità, ovvero la rappresentazione delle probabilità di tutti i possibili

valori che può assumere la variabile. Le due proprietà principali della funzione di probabilità sono:

1. 0 < P(x) < 1 per ogni valore di x. Questa proprietà afferma solo che le probabilità non possono essere

negative o superare il livello 1;

2. la somma delle singole probabilità deve dare 1, cioè: ΣP(x) = 1 (ciò significa che la sommatoria si

estende a tutte le possibili realizzazioni di x). Questa proprietà ci assicura che, quando si effettua un

esperimento aleatorio, uno dei risultati si verifica certamente.

Una funzione di ripartizione, F(x ), per una variabile aleatoria discreta X, esprime la probabilità che X non

0

superi il valore x , come funzione di x ; cioè: F(x ) = P(X<x ) con -∞ < x < ∞. Anche in questo caso,

0 0 0 0 0

possiamo elencare le due principali proprietà della funzione di ripartizione, che sono:

1. 0 < F(x ) < 1 per ogni x ;

0 0

2. se x e x sono due valori tali che x < x , allora F(x ) < F(x ). Questa proprietà implica che la

1 2 1 2 1 2

probabilità che una variabile aleatoria sia minore o uguale a un determinato valore non può essere

superiore alla probabilità che sia minore o uguale a un qualunque valore a esso superiore.

Esiste una relazione tra la funzione di ripartizione e la funzione di probabilità; infatti si può dimostrare che:

F(x ) = Σ P(x). Ciò significa che la sommatoria si estenda a tutti i possibili valori di x che sono minori o

0 x<x 0

uguali a x .

0

Introduciamo adesso, il valore atteso, E(X), di una variabile aleatoria discreta X, il quale è definito come:

E(X) = μ = ΣxP(x). Il valore atteso di una variabile discreto è anche chiamato media, μ. La varianza,

Var(X), di una variabile aleatoria discreta, corrisponde alla media ponderata dei quadrati di tutti i suoi

possibili scarti dalla media, (x – μ). Dunque, la varianza è uguale al valore atteso degli scarti al quadrato

2 2 2

dalla media, (X – μ) : σ = Var(X) = Σ(x – μ) P(x). Lo scarto quadratico medio, σ , è la radice quadrata

x

della varianza. I concetti di valore atteso e varianza possono essere applicati anche a ogni funzione della

variabile aleatoria stessa. Per cui, data una funzione g(X), con funzione di probabilità P(x), abbiamo che:

E[g(x)] = Σg(x)P(x). Consideriamo adesso, una nuova variabile aleatoria, Y, in funzione di X, tale che

2y 2 2x

Y = a + bX. In questo caso abbiamo che, media e varianza sono: μ = a + bμ e σ = b σ . Vi sono però due

y x

casi particolari, che sono:

 b = 0, in questo caso la trasformazione lineare risulta essere: Y = a. Di conseguenza avremo che:

E(a) = a e Var(a) = 0;

 2 2x

a = 0, in questo caso si ha che: Y = bX, dunque risulterà: E(bX) = bμ e Var(bX) = b σ ;

x

 variabile aleatoria standardizzata, qui si considera una trasformazione lineare particolare:

Z = (X – μ )/σ . Si ha quindi che: E(Z) = 0 e Var(Z) = 1.

x x

Adesso passiamo allo studio della distribuzione binomiale, per il quale è necessario prima però, l’analisi del

modello di Bernoulli. Consideriamo un esperimento che può portare a due soli risultati: o successo, la cui

probabilità è p, o insuccesso, la cui probabilità è 1 – p. X è la variabile aleatoria che assume il valore 1 in

caso di successo, 0 in caso di insuccesso. La funzione di probabilità di questa variabile aleatoria è:

P(0) = 1 – p e P(1) = p; questa distribuzione è chiamata distribuzione di Bernoulli. La media e la varianza

2

di questa distribuzione sono, rispettivamente: μ = p e σ = p(1 – p). Adesso, supponendo di ripetere

l’esperimento n volte, la distribuzione del numero di successi, X, è chiamata distribuzione binomiale; la

x (n -x)

sua funzione di probabilità è: P(x) = [n!/(x!(n – x)](p (1 – p) ), con x numero di successi e n numero di

prove indipendenti. Se X è il numero di successi in n prove indipendenti, ognuna con probabilità di successo

2

uguale a p, allora avremo che: μ = np e σ = np(1 – p).

Consideriamo adesso, il caso in cui esaminiamo due o più variabili aleatorie discrete. In questo caso

dobbiamo definire la probabilità che le variabili aleatorie discrete considerate assumano

contemporaneamente determinati valori. Dunque, date due variabili aleatorie discrete, X e Y, la loro

distribuzione di probabilità congiunta esprime la probabilità che X assuma un particolare valore x e, allo

stesso tempo, Y assuma un particolare valore y, come funzione di x e y. Quindi: P(x,y) = P(X=x Y=y). Nel

caso in cui la distribuzione congiunta sia nota, la funzione di probabilità della variabile X viene chiamata

distribuzione marginale di probabilità di X ed è ottenuta sommando le probabilità congiunte per tutti i

possibili valori di Y, cioè: P(x) = ΣP(x,y) mentre P(y) = ΣP(x,y). Le proprietà delle distribuzioni di

probabilità congiunte sono:

1. 0 < P(x,y) < 1per ogni coppia di valori x e y;

2. la somma delle probabilità congiunte P(x,y) su tutte le possibili coppie di valori (x,y) deve valere 1.

Nel caso in cui la distribuzione congiunta sia nota, la distribuzione di probabilità condizionata della

variabile Y, subordinata a un valore x della variabile X, esprime la probabilità che Y assuma il valore y,

come funzione di y, quando si specifica un valore x per la variabile X. Di conseguenza si ha che:

P(y|x) = P(x,y)/P(x), allo stesso medo, la distribuzione di probabilità condizionata di X dato Y = y, è:

P(x|y) = P(x,y)/P(y). Se X e Y assumono rispettivamente r e c valori, il numero di medie condizionate è

uguale a r + c. Le due variabili sono dette indipendenti se e solo se la loro distribuzione di probabilità

congiunta è il prodotto delle due distribuzioni di probabilità marginali, cioè se: P(x,y) = P(x)P(y).

La covarianza invece, è una misura della variabilità congiunta di due variabili aleatorie. Essa può essere

usata per calcolare la varianza di combinazioni lineari di variabili aleatorie. In particolare, siano X e Y due

variabili aleatorie con medie rispettivamente μ e μ . Il valore atteso di (X – μ )(Y – μ ) è chiamato

x y x y

covarianza tra X e Y. Per le variabili discrete: Cov(x,y) = ΣΣ(x – μ )(y – μ )P(x,y) = ΣΣxyP(x,y) – μ μ .

x y x y

Il coefficiente di correlazione lineare è un indice della covarianza e fornisce una misura dell’intensità della

relazione lineare, tra due variabili aleatorie, con valori compresi tra -1 e +1. Nota la distribuzione congiunta,

esso è: Corr(X,Y) = Cov(X;Y)/σ σ . Analizziamo quattro diversi casi del coefficiente di correlazione:

x y

 Corr(X,Y) = 0, vuol dire che non c’è relazione lineare tra le due variabili aleatorie;

 Corr(X,Y) > 0, ciò implica che, se una variabile aleatoria assume valori elevati, allora l’altra

variabile ha una probabilità maggiore di assumere valori elevati e si dice che le variabili sono

correlate positivamente;

 Corr(X,Y) < 0, in questo caso, se una variabile aleatoria assume valori elevati, allora l’altra variabile

ha una probabilità maggiore di assumere valori bassi e si dice che le variabili sono correlate

negativamente.

 Corr(X,Y) = 1, ciò indica che vi è una relazione lineare perfetta positiva tra le due variabili (sarebbe

stata negativa se fosse stato Corr(X,Y) = -1).

Considerando una combinazione lineare del tipo W = aX + bY, avremo:


PAGINE

14

PESO

82.50 KB

PUBBLICATO

5 mesi fa


DETTAGLI
Esame: Statistica
Corso di laurea: Corso di laurea in economia aziendale
SSD:
Università: Firenze - Unifi
A.A.: 2018-2019

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher alessandro.dimattia di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Firenze - Unifi o del prof Grassini Laura.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Statistica

Statistica - Appunti
Appunto
Riassunto esame Economia e gestione delle imprese, prof. Ciampi, libro consigliato Fondamenti di Economia e Gestione delle Imprese
Appunto
Riassunto esame intermediari finanziari, prof.ssa Federica Ielasi (9 CFU), libro consigliato: "lineamenti di gestione bancaria", Lorenzo Gai.
Appunto
Riassunto esame di Economia e Gestione delle Imprese, prof. R. Moliterni. Libro consigliato Economia e Gestione delle Imprese
Appunto