Che materia stai cercando?

Appunti di Statistica

Appunti di statistica corso base, riguardante gli argomenti:
la statistica in generale, calcolo moda, media, mediana, indici di variabilità, probabilità, regressione lineare, la normale, bernoulli, intervalli di confidenza, test statistici. Scarica il file in formato PDF!

Esame di Statistica base docente Prof. S. Polettini

Anteprima

ESTRATTO DOCUMENTO

A partire da una tabella di frequenze doppia è possibile costruire lo stereogramma. Lo

stereogramma rappresenta le frequenze di una tabella doppia tramite dei

parallelepipedi di altezza proporzionale alla frequenza congiunta in uno spazio

tridimensionale. Diversamente dal grafico a dispersione, lo stereogramma può

rappresentare sia caratteri quantitativi (divisi in classi) sia caratteri qualitativi.

Analisi dell’associazione tra due caratteri: dipendenza, indipendenza, interdipendenza

Si parla di dipendenza logica tra due o più caratteri quando tra questi sono note a

priori relazioni di causa ed effetto. In contrapposizione alla dipendenza logica, si può

considerare l’indipendenza logica. Si parla di indipendenza logica fra due o più

caratteri quando si suppone a priori che tra questi non possa sussistere alcuna

relazione di causa ed effetto.

Mediante l’analisi statistica si pretende di verificare l’esistenza o meno di regolarità

nell’associazione fra le modalità dei caratteri osservati. Si possono utilizzare due

approcci: l’analisi della dipendenza, dove si studia come le modalità di un carattere

“dipendano” da quelle di un altro carattere secondo un legame unidirezionale, o

l’analisi dell’interdipendenza, in cui si assume che i caratteri abbiano tutti lo stesso

ruolo e che i legami tra essi sia bidirezionale.

Tra due caratteri sussiste indipendenza statistica quando la conoscenza della modalità

di uno dei due caratteri non migliora la “previsione” della modalità dell’altro.

Studio dell’associazione tra due caratteri in una tabella doppia di frequenze

Il carattere X si dirà indipendente da Y se, qualunque sia la modalità con cui si

manifesta il carattere Y, la distribuzione relativa condizionata di X non cambia. Le

frequenze relative delle distribuzioni condizionate della X rispetto alla Y devono essere

tutte uguali fra loro e uguali alla distribuzione marginale relativa della X. Se X è

indipendente da Y allora anche Y è indipendente da X. Quindi si può dire: due

caratteri, X e Y, si diranno indipendenti se le distribuzioni relative condizionate di un

carattere rispetto alle modalità dell’altro sono tra loro uguali.

Ogni volta che in una tabella di frequenze non si osserva indipendenza statistica, si

dirà che esiste dipendenza o interdipendenza tra i caratteri. Se due caratteri sono

indipendenti, la generica frequenza assoluta corrispondente alla i-esima modalità di X

e alla j-esima modalità di Y deve essere uguale a:

n n

i . . j

= . le frequenze assolute ottenute tramite tale formula sono dette frequenze

n ij n n '

teoriche di indipendenza indicate con .

ij

In molti casi, tra due caratteri logicamente indipendenti si può osservare

un’associazione statistica, cosicché le relazioni osservate siano solo apparenti. In tal

caso si parla di associazione spuria. L’associazione spuria è un legame statistico

empirico che si verifica tra due caratteri logicamente indipendenti. Se il legame 24

associativo tra due caratteri non è spurio, si introduce la nozione di associazione

perfetta, che si distingue in dipendenza perfetta e interdipendenza perfetta. Un

carattere Y dipende perfettamente da X quando a ogni modalità di X è associata una

sola modalità di Y, cioè quando in una tabella doppia per ogni i c’è un solo j per il

n ≠ 0

quale . Tra due caratteri sussiste interdipendenza perfetta se a ogni modalità

ij

di uno dei due caratteri corrispondente una e una sola modalità dell’altro carattere e

viceversa. Questo caso sussiste se la tabella è quadrata, ossia il numero delle righe è

uguale al numero delle colonne.

Misura dell’associazione per caratteri qualitativi sconnessi

La misura dell’associazione tra due caratteri qualitativi sconnessi avviene analizzando

la distribuzione congiunta delle frequenze dei due caratteri. La differenza tra le

n n

i. . j

¿

n

frequenze osservate e quelle teoriche vengono dette contingenze, ,

¿ '

=n −n =n ¿

c ij ij ij ij

con cui si costruisce la tabella delle contingenze, (diversa dalla tabella di contingenza,

ossia la tabella delle frequenze osservate). La somma delle contingenze è sempre

∑ ∑ ∑ ∑

= = =0

c c c

nulla, ovvero: Questo implica che un indice sintetico delle

ij ij ij

i j i j

differenze tra le frequenze osservate e le frequenze teoriche non può basarsi sulla

semplice somma delle contingenze. Su tale approccio si basa l’indice di osservazione

più noto. L’indice di associazione Chi-quadrato di Pearson misura quanto differiscono

le frequenze osservate da quelle teoriche in una tabella a doppia entrata:

2

H K

2 c

(frequenze osservate−frequenzeteoriche) ∑ ∑

∑ 2 ij

2 =

 χ

=

χ n '

frequenzeteoriche i=1 j=1 ij

La somma comprende tutte le celle della parte interna della tabella. Se i due caratteri

sono perfettamente indipendenti, tutte le contingenze devono essere nulle e dunque

l’indice Chi-quadrato assumerà valore nullo; se, al contrario, i due caratteri sono

associati l’indice sarà positivo, assumendo valori tanto più grandi quanto più le

frequenze osservate si differenziano da quelle teoriche.

L’indice Chi-quadrato può essere calcolato più facilmente tramite due formule di cui

2

n

∑ ∑

2 ij

= −n

non si richiede il calcolo delle frequenze teoriche: oppure

χ n '

i j ij

( )

2

n

∑ ∑

2 ij

= −1

χ n

n n

i j i . . j

Il valore della statistica del chi-quadrato dipende dalla numerosità del collettivo: si

2 ( )−1)

dimostra che . Per non far dipendere il Chi-quadrato dalla

=n∗(min

max χ I , J 2

numerosità totale, Pearson ha proposto l’indice . L’indice contingenza quadratica

ϕ

2 2

media è definito: questo indice, nel caso di indipendenza, assume il suo

ϕ = /n

χ

valore minimo che è zero. Il valore massimo è pari a 1 solo quando il numero di righe o

il numero di colonne è uguale a 2, altrimenti risulta maggiore di 1.

2 2 2

Un indice relativo lo otteniamo come: ϕ = /max ( )

χ ⁡ χ

Per definire un indice che sia pari ad 1 nel caso di perfetta interdipendenza occorre

2

calcolare il valore massimo che può assumere l’indice . Per una tabella di

ϕ 2

frequenze doppia con H righe e K colonne il valore massimo del è:

ϕ

Se H<K H-1: il carattere X dipende perfettamente da Y;

 

Se H>K K-1: Y dipende perfettamente da X;

 

Se H=K H-1=K-1: vi è perfetta interdipendenza tra i due caratteri.

  25

2

Cramér ha proposto di normalizzare l’indice rapportandolo al suo valore

ϕ

√ 2

ϕ

=

massimo. L’indice V di Cramer è dato da: Proprietà: 1)

V [ ]

( )

−1

min H ,( K−1)

0≤V≤1; 2) V=0 se i caratteri sono indipendenti; 3) V=1 se vi è dipendenza o

interdipendenza perfetta.

Un indice asimmetrico utile per analizzare la dipendenza è l’indice di Lambda. Questo

indice si basa sull’analisi del miglioramento della previsione del carattere Y data la

n

modalità del carattere X. Si assume la moda del carattere Y: indicando con la

. m

sua frequenza. Il numero di errori di previsione che possiamo commettere nel

=n−n

E

prevedere la modalità di Y sarà dato da ossia la frequenza dei casi che

1 . m

n

non corrispondono alla moda. Chiamata la frequenza della moda della riga i-

ℑi −n

n

xᵢ,

esima, il numero di errori che possiamo commettere, dato da è e quindi,

ℑi

i .

complessivamente, il numero di errori che commettiamo nel prevedere Y, noto il

H H

∑ ∑

( )

= −n =n−

E n n

valore di X, è dato da: ℑi ℑ

2 i . i

i=1 i=1

L’indice di Lambda è dato dal rapporto: λ=(E₁-E₂)/E₁. l’indice di Lambda, che misura la

H

∑ −n

n ℑ .m

i

dipendenza del carattere Y dal carattere X, è dato dalla formula: in

i=1

=

λ /

Y X n−n . m

=max(n )

n , n , … , n =max (n )

n , n , … , n

cui e

i i 1 i 2 iK . m .1 .2 . K

Il valore ottenuto dall’indice Lambda esprime di quanto si riduce l’errore di previsione

della modalità di Y se si conosce la modalità assunta dal carattere X. L’indice è pari a

zero se E₁=E₂, ed è pari a 1 se E₂=0

Proprietà dell’indice di Lambda

0 ≤ λ ≤1

1) /

Y X

=0

λ

2) se e solo se la conoscenza di una modalità di riga non è di nessun

/

Y X

aiuto nel prevedere la modalità del carattere di colonna.

=1

λ

3) se e solo se la conoscenza della modalità di riga specifica

/

Y X

completamente la modalità di colonna, in altre parole se ogni riga della tabella

contiene al massimo una sola frequenza diversa da zero.

=0

λ

4) Se X e Y sono indipendenti, allora ma non è vero il contrario, in quanto

/

Y X

Lambda può essere uguale a zero anche se i due caratteri non sono

indipendenti.

Misura della dipendenza di un carattere quantitativo da un carattere qualitativo o

quantitativo discreto

L’analisi della dipendenza può essere condotta confrontando le distribuzioni

condizionate del carattere Y in corrispondenza delle diverse modalità del carattere X.

Ognuna di queste distribuzioni può essere sintetizzata attraverso la corrispondente

1 ∑

=

ý y

media e varianza condizionata: X= x j

n

i ∈

j A

i. i

1 2

2 = ( − )

σ y ý per i= 1,2,…,H ; Aᵢ è l’insieme degli indici delle unità per

/ =x =x

Y X j X

n

i i

j A

i . i

cui si verifica X=xᵢ

Queste statistiche varieranno al variare delle modalità del carattere X e risulteranno

diverse dalla media e dalla varianza della distribuzione marginale del carattere Y. Si

può introdurre un concetto più debole di indipendenza confrontando i valori delle

distribuzioni condizionate di Y. Si dirà che Y è indipendente in media da X se tutte le

medie condizionate di Y sono fra loro uguali e uguali quindi anche alla media 26

=ý

marginale. Un carattere quantitativo Y è indipendente in media da X se: per

X= x i

ogni i=1,2,…,H

Quando il carattere X è quantitativo discreto o almeno ordinato, possiamo

rappresentare le osservazioni mediante un grafico di dispersione e unire i punti

corrispondenti alle medie condizionate attraverso una spezzata chiamata spezzata di

regressione. Nel caso di indipendenza in media la spezzata di regressione assume la

forma di una retta parallela all’asse delle ascisse.

Una proprietà della media condizionata è: la media aritmetica delle medie

condizionate di Y dato X è uguale alla media della distribuzione marginale di Y, ossia:

x i

H . Utilizzando tale proprietà è possibile calcolare la varianza delle medie

1 ∑ =

ý n ý

¿ i .

n i=1

condizionate tramite la formula:

X

/¿

Y ¿

y −´¿

ý ; inoltre si può calcolare la media delle varianze condizionate come:

X= x i

¿

¿

¿ ¿

Media

σ ¿ H

1 ∑

( )

2 2

=

Media σ σ n . Per definire un indice che misuri la dipendenza in media

/ / =

Y X Y X x i .

n i

i=1

di un carattere continuo rispetto a un carattere qualitativo o discreto è necessario

introdurre una proprietà della varianza che prende il nome di scomposizione della

varianza. La variabilità complessiva di un carattere Y rispetto a un carattere X può

X

/¿

Y ¿

essere scomposta come: Media¿

2 =σ

σ ¿

Y

Quindi la varianza può essere data dalla somma di due termini: la varianza delle medie

condizionate e la media delle varianze condizionate. Il primo termine viene detto

anche varianza spiegata e rappresenta la parte di variabilità totale riprodotta dalle

medie condizionate. Il secondo termine viene detto varianza residua e misura la

variabilità delle distribuzioni condizionate rispetto alle proprie medie.

Considerando la scomposizione della varianza, si può introdurre l’indice della

2

dipendenza in media. Il rapporto di correlazione è definito come il rapporto tra

η /

Y X

X

/¿

Y ¿

la varianza spiegata e la varianza totale, ossia: .

2

σ Media¿

2 =¿

η /

Y X

Proprietà del rapporto di correlazione:

Si tratta di un indice compreso tra 0 e 1.

 2

Se c’è indipendenza , ma il viceversa non è sempre vero. Quando

 =0

η

2 diciamo che c’è indipendenza in media.

=0

η 2

Se a ogni valore di X corrisponde un solo valore di Y, ossia dipendenza

 =1

η 2

perfetta. In tal caso anche il è massimo.

χ 27

Misura dell’interdipendenza tra due caratteri quantitativi

Diagramma a dispersione

Un diagramma a dispersione mostra la relazione fra due variabili quantitative misurate

sulle stesse unità statistiche. I valori di una variabile appaiono sull’asse orizzontale ed

i valori dell’altra sull’asse verticale.

Ogni singola unità appare come un punto nel grafico, determinato dai valori che le due

x́ ý

variabili assumono per essa. Consideriamo le variabili scarto, X’=X- e Y’=Y- ,

ottenute come differenze tra i valori della X e della Y dalla propria media. Con questa

trasformazione si ottiene una traslazione sul piano cartesiano della nuvola senza che

le distanze tra i suoi punti vengano alterate. Grafico di dispersione degli scostamenti

dalla media

Esaminare un diagramma a dispersione: In qualsiasi grafico, occorre cercare

l’andamento generale e le eventuali deviazioni evidenti rispetto ad esso. L’andamento

generale di un diagramma a dispersione si descrive attraverso la forma, la direzione e

la forza della relazione. Un outlier, ovvero un valore singolo che non segue

l’andamento generale della relazione, è un importante tipo di deviazione dal modello

complessivo.

In questo grafico gli assi che si intersecano nel punto (0,0) suddividono il piano in

quattro quadranti, numerati in senso orario a partire dal primo in alto a destra. Così le

ragioni che appartengono al primo (I) quadrante possiedono sia X’ che Y’ di segno

positivo. Analogamente, le ragione del terso (III) quadrante possiedono X’ e Y’

entrambi negativi. Due variabili sono associate positivamente quando i valori sopra la

media di una tendono ad associarsi con i valori sopra la media dell’altra e allo stesso

modo si comportano i valori sotto la media. Due variabili sono associate

negativamente quando i valori sopra la media di una tendono ad associarsi con i valori

sotto la media dell’altra e viceversa. Le ragioni appartenenti a questi due quadranti

possiedono scostamenti concordi. Mentre le ragioni del secondo (II) e quarto (IV)

quadrante possiedono scostamenti discordi: X’ positivo e Y’ negativo o viceversa. I due

caratteri quantitativi presentano concordanza se la maggior parte degli scostamenti

sono concordi. Al contrario, sussiste discordanza se la maggior parte degli scostamenti

sono discordi.

Un indice simmetrico che misura la concordanza o la discordanza tra due caratteri

quantitativi è la covarianza.

La covarianza tra due caratteri quantitativi è definita come la media dei prodotti degli

y ý

i

(¿)( −x́)

x i

scostamenti delle variabili X e Y delle rispettive medie: n

1 ∑

= ¿

σ XY n i=1 28

La covarianza è positiva se al numeratore prevalgono i prodotti di scostamenti

concordi, mentre è negativa se prevalgono i prodotti di scostamenti discordi. Il

numeratore della covarianza è detto codevianza. Se due caratteri sono statisticamente

indipendenti la loro covarianza è 0, pero se la covarianza è nulla non è detto che i due

caratteri siano indipendenti. Infatti la covarianza si annulla se i prodotti degli

scostamenti dalla media si compensano fra loro, ma ciò può avvenire anche se tra i

due caratteri sussiste una relazione di dipendenza ma non lineare.

Un difetto della covarianza è che non può essere calcolato su diverse distribuzioni

doppie. Per ovviare ciò è opportuno trasformare la covarianza in un indice relativo, in

tal caso si analizza il campo di variazione della covarianza. La covarianza può

−σ σ ≤ σ ≤ σ σ σ

assumere valori all’interno del segue intervallo: dove e

X Y XY X Y X

σ sono le deviazioni standard di X e Y. Misurare l'associazione lineare: la

Y

correlazione

Tramite un diagramma a dispersione possiamo osservare la forma, la direzione e la

forza della relazione fra due variabili quantitative. Le relazioni lineari, ovvero le

relazioni la cui forma è rappresentabile tramite una

linea retta, sono abbastanza comuni. E’ possibile affermare che una relazione lineare è

forte se i punti si trovano vicini ad una linea retta. La relazione è invece debole se i

punti si trovano molto lontani da una retta. E’ necessario utilizzare un indice numerico

per supportare l'informazione data da un grafico.

La correlazione è la misura che utilizzeremo in questo caso. Il coefficiente di

correlazione, che indichiamo con r, misura la direzione e la forza della relazione lineare

fra due variabili quantitative. ( )( )

−x́ −

n x y ý

∑ i i

=

r

Il coefficiente di correlazione r fra x e y è dato da La media e

XY s s

i=1 x y

s

x́ ý

x , y

la deviazione standard per i valori di sono e per i valori di sono e

x

s .

y

Aspetti della correlazione: La correlazione non distingue fra variabili esplicative e di

risposta. Nel calcolare la correlazione non fa differenza quale variabile sia x o y. La

correlazione richiede che entrambe le variabili

siano quantitative. Dato che r utilizza i valori standardizzati delle osservazioni, r non

cambia quando si cambiano le unità di misura di x, di y o di entrambe. Il coefficiente di

correlazione r non ha unità di misura: è soltanto un numero. La correlazione r è

sempre un numero compreso tra -1 e 1: -1 ≤ r ≤ 1

Indica la direzione di una relazione lineare tramite il segno: r > 0 indica

un'associazione positiva e r < 0 indica un'associazione negativa. r = 0 indica assenza

di relazione lineare. Valori di r vicini a 0 indicano una relazione lineare molto debole.

La forza della relazione lineare aumenta quando r si sposta da 0 a -1 o da 0 a +1.

Valori di r vicino a -1 o 1 indicano che i punti in un diagramma a dispersione si trovano

vicino ad una linea retta. I valori estremi r =-1 e r =1 si hanno solo in caso di relazione

lineare perfetta, cioè se i punti si trovano esattamente lungo una linea retta. Come la

media e la deviazione standard, anche la correlazione non è resistente: r è fortemente

influenzata da una minima parte di outliers. Bisogna utilizzare r con attenzione quando

gli outliers appaiono nel diagramma a dispersione.

La correlazione r misura la forza e la direzione dell'associazione lineare fra due

variabili quantitative x e y.

Sebbene sia possibile calcolare la correlazione per qualsiasi diagramma a dispersione,

r misura soltanto relazioni lineari.

7. IL MODELLO DI REGRESSIONELINEARE SEMPLICE

Le relazioni lineari fra due variabili quantitative sono facilmente riconoscibili e

piuttosto comuni. Il coefficiente di correlazione r misura la direzione e la forza di

queste relazioni. Quando un diagramma a dispersione indica una relazione lineare,

potremmo riassumerne l'andamento generale tracciando una linea sul grafico. Una 29

retta di regressione sintetizza la relazione fra due variabili, ma soltanto in ambiti

specifici: ovvero se una delle due aiuta a spiegare o a prevedere l'altra. Una retta di

regressione descrive una relazione fra una variabile esplicativa e una variabile di

risposta.

Relazione funzionale e relazione statistica tra due variabili

Una retta di regressione descrive come cambia una variabile di risposta o dipendente

Y quando cambia la variabile esplicativa o indipendente X. Spesso usiamo una retta di

regressione per prevedere il valore di Y per un dato valore di X. Una variabile Y è una

funzione di X se a ogni valore di X corrisponde uno e un solo valore di Y. In tal caso,

diciamo che esiste una relazione funzionale tra le due variabili.

=β +

Y β X β e β

Una relazione funzionale lineare si può scrivere come in cui

0 1 0 1

β

sono delle quantità costanti; è chiamata intercetta perché è l’altezza alla quale

0 β

la retta incontra l’asse Y, ossia il valore di Y per X=0, mentre è chiamato

1

coefficiente angolare perché esprime l’incremento di Y per un incremento unitario di X.

Esempio: Reddito (in migliaia di euro) e quota percentuale di spese per consumi

alimentari [(spesa per consumi alimentari/spesa totale per consumo)·100] di 13

famiglie r = -0.7485

La retta di regressione descrive

l’andamento generale della relazione: possiamo usarla per prevedere la quota % di

spese alimentari dato il reddito

Per descrivere e analizzare i fenomeni empirici è opportuno introdurre una relazione

più complessa di quella funzionale che prende il nome di relazione statistica. Una

relazione statistica tra una variabile indipendente X e una variabile dipendente Y può

( )

=f +ε

Y X f(X)

essere descritta l’equazione: in cui definisce il contributo della

variabile esplicativa al valore della variabile risposta Y mentre ε rappresenta il

contributo di tutti gli altri fattori, non osservati, in grado di influenzare la risposta ed è

quindi una variabile casuale. f(X)

Per ciascun valore di X, il valore medio di ε è nullo. In base a tale assunzione la è

la media condizionata della Y per un valore fissato di X. Tale funzione viene chiamata

30

funzione di regressione e descrive come il valore medio di Y varia al variare di X. La

variabile casuale ε giustifica la differenza tra il valore osservato di Y per un valore

f(X).

fissato di X e il valore medio corrispondente Per questa ragione ε è chiamato

errore. In una relazione statistica vi è una componente deterministica, rappresentata

f(X)

da e una componente stocastica, rappresentata dalla variabile casuale ε.

L’analisi della regressione è una tecnica il cui scopo è appunto quello di stimare la

funzione di regressione e la grandezza dell’errore ε.

Specificazione del modello di regressione lineare semplice

Il più semplice modello di regressione è il modello di regressione lineare semplice. In

=β +

Y β X

f(X)

esso si assume che la funzione di regressione sia lineare, cioè che ,

0 1

β e β

in cui sono valori incogniti da stimare. Questi corrispondono all’intercetta e al

0 1

coefficiente angolare di una retta sul piano e sono chiamati coefficienti di regressione.

Il modello di regressione lineare si dice semplice quando si considera una sola

variabile esplicativa. Le assunzioni del modello di regressione lineare semplice si

riferiscono al processo che genera le n coppie di dati disponibili,

( ) ( ) ( )

x , y , x , y ,… , x , y e sono le seguenti:

1 1 2 2 n n =β + +ε

Y β x

Assunzione 1 per ogni osservazione i=1,…n

 i 0 1 i i

ε

Assunzione 2 Le sono variabili casuali (v.c.) indipendenti con valore

 i 2

( ) ( )

=0

E ε =σ

V ε

atteso e varianza costante per ogni i=1,…,n

i i

indipendentemente dal valore della X.

x

Assunzione 3 I valori della variabile esplicativa X sono noti senza errore.

 i f(X)

La prima assunzione implica che tra le possibili funzioni che possono descrivere il

legame tra la variabile dipendente e la variabile esplicativa, si è scelta la funzione

εᵢ ᵢ

lineare. Ogni è una variabile casuale poiché rappresenta gli scostamenti di Y dal suo

valore atteso. La condizione di varianza costante viene detta ipotesi di

omoschedasticità: per ogni valore fissato di X, la Y possiede sempre lo stesso grado di

variabilità. +

β β x

xᵢ,

Per ogni è una costante e E(εᵢ)=0 (assunzioni 2 e 3); da ciò discende che

0 1 i

il valore atteso di Yᵢ condizionato al valore X=xᵢ è:

|

( ) ( ) ( )

=x =E + + = + + =β +

E Y X β β x ε β β x E ε β x

i i 0 1 i i 0 1 i i 0 1 i

yᵢ

Le osservazioni sono realizzazioni di variabili casuali indipendenti con valore atteso

+

β β x 2

e varianza comune .

σ

0 1 i

Stima puntuale dei coefficienti di regressione

E’ necessario trovare un modo per identificare una retta che non dipenda dalle nostre

congetture su dove sia posizionata. La linea viene tracciata per prevedere y in base ai

valori di x; gli errori di previsione sono errori sulla y, la direzione verticale nel grafico.

(xᵢ; yᵢ),

Osserviamo coppie di valori i = 1; … ; n (nuvola dei punti osservati). Vogliamo

=β +

Y β x

costruire la retta (la funzione di equazione ) che passa "più vicino

0 1

possibile" alla nuvola dei punti osservati. Ciò equivale operativamente a determinare i

β e β

coefficienti della retta, in modo tale che sia minima la somma dei quadrati

0 1 ^

y

yᵢ

delle distanze tra le osservazioni e i valori trovati sulla retta di regressione ( ,

i

^ =β +

y β x xᵢ,

con ) in corrispondenza dei valori per i = 1; … ; n.

i 0 1 i

Il metodo di stima dei minimi quadrati consiste nel ricercare le stime di β₀ e β₁ che

n

∑ 2

( ) ( )

= −β −β

G β , β y x

rendono minima la funzione di perdita. . Chiameremo

0 1 i 0 1 i

i=1

^

e

residuo i-esimo e lo indicheremo con , la differenza tra il valore osservato yᵢ e il

i ^ ^ = − ^

y e y y

valore fornito dalla retta di regressione : .

i i i i

Dato che i residui mostrano quanto i dati si allontanano dalla retta di regressione, la

loro analisi aiuta a stabilire quanto bene la retta descrive i dati. Sebbene i residui 31

possano essere calcolati a partire da qualsiasi modello, i residui rispetto alla retta dei

minimi quadrati hanno una proprietà speciale: la media dei residui dei minimi quadrati

è sempre zero. Un grafico dei residui è un diagramma a dispersione in cui i residui

della

regressione vengono rappresentati rispetto alla variabile esplicativa. I grafici dei

residui aiutano a valutare

l’adattamento ai dati della retta di regressione. La retta ottenuta con il metodo dei

minimi quadrati rende minima la somma dei quadrati delle distanze verticali dai punti.

Un punto, estremo in direzione della x e

con nessun altro punto vicino, tende ad avvicinare la linea verso di sé. Chiameremo

questi punti influenti.

Un’osservazione è influente se, eliminandola, cambierebbe profondamente il risultato.

I punti che, in un diagramma a dispersione, possiamo considerare outlier in direzione

della x sono spesso punti influenti nella

determinazione della retta di regressione dei minimi quadrati. Un outlier è

un’osservazione che non segue il modello generale assunto dalla maggior parte delle

osservazioni.

Le stime dei minimi quadrati dei coefficienti di regressione sono date da:

n

∑ ( )( )

−x́ −

x y ý

i i ^ ^

^ i=1

=

β x́ e ý

=

, in cui sono rispettivamente le medie

β ý− β x́

1 0 1

n

∑ 2

( )

x x́

i

i=1 ^

β

campionarie di X e di Y. Poiché il numeratore di è n volte la covarianza

1

campionaria mentre il denominatore è n volte la varianza campionaria non corretta

^

della X, la stima può anche essere espressa come:

β 1 n n n

∑ ∑ ∑

n x y x y

i i i i

σ

^ ^

XY i=1 i=1 i=1

= =

β oppure β .

( )

1 1

2 2

n n

σ ∑ ∑

X 2 −

n x x

i i

i=1 i=1

^ ^

=

β ý− β x́

Dato che , possiamo riscrivere l’equazione della retta come

0 1

^ ( )

^ = + −

y ý β x x́ . Da questa espressione troviamo che il valore stimato della variabile

1 i x́ ý

dipendente per X= è uguale a . Quindi, la retta di regressione stimata passa

( )

x́ , ý .

sempre per il punto

La decomposizione della varianza totale e il coefficiente di determinazione

Le stime dei minimi quadrati dei coefficienti di regressione possiedono un’importante

proprietà che consente di valutare le capacità previste del modello stimato.

n n n

∑ ∑ ∑

2 2 2

^

( ) ( )

−ý = ^ − +

y y ý e

i i i

i=1 i=1 i=1

La suddetta relazione va sotto il nome di decomposizione della varianza totale.

Il termine a sinistra del segno di uguaglianza è la devianza della variabile

 dipendente Y detta Somma totale dei quadrati (SQT) ed è la somma dei

quadrati delle differenze dei valori osservati yᵢ dalla loro media, .

Il primo termine a destra dell’uguaglianza è detto Somma dei quadrati della

 regressione (SQR) e rappresenta la somma dei quadrati delle differenze dei

^

y ý

valori stimati dalla .

i 32

L’ultimo termine è detto Somma dei quadrati degli errori (SQE) ed è la somma

 dei quadrati delle differenze tra i valori osservati yᵢ e i valori stimati

^ ^

^ = + .

y β β x

i 0 1 i

SQT vale zero quando tutte le yᵢ sono uguali fra loro, quindi uguali al valore medio,

ossia non c’è variabilità nei dati. Il termine SQE può essere interpretato come il grado

di incertezza residua data la funzione di regressione stimata. Quando la relazione

lineare prevede perfettamente le osservazioni, si ha SQE=0. Il termine SQR

^

y

rappresenta la deviazione delle ma può anche essere interpretato come entità

i

della riduzione dell’incertezza del valore Y, noto il valore di X:più è grande SQR

rispetto a SQT, maggiore è la riduzione dell’incertezza residua. Le situazioni estreme

sono: se SQR=0, la relazione di regressione non riduce l’incertezza. In questo caso

SQE=SQT. Se SQR raggiunge il suo valore massimo, SQT, allora SQE=0. In questo caso

i dati descrivono una relazione funzionale e non statistica.

Quando si costruisce una regressione r² va interpretato come una misura della bontà

di adattamento del modello ai dati. Una volta calcolato il coefficiente di correlazione r,

il suo quadrato, r², ci dà un'ulteriore idea del grado di forza dell'associazione. Spesso r²

si indica con R² e viene detto coefficiente di determinazione.

SQR SQE

2 = =1−

R

Il rapporto è chiamato coefficiente di determinazione e indica la

XY SQT SQT

proporzione di variabilità di Y spiegata dalla variabile esplicativa X, attraverso il

modello di regressione. Il coefficiente di determinazione varia tra 0 e 1: vale zero in

assenza di relazione statistica di tipo lineare, vale uno in presenza di perfetta

dipendenza lineare.

Correlazione perfetta (r = +1 o r = -1)

- tutti i punti si trovano esattamente su di una retta

- r² = 1 e la variabilità di una variabile è in grado di spiegare perfettamente la

variabilità dell'altra variabile.

Proprietà degli stimatori dei coefficienti e della risposta media

Una misura della variabilità degli stimatori dei coefficienti di regressione e della

risposta media è data dagli errori standard, ossia dalle radici quadrate di V(B₀), V(B₁),

√ √ ( ) ( )

^ ^

( ) ( ) ( ) ( )

indicate da . In base alla formula

= = =

σ B V B , σ B V B e σ Y V Y

0 0 1 1 i i [ ]

2

( )

−x́

x

x́ 1

2

( ) =−σ =−x́ (B ) ( )

Cov B , B V i

^ 2

=σ +

V Y

0 1 1

n i n

e alla formula gli

n

∑ 2 ∑

( )

−x́ 2

x ( )

x x́

i h

i=1 h=1

errori standard dipendono dalla quantità ignota σ²=V(Yᵢ)=V(εᵢ). A questo punto

^

e

possiamo introdurre uno stimatore della varianza dei residui . Dato che possiamo

i

^

e

considerare il residuo come una stima dell’errore εᵢ, è ragionevole pensare che la

i

^

e

varianza dei residui sia un buon stimatore della varianza σ² degli errori εᵢ. Lo

i n

∑ 2

^

e i

stimatore corretto della varianza dei residui è dato da: La radice quadrata

2 i=1

=

s n−2

di s² è una misura della variabilità degli scostamenti dei valori osservati da quelli

previsti dal modello. Per tale motivo viene chiamato errore standard di regressione.

8.PROBABILITA’

Esempio: Quale percentuale di italiani maggiorenni ha giocato al lotto negli ultimi 12

mesi?

In un campione casuale di 1523 cittadini italiani adulti, 868 hanno affermato di aver

giocato al lotto. La proporzione dei giocatori di lotto nel campione è: proporzione

campionaria 868/1523= 0.57 cioè il 57%. Non possiamo conoscere precisamente 33

quale percentuale di tutti gli italiani adulti gioca al lotto. Possiamo stimare tale

percentuale con il 57%.

Che cosa succederebbe se si prendesse un altro campione casuale di 1523 cittadini?

Il nuovo campione sarebbe formato da persone differenti ed è quasi certo che non ci

saranno di nuovo 868 giocatori. La stima della proporzione di giocatori al lotto varierà

da campione a campione.

Concetti primitivi

I concetti primitivi rappresentano le nozioni originarie e intuitive su cui viene costruita

successivamente tutta la teoria. I concetti primitivi della teoria delle probabilità sono:

la prova, l’evento, la probabilità. In una data prova, l’evento E si verifica con la

probabilità P(E). Esempio nel lancio di un dato la faccia contrassegnata dal numero 5

(E=5) si presenta con la probabilità P(E=5)=1/6.

La prova (o esperimento aleatorio) è un esperimento che ha due o più possibili risultati

e in cui c’è un certo grado di incertezza su quale di questi risultati si presenterà. La

prova può essere suddivisa in diverse fasi che si definiscono sottoprove. (Es. il

prova:

lancio di due dadi, sottoprova: la prova è suddivisa in due sottoprove, ossia il lancio di

ogni singolo dado). Si possono distinguere due eventi. Per evento elementare, indicato

con ωᵢ, si intende uno dei possibili risultati della prova. Per evento non-elementare si

intende un evento che può essere a sua volta scomposto in più eventi elementari. (Es.

prova lancio di un dado i possibili eventi elementari sono {1;2;3;4;5;6} mentre

nella

un evento non elementare è “esce un numero pari”, che si verifica ogni volta che esce

uno qualsiasi degli eventi elementari {2;4;6}.

La probabilità è un numero compreso tra 0 e 1 che misura il grado di incertezza sul

verificarsi di un evento. Un evento con probabilità 0 non si verifica mai mentre un

evento con probabilità 1 si verifica in ogni ripetizione dell'esperimento. Un evento con

probabilità 0.5 si verifica, nel lungo periodo, in metà delle prove. La somma delle

probabilità deve essere uguale a 1.

Eventi ed algebra degli eventi

L’insieme di tutti gli eventi elementari costituisce l’evento E. E’ conveniente introdurre

una collezione di eventi E={E₁,E₂,…,Ep}, tutti sottoinsiemi di Ω la cui struttura

matematica è quella di un’algebra di Boole.

POSTULATO 1: gli eventi formano un’algebra di Boole. L’algebra di Boole è una

struttura matematica sui cui elementi sono definite tutte le operazioni e le regole

necessarie per un’algebra degli eventi.

Tre operazioni fondamentali:

1. La negazione di un evento A, ossia .

Á ∩

2. L’intersezione tra due eventi A e B, ossia A B.

3. L’unione tra due eventi A e B, ossia A B.

Dato un evento A, la sua negazione è data dall’evento “A non si verifica”. Dati due

eventi, A e B, la loro intersezione è data dall’evento “Tutti e due gli eventi A e B si

verificano contemporaneamente”. Dati due eventi, A e B, la loro unione è data

dall’evento “Almeno uno degli eventi A e B si verifica”.

L’insieme di tutti i possibili eventi elementari ωᵢ, viene chiamato spazio campionario e

viene indicato con il simbolo Ω. In base a tale definizione avremo che E Ω, dove

⊃ il simbolo indica inclusione. ∅

Un evento è impossibile quando non può mai verificarsi, si indica con il simbolo .

Un evento è certo se si verifica sempre, in quanto comprende tutti i possibili risultati

dell’esperimento. Due eventi, A e B, si dicono incompatibili se si verifica che A B=

∅ Definiamo due eventi A e B incompatibili se non hanno risultati dello spazio

campionario in comune e non possono quindi avere luogo contemporaneamente

(disgiunti). 34

I postulati

Proprietà assiomatiche POSTULATO 2:la probabilità P(A) di un evento A soddisfa

P(A)≥0 per qualsiasi evento A. POSTULATO 3: se S è lo spazio ∅

campionario in un modello probabilistico, allora P(S)=1. POSTULATO 4: A B=

⟹ ∪

P(A B)=P(A)+P(B); Se A e B sono disgiunti allora P(A U B) = P(A) + P(B)

Questa è la legge della somma per eventi disgiunti. ( )=P ( ) ( )−P(

∪ +

P A B A P B A ∩ B)

In una prova, dati due eventi qualsiasi A e B, si ha

Dal sistema di postulati sono deducibili varie proprietà, cioè:

( )

( ) ( )=0 ( ) ( ) ( ) ( )=1⟹ ( )=P ( ) ( )=0 (

∅ ⊂ ⟹ ⟹

=1−P

0 ≤ P A ≤1 ; P ; B A P B ≤ P A ; P Á A ; P B P B ∩ A A ; P B P B

Misura della probabilità nell’approccio classico

Definizione classica di probabilità

La probabilità è data dal rapporto tra il numero di casi favorevoli all’evento e il numero

dei casi possibili purché essi siano tutti ugualmente possibili. Probabilità del verificarsi

n . dicasi favorevoli

( )=

P E

di un evento E: n . di casi possibili

Nella definizione classica di probabilità, sussiste un “vizio” logico consistente

nell’assumere che i casi possibili siano in effetti “equipossibili”, e dunque

equiprobabili. Tale “vizio” è legato ad una nozione “primitiva” quale la simmetria

associata ad aspetti del mondo fenomenico reale.

Probabilità condizionate e indipendenza

La probabilità che associamo ad un evento dipende dalle informazioni a disposizione.

Talvolta occorre calcolare la probabilità di un evento dopo aver constatato che si è

verificato un altro evento, logicamente o temporalmente collegato al primo.

Esempio: Da un'urna contenente 5 palline rosse e 7 palline nere si estrae una pallina

(senza rimetterla nell'urna) e poi una seconda: Qual è la probabilità che la seconda

pallina sia nera? Qual è la probabilità che la seconda

pallina sia nera, sapendo che la prima estratta è rossa? Le due

domande hanno risposte diverse perché diversa è l’informazione che abbiamo nei due

casi. Per gestire il secondo problema occorre introdurre il concetto di condizionamento.

Conoscere l’esito della prima estrazione modifica lo spazio dei possibili risultati della

seconda estrazione e di questo occorre tenere conto nel valutare la probabilità.

Esempio: Se lanciamo un dado la probabilità di ciascuna faccia è 1/6. Ma se ci viene

detto che è uscito un numero dispari, nessuno è disposto a scommettere sulle facce 2,

4 o 6! Lo spazio campionario S, cioè l'insieme dei risultati possibili, si è ridotto da

{1,2,3,4,5,6} a {1,3,5}.

Cambiano le valutazioni di probabilità sugli eventi di S: ad alcuni viene data probabilità

0 e viene modificata la probabilità dei rimanenti.

Esempio: Estraiamo a caso due carte da un mazzo di 52. Vinciamo un Euro se la

seconda carta estratta è la regina di cuori. Qual è la probabilità di vincere? Possiamo

scegliere la prima carta in 52 modi diversi, per

ognuno di questi abbiamo 51 modi di scegliere la seconda carta tra quelle restanti nel

mazzo. Quindi i casi possibili sono 52·51. Sono favorevoli all'evento tutti quei casi in

cui la seconda carta è Q di cuori e la prima è una qualsiasi delle 51 restanti. Quindi i

casi favorevoli sono 51. Allora P(vincere)=51/(52*51)=1/52 Qual è la probabilità di

vincere, se la prima carta estratta è il 7 di picche? Sappiamo che la prima carta è il 7

di picche e che la seconda possiamo sceglierla a caso tra le 51 restanti. Quindi i casi 35

possibili sono 51. Sono favorevoli all'evento tutti quei casi in cui la seconda carta è Q

di cuori, mentre la prima è necessariamente il 7 di picche. Quindi c’è un solo caso

favorevole. Allora La probabilità di vincere è maggiore nel

secondo caso: siamo sicuri che Q di cuori non è stata estratta come prima!

Siano A e B due eventi (sottoinsiemi di S), la probabilità condizionata dell’evento A

sapendo che (dato che) si è verificato l’evento B si scrive P(A | B) e si ottiene dalla

formula P(A | B) = P(A ∩ B) / P(B). Applicando la definizione classica di probabilità si ha

( (

n .dei casi favorevoli ad A ∩B) P A ∩B)

| |

( )= ( )=

P A B → P A B

che: n . dei casi favorevoli a B P(B)

Si definisce probabilità condizionata di A dato B il rapporto tra la probabilità

(A

P ∩ B)

|

( )=

P A B

dell’evento (A B) e la probabilità dell’evento B: con P(B)>0.

P( B)

(A

P ∩ B)

|

( )=

P B A

Con la stessa logica si ottiene se P(A)>0.

P( A)

Esempio: Ricchi & Famosi, In una città il 10% dei cittadini è ricco, il 5% è famoso e il

3% è sia ricco che famoso. Se si sceglie una persona a caso nella città ed è ricca, qual

è la probabilità che sia anche famosa?

Sia ricco

Famoso ricco

che famoso P(R) = 0.1

P(F) = 0.05; P(R ∩ F) = 0.03; P(F | R) = 0.03 / 0.1= 0.3

Per ogni coppia di eventi A e B (non solo quelli per cui P(B) ≠ 0), la probabilità che si

verifichino entrambi può essere ricavata come: P(A∩B) = P(B)* P(A|B) o anche P(A∩B)

= P(A)* P(B|A) affinché si verifichino entrambi gli eventi, prima se ne deve verificare

uno e dopo, dato che si è verificato il primo evento, si deve verificare anche l'altro.

Principio delle Probabilità Composte.

Questa proprietà è chiamata In base al principio

delle probabilità composte, possiamo introdurre il concetto di indipendenza tra eventi.

Due eventi A e B si dicono indipendenti se il verificarsi di B non influenza la probabilità

di A e il verificarsi di A non influenza la probabilità di B, ossia se

| |

( )=P ( ) ( )=P(

P A B A e P B A B) da cui si ricava

(B

P ∩ A)

| | |

( )= ( ) ( )

=P =P (B) ( ) ( )

P B A B P B ∩ A × P( A) P A B e P B A

. sono definiti

P( A)

solo per P(A)>0 e P(B)>0 per cui risulta più comoda la definizione: dati due eventi A e

B si dicono indipendenti se e solo se P(A B)=P(A)*P(B), che vale anche quando

P(A)=0 e P(B)=0

Se A è indipendente da B, B è indipendente da A? Si, l’indipendenza è reciproca: se A è

indipendente

da B anche B lo è da A e viceversa. Infatti: se A è indipendente da B: P(A|B) = P(A) ma,

dalla regola del prodotto: P(A∩B) = P(A|B) P(B) = P(A) P(B). Dal momento che si ha

anche: P(A∩B) = P(A) P(B|A) risulta

P(B|A) = P(B).

Quando la prova è composta di sottoprove e gli eventi A e B si riferiscono a due

sottoprove diverse, il verificarsi della relazione d’indipendenza per tutte le coppie di

eventi delle 2 sottoprove le caratterizza come sottoprove indipendenti.

Esempio: Lanciamo due dadi e consideriamo gli eventi A = {la somma delle facce è

7} e B = {il primo dado dà

4}. Gli eventi A e B sono indipendenti? Si, poiché P(A) = 6/36 = 1/6 e P(B) = 1/6.

Inoltre 36

P(A e B) = P (4 e poi 3) = 1/36 = P(A)P(B). Consideriamo ora gli eventi C= {la somma

delle facce è 6} e B = {il primo dado dà 4}. Gli eventi C e B sono indipendenti? Dal

momento che P(C∩B) =1/36 ≠5/36 ·1/6= P(C) P(B)

C e B non sono indipendenti la probabilità di ottenere 6 con due dadi dipende da cosa

ottengo lanciando il primo!

Importante: i concetti di incompatibilità e di indipendenza sono profondamente

diversi! L'incompatibilità è una caratteristica degli eventi (sono disgiunti) ed indica il

fatto che A e B non possono verificarsi assieme, cioè A ∩ B = Ø e quindi P(A ∩ B) = 0.

L'indipendenza si riferisce alle probabilità che noi associamo agli eventi e non alla loro

natura e si traduce in P(A ∩ B) = P(A) P(B). Eventi disgiunti non possono essere

indipendenti.

Il teorema di Bayes

La regola delle probabilità condizionate pesate. Se B1, … , Bn formano una partizione

∩ ∩ ∩

di S, allora per ogni evento A: P(A) = P(A B₁) + P(A B₂) + … + P(A Bn)

= P(A|B₁) P(B₁) + P(A|B₂) P(B₂) +…+ P(A|Bn) P(Bn)

Consideriamo una partizione dello spazio campionario, cioè un insieme di eventi:

A₁,A₂,…,Ak tali che:

=∅

A ∩ A i≠ j

a. , ossia a due a due incompatibili;

i j

¿ ¿ =Ω

i=1 K A

b. .

i |

( )

A B

Ω

Sia poi B un altro evento incluso in . Le probabilità a posteriori P sono

i

calcolabili utilizzando l’espressione delle probabilità condizionate, ossia

P( A ∩B)

| |

i

( ) ( ) ( ) ( )

= =P ∗P

P A B i=1,2, … , k ma P A ∩ B A B A e inoltre, ricordando

i i i i

P(B) A

l’incompatibilità degli eventi , si può scrivere:

i ¿ i=1

( )

( )

K A ( ) ( ) ( ) ( ) ( ) (

( ) ( )=P ∪ ∪…∪

=P ¿ =P =P + +

P B B ∩Ω B ∩ A ∩ B A ∩ B A ∩ B A ∩B P A ∩ B …+ P A ∩ B

( )

i 1 2 K 1 2 K

Teorema di Bayes: dato un insieme esclusivo ed esaustivo di eventi: A₁,A₂,…,AK e un

evento B, si ha |

( ) ( )

∗P

P A B A

i i

|

( ) =

P A B i=1,2 , … , K

| | |

i ( ) ( ) ( ) ( ) ( ) ( )

∗P + ∗P +…+ ∗P

P A B A P A B A P A B A

1 1 2 2 K K

Nella formula sono presenti le seguenti probabilità:

1. Le probabilità degli eventi Aᵢ, che vengono denominate probabilità a priori.

|

( )

P B A

2. Probabilità condizionate dette anche verosimiglianze degli Aᵢ.

i |

( )

P A B

3. Le probabilità condizionate che rappresentano l’oggetto del nostro

i

interesse e vengono chiamate probabilità a posteriori, in quanto si riferiscono

agli eventi Aᵢ, dopo aver osservato l’evento B.

Esempio: In un gioco televisivo vi sono tre porte chiuse A, B e C. Solo dietro ad una di

esse è presente un

premio. Il conduttore della trasmissione chiede al concorrente di scegliere una delle

porte: il concorrente

vince il premio se sceglie la porta giusta. Supponiamo che il concorrente scelga la

porta A. Prima di aprirla, il conduttore apre la porta B e fa vedere che dietro non c‘è

niente. A questo punto chiede al concorrente se vuol cambiare la sua scelta e passare

da A a C. Cosa gli conviene fare? Consideriamo gli eventi

A = {il premio è dietro la porta A},

B = {il premio è dietro la porta B},

C = {il premio è dietro la porta C} e

G = {il conduttore apre la porta B}.

Sappiamo che all'inizio il premio può essere ovunque: P(A) = P(B) = P(C) = 1/3; se il

presentatore aprisse la 37

porta dietro cui è contenuto il premio, il gioco finirebbe P(G|B)=0; se il premio è dietro

a C il presentatore è

costretto ad aprire la porta B P(G|C)=1; se il premio è dietro la porta A il presentatore

sceglie a caso la porta da aprire tra B e C P(G|A)=1/2; Allora: P(G)=P(G|A) P(A) + P(G|

B) P(B) + P(G|C) P(C)= 1 ∗1/3

|

( )∗P(

P G A A) 2 1

=1/2*1/3+0 *1/3+1*1/3 = ½ e ; Dal momento che

|

( )= = =

P A G /2

1 3

P( G)

P(B|G)=0, si ha: P(C|G) =2/3 al concorrente conviene cambiare e scegliere C.

Intuitivamente 3 casi possibili (ciascuno con probabilità 1/3):

1. il giocatore sceglie la 1a porta senza premio il conduttore sceglie l'altra porta

senza premio;

2. il giocatore sceglie la 2a porta senza premio il conduttore sceglie l'altra porta

senza premio;

3. il giocatore sceglie la porta con il premio il conduttore sceglie una delle due porte

senza premio (non

importa quale).

In 1 e 2, cambiando il giocatore vince il premio; in 3 il giocatore che cambia non vince.

La strategia "cambiare" porta alla vittoria in due casi su tre, quindi la probabilità di

vincere cambiando è 2/3.

Le diverse concezioni della probabilità

Per calcolare la probabilità di un evento “ripetibile” possiamo valutare la proporzione

(o la percentuale) di volte in cui l’evento si verifica, quando l'esperimento viene

ripetuto moltissime volte. Intuitivamente, la frequenza relativa di volte in cui l'evento

si verifica fornisce informazioni sulla propensione dell'evento a verificarsi.

Vi è una concezione della probabilità più ampia, che è denominata concezione

frequentista che si basa sulla ripetibilità della prova. In effetti, data una qualsiasi

prova, possiamo sempre immaginare di poterla ripetere al limite, infinite volte. Gli esiti

della prova, ossia gli eventi elementari che di volta in volta si presentano, non saranno

sempre gli stessi. Se eseguiamo n ripetizioni della stessa prova sarà interessante

osservare la frequenza con cui si presentano i singoli eventi elementari. Indicando con

n il numero di prove nelle quali si è verificato A, la frequenza relativa di A è data

A n numero prove con risultato A

A

( )= =

da: fr A n numero totale prova

Postulato empirico del caso: in un gruppo di prove ripetute più volte nelle stesse

condizioni, ciascuno degli eventi possibili compare con una frequenza

approssimativamente eguale alla sua probabilità; generalmente l’approssimazione

migliora quando il numero delle prove cresce.

La concezione frequentista della probabilità fornisce il fondamento di un’impostazione

inferenziale basata sul cosiddetto “Principio del Campionamento Ripetuto”. La

sostanza di tale principio consiste nella costruzione di procedure inferenziali che

posseggono proprietà ottimali “a lungo andare”, ossia al ripetersi dell’operazione di

campionamento.

Esiste, tuttavia, un’altra concezione della probabilità, la concezione soggettiva: la

probabilità di un evento è la misura del grado di fiducia che un individuo coerente

.

attribuisce al verificarsi dell’evento in base alle informazioni in suo possesso

Probabilità soggettiva: la probabilità di un evento E, P(E), secondo l’opinione di un

individuo coerente, è il prezzo p che egli stima equo attribuire a un importo unitario

(es. 1€) esigibile solo al verificarsi di E. L’unicità della misura di probabilità soggettiva

è riferita al contesto di valutazione nel quale il soggetto esprime la propria opinione,

date le informazioni a sua disposizione.

La nozione di probabilità soggettiva ha un significato più ampio rispetto a quella di

probabilità frequentista poiché esistono dei casi nei quali all’evento non è associabile

38

uno schema di prove ripetute e di frequenze osservabili. L’approccio inferenziale

basato su di una concezione soggettivista della probabilità è detto Bayesiano. Esso

costituisce un’alternativa all’approccio frequentista e in alcune situazioni porta a

risultati (inferenze induttive) differenti da quest’ultimo, pur in presenza degli stessi

dati statistici. Ciò è dovuto al fatto che esso utilizza un’informazione che l’approccio

frequentista non usa: la probabilità a priori.

9. VARIABILI CASUALI E DISTRIBUZIONI DI PROBABILITA’

Variabili casuali (o aleatorie)

Una variabile casuale (o aleatoria, o definita anche variabile stocastica) X è una

funzione definita sullo spazio campionario Ω (o S) che associa a ogni risultato

elementare ωᵢ un unico numero reale. La distribuzione di probabilità di una variabile

aleatoria ci dice quali valori la X assume e con quali probabilità. Ci sono due tipologie

di variabili casuali, corrispondenti ai due diversi modi di attribuire le probabilità:

discrete e continue. Le variabili casuali che possono assumere un numero finito (o

discrete.

un’infinità numerabile) di valori, vengono definite Le variabili casuali che

possono assumere qualsiasi valore in un dato intervallo, con probabilità date dalle

continue.

superfici al di sotto della curva di densità, vengono definite Se lo spazio

campionario è discreto, la v.c. sarà discreta, mentre se Ω è continuo, la v.c. può essere

continua o discreta. Esempio: consideriamo una prova consistente nell’osservare

l’altezza di un individuo. In tal caso Ω è continuo perché contiene un’infinità non

numerabile di eventi (tutte le possibili altezze). La v.c. “altezza” è continua in quanto

può assumere, almeno in teoria, tutti i possibili valori dell’intervallo. Se però

consideriamo due eventi E₁=altezza superiore o uguale ai 150 cm ed E₂=altezza

inferiore ai 150 cm, possiamo definire una v.c. X che assume valore 1 in

corrispondenza di E₁ e valore 0 in corrispondenza di E₂. in tal caso otteniamo una v.c.

discreta.

Variabili casuali discrete

Una variabile casuale discreta X assume un numero finito o un’infinità numerabile di

valori: x₁, x₂, …, xk. La

distribuzione di probabilità di X associa una probabilità a ciascun risultato:

Proprietà:

Una v.c. discreta è completamente nota se sono noti i valori che questa può assumere

e le corrispondenti probabilità. In alcune situazioni, potremmo essere interessati non

alla probabilità che la variabile casuale X assuma uno specifico valore, bensì alla

probabilità che esso assuma un valore minore o uguale a un dato valore xᵢ. In tal caso

si devono considerare delle probabilità cumulate P(X ≤ xᵢ), che si riferiscono alla

probabilità degli intervalli (-∞; xᵢ]. Data una v.c. discreta X, la funzione che fa

corrispondere ai valori x la probabilità cumulata P(X ≤ xᵢ) viene detta funzione di

( )=P ( )=

F x X ≤ x P( X=w)

ripartizione ed è indicata con: .

w≤ x

Nel caso discreto, la distribuzione di probabilità può essere riassunta in una tabella:

• nella prima riga (colonna) mettiamo i valori che X può assumere;

• nella seconda riga (colonna) mettiamo le probabilità con cui i valori verranno

assunti. 39

Variabili casuali continue

Una variabile casuale continua X può assume tutti i valori in un intervallo di numeri

reali. Questa viene descritta tramite la funzione di densità: f(x). Chiameremo funzione

f(x)

di densità della variabile casuale continua X la funzione matematica per cui l’area

sottesa alla funzione, corrispondente ad un certo intervallo, è uguale alla probabilità

che X assuma un valore in quell’intervallo. La probabilità che X assuma valori

all’interno di qualsiasi intervallo (a, b) è l’area sotto la curva f(x) e sopra l’intervallo (a,

b):

Data una v.c. continua X, la funzione che fa corrispondere ai valori x le probabilità

cumulate P(X ≤ x) viene detta funzione di ripartizione e indicata con:

x

( )=P ( )= ( )

F x X ≤ x f w dw . La funzione di ripartizione per una v.c. continua gode delle

−∞

stesse proprietà della funzione di ripartizione di una v.c. discreta.

Proprietà della funzione di densità: 1. Una funzione di densità non può mai assumere

f(x)≥0;

valori negativi, ossia ciò assicura che la probabilità che X cada in un qualsiasi

intervallo sia non-negativa. 2. L’area totale sottesa alla funzione è uguale a 1, ossia

+∞

∫ ( )

f x dx=1 . 3. La probabilità che la v.c. X assuma un particolare valore

−∞

dell’intervallo è zero. Ciò è dovuto al fatto che un singolo valore corrisponde a un

intervallo di ampiezza zero, quindi la corrispondente area è anch’essa zero.

Valore atteso e varianza di una variabile casuale

Il valore medio o atteso di una variabile casuale X, indicato con E(X), è definito come:

+∞

∑ ∫

( )

( )= ( )= ( )

E X x P x se la v . c . è discreta ; E X f x dx se la v . c .è continua

i i

i −∞

Una misura della variabilità della v.c. è la sua varianza. Per definire la varianza di una

variabile casuale X, dobbiamo saper calcolare il valore atteso di una funzione della

v.c. X, Y=g(X), ossia come calcolare il valore atteso della v.c. Y, E(Y). Il calcolo del

∑ ∑

( ) ( )

( )= = (x )

E Y y P y g x P

valore atteso nel caso discreto è: mentre nel caso

i i i i

i i

+∞ +∞

∫ ∫

( )= ( ) ( ) ( )

=

E Y y f y dy g x f x dx

continuo è: .

−∞ −∞

Esempio: consideriamo la seguente variabile casuale

X -2 -1 0 +1 +2

P(X) 0.1 0.2 0.4 0.2 0.1

E la sua funzione, Y=X². In corrispondenza di tale funzione possiamo definire la

distribuzione di probabilità della v.c. Y:

Y 0 +1 +4

P(Y) 0.4 0.4 0.2 40

Il valore atteso può essere calcolato come:

∑ ∑

( ) ( ) ( )

( )= ( )=

=0∗0.4+ +4∗0.2=1.2 =4∗0.1+1∗0.2+0∗0.4+

E Y y P y 1∗0.4 oppure attraverso E Y g x P x

i i i i

i i

La varianza V(X) di una variabile casuale X è definita da:

+∞

2 2

∑ ∫

[ ] [ ]

( )

( )= ( ) ( ) ( ) ( )

−E =

V X x X P x per v . c . discrete ; V X x−E X f x dx per v .c . continue ; la

i i

i −∞

varianza misura la differenza quadratica tra i possibili valori della v.c. e il suo valore

atteso, con pesi dati dalle probabilità di osservare tali valori. La varianza risulta nulla

se X assume probabilità 1 in corrispondenza di un solo valore e probabilità zero

altrove, mentre è tanto più elevata quanto più alta è la dispersione intorno al valore

atteso. La radice quadrata della varianza di una v.c. X viene chiamata deviazione

( )= ( )

standard (standard deviation) di X ed è indicata con .

SD X V X

Variabili casuali standardizzate e teorema di Chebyshev

I valori standardizzati esprimono la distanza tra le osservazioni e la media in termini di

deviazione standard. Se X è una variabile casuale con valore atteso E(X) e deviazione

−E(X )

X

=

Y

standard SD(X), allora: è una variabile casuale standardizzata. Tale

( )

SD X

formula ha E(Y)=0 e V(Y)=1.

Teorema di Chebyshev: siano X una variabile casuale e k un valore reale positivo;

1

(| | )

−E( ) (

P X X ≥ k∗SD X) ≤

allora vale la seguente disuguaglianza: 2

k

Questo teorema ci assicura che, indipendentemente dalla distribuzione della v.c. X, la

probabilità che X assuma valori distanti dalla media più di k deviazioni standard è al

1

(| | )

−E( ) < (X )

P X X k∗SD ≥ 1−

2

più . Inoltre si ha che:

1/k 2

k

Distribuzioni di probabilità per v.c. discrete: Distribuzione uniforme discreta

- Ud(a,s),

Una v.c. uniforme discreta, indicata con X è una v.c. che può assumere solo i

s

valori interi compresi in un certo intervallo, tutti con la stessa probabilità. Sia il

a

numero dei possibili valori e il più piccolo valore assumibile; la funzione di probabilità

1

( )=

P x x=a,a+1,…,a+s-1.

uniforme è definita come per La media e la varianza di

s 2 −1

s−1 s

( )=a+ ( )=

tale distribuzione sono date da: .

E X ; V X

2 12

Distribuzione di Bernoulli

Consideriamo una prova nella quale ha interesse solo verificare se un certo evento si è

o meno verificato. La v.c. generata da tale prova assumerà il valore 1 se l’evento si è

verificato e il valore 0 in caso contrario. Tale variabile casuale viene detta v.c. di

( )

X Bernoulli π

Bernoulli. Una v.c. di Bernoulli, indicata con , può assumere il valore

1 con probabilità π e il valore 0 con probabilità 1-π; la sua funzione di probabilità può

x 1− x

( )=π

essere espressa come .

( =0,1

P X=x 1−π) per x

La media e la varianza di tale distribuzione sono date da 2 2

( )=π ( )=π ( ) ( )=1∗P ( ) ( )=1∗π 0∗( )=π ( )=( ) ( ) ( )

+0∗P + ∗P + ∗P

E X ; V X 1−π ; Infatti E X 1 0 1−π ; V X 1−π 1 0−π

tutte le prove che producono solo due possibili risultati generano v.c. di Bernoulli,

come il lancio di una moneta, il sesso del nascituro, ecc.

Distribuzione Binomiale

La distribuzione Binomiale può essere ottenuta considerando la somma di v.c. di

Bernoulli, indipendenti e identicamente distribuite. Effettuiamo un numero fissato di n

prove indipendenti (conoscere il risultato di una prova non dà alcuna informazione sui

risultati delle altre). Ciascuna prova dà luogo a due risultati possibili che chiameremo

successo ed insuccesso (prove dicotomiche). La probabilità di un successo è la stessa

41

in ciascuna prova e vale p(π). Supponiamo di effettuare n prove, indipendenti le une

dalle altre e nelle stesse identiche condizioni. Chiamiamo X₁ il risultato della prima

prova, X₂ il risultato della seconda prova e Xn il risultato della n-esima prova. Ogni Xᵢ è

una v.c. di Bernoulli. Nell’esperimento binomiale, la variabile aleatoria che rappresenta

il numero di successi X ha distribuzione binomiale con parametri n (il numero di

osservazioni) e π (la probabilità che una qualsiasi osservazione sia uguale a un

successo). I possibili valori di X sono i numeri interi da 0 a n.

( )

X Binomiale π ; n

Una v.c. binomiale, indicata con , rappresenta il numero di

successi che si presentano in una sequenza di n sottoprove bernoulliane indipendenti

nelle quali è costante la probabilità di successo π. La funzione di probabilità binomiale

( )

n n− x

x

( )= ( )

P x π 1−π

è definita come: x

<1

per x=0,1,2… , n e 0<π

Il numero di modi in cui posso ottenere x successi (e quindi n-x insuccessi) in n prove

( ) n!

n =

(con x = 0, 1, 2, …, n) è pari a dove n! si legge “n fattoriale” ed indica

( )

x x ! n−x !

il prodotto dei numeri interi da 1 a n incluso: 1*2*3*…*n con 0! =1 Esempio: Gruppi

sanguigni. Ciascun figlio nato da una particolare coppia ha probabilità 0.25 di avere

sangue di tipo 0. Se questi genitori hanno 5 figli, qual è la probabilità che esattamente

2 abbiano sangue di tipo 0? Il numero X di figli con sangue di tipo 0 è una variabile

casuale binomiale con n = 5 e probabilità p = 0.25 di ottenere successo in ciascuna

prova. Cioè X ∼ Bin(5, 0.25) Noi vogliamo ricavare P(X=2). Denotiamo col simbolo S

un successo e con il simbolo I un insuccesso. Troviamo la soluzione attraverso due

passi. Procediamo nel modo seguente: Passo 1: calcoliamo la probabilità di una

specifica stringa di risultati contenente 2 successi e 3 insuccessi, ad esempio SSIII;

Passo 2: contiamo quante sono le possibili stringhe con due successi. Passo 1: Le

prove sono indipendenti: per trovare la probabilità della stringa SSIII si applica la

regola del prodotto per eventi indipendenti P(SSIII) = P(S) P(S) P(I) P(I) P(I) =

0.25·0.25·0.75·0.75·0.75 = 0.252 · 0.753 = 0.0264 N.B. Avremmo ottenuto lo stesso

risultato se avessimo calcolato la probabilità di un’altra sequenza di 2 S e 3 I (diverso

ordine di presentazione). Passo 2: Tutte le possibili stringhe contenenti 2S e 3I sono

10: SSIII SISII SIISI SIIIS ISSII ISISI ISIIS IISSI IISIS IIISS Ma un conteggio simile lo

( ) 5 !

52 = =10

abbiamo già fatto: il numero delle possibili stringhe è Quindi

( )

2! 5−2 !

( )

5

2 3 2 3

( ) =10∗0.25 ∗0.75 = ∗0.25 ∗0.75 =0.2637

P X=2 il problema può essere

2

generalizzato a qualunque problema di tipo banale. ( )=nπ ( )=nπ (1−π )

E X ; V X

La media e la varianza di tale distribuzione sono date da

Esempio: gruppi sanguigni. Per le regole della genetica, ciascun figlio di una

particolare coppia ha probabilità 0.25 di avere sangue di tipo 0. Se la coppia ha 5 figli

π

il numero di quelli con gruppo 0 è una v.c. binomiale con n=5 e =0.25. Modifica

dell’esempio: se la donna ha avuto i 5 figli con due diversi mariti, l’esperimento

binomiale resta lo stesso? NO, perché la probabilità si successo dipende anche dal

padre.

La distribuzione binomiale è una distribuzione di probabilità molto importante. Ma

attenzione alla struttura dell’esperimento: non tutte le variabili nelle quali è previsto

un conteggio di successi, hanno distribuzione binomiale. Esempio: dare le carte.

Estraiamo 10 carte da un mazzo di 52 e contiamo il numero X di arte rosse: le

osservazioni totali sono 10 e ciascuna di esse può essere una carta rossa o nera.

Chiamiamo successo l’evento “la carta estratta è rossa”. Ma le osservazioni non sono

indipendenti: se la prima carta estratta è nera, è più facile che la seconda estratta sia

42

rossa perché sono rimaste più carte di questo tipo nel mazzo. La variabile X non ha

una distribuzione binomiale.

Distribuzioni di probabilità per v.c. continue: Distribuzione uniforme continua

(a

X U ; b)

Una v.c. uniforme continua X, indicata con , è una v.c. che assume valori

reali in un intervallo limitato [a;b] con a e b numeri reali. La funzione di densità

{ 1 se a ≤ x ≤ b

( )=

f x

uniforme è definita come b−a

0 altrove

La media e la varianza di tale distribuzione sono date da:

2

(a+b) (a−b)

( )= ( )=

E X ; V X

2 12

Distribuzione normale

La v.c. normale è la v.c. più importante nell’inferenza statistica per le sue innumerevoli

applicazioni e le rilevanti di proprietà di cui gode. La funzione di densità normale

appare per la prima volta ad opera di De Moivre (1733) e successivamente venne

utilizzata da Gauss nell’ambito del metodo dei minimi quadrati. Questa v.c. viene

spesso chiamata v.c. Guassiana. 2

La v.c. normale X, indicata con , è una v.c. continua che può assumere

( )

X N μ ; σ

valori su tutto l’asse reale, con funzione di densità

( )

2

−1 x− μ

1 2 σ 2

( )= < >

f x e con parametri−∞ μ<+∞ e σ 0.

σ 2 π 2

( )=μ ( )

La media e la varianza della v.c. normale sono date da mentre la

E X ; V X

deviazione standard è σ. La funzione di densità normale ha una forma campanulare,

unimodale e simmetrica rispetto al valore x=μ, in corrispondenza del quale la funzione

raggiunge il suo massimo valore. μ corrisponde contemporaneamente al valore atteso,

alla mediana e alla moda della v.c. normale X. La funzione inoltre presenta due flessi

( )

x=μ+σ e x=μ−σ ; inoltre f x → 0 per x → ± ∞

in corrispondenza dei punti . La media μ

determina la posizione della curva sull’asse delle ascisse, mentre la deviazione

standard σ ne determina la posizione. Grafico funzione di densità normale con diversi

valori della varianza.

Grafico funzione di densità normale per diversi valori della media e stesso valore della

varianza. 43

La distribuzione normale è largamente utilizzata come modello probabilistico per i più

svariati fenomeni. La v.c. normale possiede diverse proprietà, due sono più importanti.

Ogni trasformazione lineare di una v.c. normale è ancora una v.c. normale; la somma

di due v.c. normali indipendenti è ancora una v.c. normale con media e varianza pari,

rispettivamente, alla somma delle medie e delle varianze delle due v.c. normali.

Tra tutte le v.c. normali ha particolare importanza la v.c. normale standardizzata

(0

Z N ;1) . Se la v.c. X ha una distribuzione normale con parametri μ e σ², allora

=( ) /σ

Z X−μ è ancora una v.c. normale con media nulla e varianza unitaria. Tale v.c.

è nota con il nome di v.c. normale standardizzata e ha la seguente funzione di densità:

2

− z

1

( )= 2 .

f z e

√ 2 π

Per la proprietà di simmetria della normale standardizzata rispetto all’asse z=0, si ha

f(z)=f(-z);

che grafico funzione di densità standardizzata.

Per ogni numero reale z, usiamo il simbolo φ per indicare la probabilità che Z assuma

valori minori o uguali a z, cioè P(Z ≤ z)=φz. Quindi fissato z, φz si trova sulle tavole. 44

ES: la probabilità che Z assuma un

valore nell’intervallo [-2; 2] si trova calcolando: φ(2)-φ(-2)=φ(2)-[1-φ(2)]=2φ(2)-

1=2*0.977-1=0.954 quindi è sufficiente conoscere i valori φ(z) per z >0 per calcolare

la probabilità associata a qualsiasi intervallo di Z. poiché ogni v.c. normale può essere

trasformata in una v.c. standardizzata, le tavole della normale standardizzata possono

essere utilizzate per qualsiasi distribuzione normale.

CURTOSI

Quando un istogramma di frequenze presenta una forma approssimativamente

simmetria e campanulare è utile confrontarla con una funzione di densità normale con

medesima media e deviazione standard. A tale scopo, si possono esaminare i grafici

delle due distribuzioni e successivamente utilizzare gli indici che misurano la

disnormalità o curtosi della distribuzione osservata. La differenza tra le due

distribuzioni può essere ipernormale ( la distribuzione osservata presenta una

maggiore frequenza dei valori centrali e di quelli estremi); iponormale( la

distribuzione osservata presenta una minore frequenza dei valori centrali ed estremi).

( )

4

)

X−E( X

=E

γ

Si definisce indice di curtosi di Pearson la quantità: . Per una data

SD( X) ( )

4

x x́

1 ∑ i

=

distribuzione osservata l’indice si calcola nel seguente modo: se la

γ n σ

i

distribuzione è normale, si ha γ=3, se la distribuzione è ipernormale, si ha γ >3 ed

infine se la distribuzione è iponormale si ha γ <3. Se vogliamo utilizzate un indice di

disnormalità che si annulli nel caso di normalità, basterà sottrarre 3 dall’indice γ

ottenendo così l’indice di curtosi di Fisher.

Distribuzione Chi-quadrato

La v.c. Chi-quadrato è una distribuzione simmetrica, continua e definita per valori reali

non negativi. La funzione di densità dipende da un unico parametro, chiamato gradi di

libertà, che è un intero positivo e lo indichiamo con g. All’aumentare di g la

distribuzione tende a una normale, e per g>80 l’approssimazione può essere

considerata abbastanza buona. 45

2

2

La v.c. (Chi-quadrato), indicata con , è v.c. continua che può

(g)

X χ

χ

assumere valori nell’intevallo (0; +∞), con funzione di densità:

−x

g

1 −1

2 2

( )=

f x x e per x ≥ 0 dove il parametro g è un intero positivo e il simbolo

( )

g g

Γ

2 2

2 +∞ g

( )

g −1

∫ −x 2

=

( /2) Γ e x dx

Γ g indica l’integrale: 2 0

La media e la varianza sono date da: E(X)=g; V(X)=2g. Grafico distribuzione chi-

quadrato per diversi valori dei gradi di libertà: al variare del parametro g la forma della

distribuzione cambia, per valori piccoli di g la distribuzione è concentrata soprattutto

su valori piccoli di X, all’aumentare di g la distribuzione tende a distendersi su tutti i

valori positivi di X.

Distribuzione t di Student

La v.c. t di Student somiglia alla normale standardizzata, in quanto, è continua e

definita su tutto l’asse reale e ha una funzione di densità di forma campanulare e

simmetrica intorno all’asse T=0. La funzione di densità dipende da un unico

parametro, chiamato gradi di libertà (g). All’aumentare di g la distribuzione tende ad

una normale standardizzata e per g >30 l’approssimazione è considerata sufficiente

nella gran parte delle applicazioni. )

t il 100(1−α

Sia T una v.c. t-student con g gradi di libertà, denotiamo con -mo

α

( )

>t =α

P T

percentile della sua distribuzione, ossia il valore per cui , dalla simmetria

α

( ) ( )

>t =P ←t =α

P T T

della distribuzione possiamo dedurre che .

α α

(g)

T Student

La v.c. t di student, indicata con , è una v.c. continua che può

assumere valori su tutto l’asse reale, con funzione di densità:

( )

g+1

Γ ( )

−g +1

2

2 t

( )= 2

f t 1+ dove il parametro g è un intero positivo.

( ) g

g

√ π∗g∗Γ 2 46

La media e la varianza della distribuzione t di student non sono sempre definite: E(T)

g

non è definita se g =1; V(T) non è definita se g ≤2; E(T) =0 se g ≥2; V(T) = (g−2)

se g ≥3.

Questa distribuzione si ottiene come funzione tra una v.c. normale standardizzata e

2

( ) ( )

una v.c. chi-quadrato tra loro indipendenti. Sia allora la

Z N 0; 1 e siaY χ g

Z

=

X √

variabile è una v.c. t di student con g gradi di libertà.

Y

g

Variabili casuali multiple

Una variabile casuale doppia è una funzione (X,Y), definita sullo spazio campionario Ω,

che associa a ogni risultato elementare ωᵢ una coppia di numeri reali (x,y). Come nel

caso unitario, una v.c. doppia è completamente definita dalla sua distribuzione di

probabilità congiunta. Quando una v.c. doppia può assumere soltanto un insieme finito

di coppie di valori, parleremo di v.c. doppia discreta a cui è associata una funzione di

probabilità congiunta P(x,y). Quando invece la v.c. può assumere un insieme non

numerabile di coppie di valori, parleremo di una v.c. doppia continua a cui è associata

f(x,y).

una funzione di densità congiunta

La distribuzione di probabilità congiunta di una v.c. doppia è caratterizzata dalle

seguenti proprietà: ∑ ∑ ( )=1

P x , y

P(x,y) ≥0

Per v.c. doppia discreta e

 x y

+∞ +∞

∫ ∫

f(x,y) ≥0 ( ) =1

Per v.c. doppia continua e

 f x , y dxdy

−∞ −∞

La funzione di ripartizione congiunta per la v.c. (X,Y) è data da:

∑ ∑

( )=P ( ) =

F x , y X ≤ x , Y ≤ y P(u , v)

Per v.c. doppia discreta

 u≤ x v ≤ y

x y

∫ ∫

( )=P ( ) ( )

=

Per v.c. doppia continua

 F x , y X ≤ x , Y ≤ y f u , v dudv

−∞ −∞

Sommando o integrando la distribuzione di probabilità congiunta rispetto a tutti i valori

della Y, a seconda se la variabile casuale sia discreta o continua, si ottiene la

distribuzione di probabilità della X, e in modo analogo della Y, detta distribuzione di

probabilità marginale: ∑ ∑

( )= ( )=

(x );

P x P , y P y P( x , y)

Per v.c. doppia discreta

 y x

+∞ +∞

∫ ∫

( )= ( ) ( )= ( )

Per v.c. doppia continua

 f x f x , y dy ; f y f x , y dx

−∞ −∞

La relazione di dipendenza di una variabile rispetto a un’altra può essere studiata

attraverso la distribuzione di probabilità condizionata. Data la variabile casuale doppia

(X, Y), la distribuzione di probabilità condizionata di Y data la X =x è:

Y= y | |

( ) ( )

=P ( )/P( =P ( )/P(

P y x x , y x) P x y x , y y)

Caso discreto ; (il denominatore

 non deve essere | |

( )=f ( )=f

( )/f ( (x )/f (

Caso continuo ; nullo)

f y x x , y x) f x y , y y)

La nozione di distribuzione di probabilità condizionata permette di verificare

l’esistenza di una relazione di dipendenza tra due variabili casuali. Considerata una

v.c. doppia (X, Y), tra le due variabili casuali c’è indipendenza se e solo se la

distribuzione di probabilità congiunta può essere espressa dal prodotto delle

distribuzioni marginali. A seconda del tipo di v.c. doppia nel caso di indipendenza si 47

deve avere: per v.c. doppia discreta P(x, y)= P(x)P(y) con conseguenza

( ) ( ) ( )

P y , x P y P x

| |

( ) ( ) ( )=P(

= = =P

P y x y e P x y x)

( ) ( )

P x P x f(x, y)=f(x)f(y)

Per v.c. doppia continua con conseguenza

( ) ( ) ( )

f y , x f y f x

| |

( )= ( ) ( )=f

= =f ( )

f y x y e f x y x . La conoscenza del risultato di una delle

( ) ( )

f y f x

due v.c. non influisce sulla distribuzione di probabilità dell’altra. se Il presentarsi di un

certo valore della X non altera in alcun modo la distribuzione di probabilità della Y,

allora la v.c. Y è indipendente dalla v.c. X.

La conoscenza della distribuzione di probabilità congiunta della v.c. doppia (X, Y)

permette di determinare la distribuzione di probabilità anche per una sua funzione,

g(X, Y). Quest’ultima è una v.c. univariata in quanto associa a ogni coppia di valori (x,

y) un solo numero reale. Possiamo essere interessati a conoscere il suo valore atteso,

E[g(X, Y)] che si calcola come: ∑ ∑

[ ]

( ) ( )

=

E g X ,Y g x , y P(x , y)

 Per v.c. doppia discreta x y

+∞ + ∞

∫ ∫

[ ]

( ) ( ) ( )

 =

Per v.c. doppia continua E g X ,Y g x , y f x , y dxdy

−∞ −∞

Il valore atteso di una combinazione lineare di p variabili casuali

( ) ( )

( )=a

=a +a +…+ +a +…+ )

X X X a X E X E X E X a E(X

è dato da: . Per una

1 1 2 2 p p 1 1 2 2 p p

variabile casuale doppia si ha E(X+Y)=E(X)+E(Y); E(X-Y)=E(X)-E(Y).

Consideriamo la funzione prodotto degli scarti dei valori attesi, g(X, Y)=(X-E(X))(Y-

E(Y)). Il suo valore atteso è noto con il nome di covarianza. Data una v.c. doppia (X, Y),

[ ]

( )( )

( )=E ( ) ( )

=Cov −E

σ X , Y X−E X Y Y

si definisce covarianza: che si calcola nel caso

XY ∑ ∑ ( ) ( )

( ) ( )

=

σ x−E X y−E X P(x , y)

di v.c. doppia discreta: , nel caso di v.c. doppia

XY x y

+ +∞

∫ ∫ ( ) ( )

( ) ( ) ( )

=

σ x−E X y−E Y f x , y dxdy

continua: XY −∞ −∞

La covarianza può assumere valori positivi o negativi. Quando è positiva, a valori

piccoli di Y si associano con maggiore probabilità valori piccoli (ossia quelli inferiori alla

media) di X e viceversa. Se la covarianza è negativa, a valori piccoli di Y si associano

con maggiore probabilità valori grandi (ossia quelli superiori alla media) di X e

Cov(X,

viceversa. La covarianza può essere calcolata anche in modo differente:

Y)=E(X*Y)-E(X)E(Y), ossia: v.c. doppia discreta

∑ ∑ ∑ ∑

( ) ( )−

= (x) )

σ x∗ y P x , y xP yP( y ; v.c. doppia continua

XY x y x y

+ +∞ +∞ +

∞ ∞

∫ ∫ ∫ ∫

( ) ( ) ( )

=

σ xyf x , y dxdy− xf x dx yf y dy . Da questa espressione possiamo notare

XY −∞ −∞ −∞ −∞

che quando le due v.c. sono indipendenti la covarianza si annulla.

Data la v.c. ottenuta come combinazione lineare di p variabili casuali,

=a +a +…+

X X X a X , la sua varianza è data da:

1 1 2 2 p p

p p p

∑ ∑ ∑

2 ( )

( )= +2 ( )

Var X a Var X a a Cov X , X . assumendo coefficienti unitari, per una

i i i j i j

i=1 i=1 j=i+1

Var(X+Y)=Var(X)+Var(Y)+2Cov(X, Var(X-Y)=Var(X)+Var(Y)-

v.c. doppia (X, Y) si ha: Y);

2Cov(X, Y).

Se nell’espressione della covarianza consideriamo due variabili casuali standardizzate

( ) −E (Y )

X−E X Y

e otteniamo il coefficiente di correlazione lineare:

( (Y )

SD X) SD [ ]

( ) ( ) σ

(X ) −E (Y ) )

X−E Y Cov(X , Y XY

( )=E

=Cor ∗ =→ = =

ρ X , Y ρ .

XY XY

(X ) )

SD SD(Y σ σ

( ) (Y )

Var X Var X Y 48

Tra le numerose distribuzioni doppie di variabili casuali continue riveste grande

importanza la distribuzione normale bivariata. La v.c. normale bivariata ha funzione di

densità: [ ]

( ) ( )( ) ( )

2 2

x−μ x−μ y− μ y−μ

−1 x x y y

−2 +

ρ

1 xy

( ) σ σ σ σ

2

2 1−ρ

( )= <+ < <+

f x , y e con−∞< x<+ ∞ e−∞< y ∞;−∞ μ ∞;−∞

x x y y

XY X

√ 2

2 π σ σ 1−ρ

X Y XY

.

La funzione di densità normale bivariata ha una forma campanulare unimodale e

( )

μ , μ

assume il suo valore massimo nel punto di coordinate , ovvero in

X Y

corrispondenza del suo baricentro.

Teorema del limite centrale

Una successione di variabili casuali X₁, X₂, X₃… con funzioni di ripartizione

( ) ( ) ( )

F x , F x , F x ,… converge in distribuzione a una variabile casuale X se, per tutti i

1 2 3 ( )=F (

lim F x x)

punti in cui F(x) è continua, si ha: .

n

n →+∞

Esempio: consideriamo la successione:

( ) ( ) ( )

−student −student

X T−student 1 , X T 2 , X T 3 , … si può dimostrare che

1 2 3

all’aumentare dei gradi di libertà la successione converge in distribuzione alla v.c.

(0

Z N ;1) , ossia la funzione di ripartizione della variabile Xᵢ tende ad assumere la

forma della funzione di ripartizione di una v.c. normale standardizzata.

La convergenza di una distribbuzione è alla base del teorema del limite centrale. Siano

X₁, X₂, X₃… variabili casuali indipendenti e identicamente distribuite, con media μ e

( ) √

n −μ

X́ n

1 ∑ n

2 =

X́ X

varianza finite; posto si ha che la v.c. converge in

=

σ Z

n i

n n σ

i=1

n →+∞

distribuzione, per , alla v.c. normale standardizzata.

Il risultato del teorema considera una successione di v.c. standardizzate, tuttavia per

un valore finito di n sufficientemente grande, si può assumere con buona

approssimazione che la variabile casuale tende a distribuirsi come una v.c.

n

( )

2

σ . Il teorema si può riformulare considerando la somma di n variabili casuali:

N μ, n

n n n

∑ ∑ ∑ 2

( ) ( ) ( ) ( )

= = =nμ = =n

S X E S E X e Var S Var X σ

. In questo caso si ha che e

n i n i n i

i=1 i=1 i=1

( )

−nμ

S n

=

Z

dunque tende a una v.c. normale standardizzata. quando n è

n 2

n σ

sufficientemente grande, la distribuzione di Zn `e ben approssimata da quella di una

variabile casuale normale standardizzata; l’approssimazione migliora all’aumentare di

n.

10. CAMPIONAMENTO E DISTRIBUZIONI CAMPIONARIE

Popolazione e parametri della popolazione

La popolazione può essere distinta in finita e infinita. Una popolazione finita è un

insieme costituito da N unità, come, per esempio, l’insieme di tutte le famiglie di una

città, l’insieme di tutte le aziende di un paese, ecc. dato un carattere X osservato su

x , … , x

tutta la popolazione, con valori , si possono calcolare i parametri della

1 N

popolazione, ossia delle costanti che descrivono aspetti caratteristici della

distribuzione del carattere nella popolazione stessa. I due principali parametri utilizzati

N

1 ∑

μ= x

per descrivere una popolazione finita, sono: media della popolazione: ;

i

N i=1 49

N N

1 1

∑ ∑

2 2 2 2

( )

= −μ = −μ

σ x x

varianza della popolazione . D’ora in avanti utilizziamo

i i

N N

=1

i i=1

2

simboli diversi, indichiamo con la media e la varianza della popolazione,

μ e σ

2

mentre con indicheremo la media e la varianza campionarie. Inoltre con N si

X́ e S

indicherà il numero di unità della popolazione, mentre con il simbolo n si indicherà il

numero di unità del campione.

Nelle popolazioni infinite, il carattere d’interesse può essere rappresentato da una

variabile casuale X con una certa distribuzione di probabilità. In questo caso

indichiamo con “popolazione X” la v.c. X.

Anche per la popolazione infinita i due principali parametri sono la media e la

varianza, calcolati come: media della popolazione (o valore atteso) discreta:

+ ∞

K

∑ ∫

( )

( )= ( )= ( )

μ=E X x p x μ=E X xf x dx

; continua: ; varianza della

j j

j=1 −∞

K K

∑ ∑

2 2 2 2

( ) ( ) ( )

( )=

popolazionediscreta: ; continua:

=Var −μ = −μ

σ X x p x x p x

j j j j

j=1 j=1

+∞ +∞

∫ ∫

2 2 2 2

( )= ( ) ( ) ( )

=Var

σ X x−μ f x dx= x f x dx−μ

−∞ −∞

Il campionamento da popolazioni finite

Un’indagine campionaria consiste nell’estrazione e nello studio di un campione di

unità della popolazione al fine di ottenere informazioni concernenti alcuni parametri

dell’intera popolazione. L’indagine campionaria presenta delle differenze importanti a

seconda che la popolazione di interesse sia finita o infinita. In molti casi è preferibile

osservare solamente una parte della popolazione, cioè un suo sottoinsieme, detto

campione. Il numero di unità (campionarie) che compongono il campione è detto

dimensione campionaria. Il rapporto tra la dimensione campionaria n e quella della

popolazione N viene chiamato frazione di campionamento o frazione di sondaggio.

L’elemento cruciale nella definizione del campione è dato dalla regola di selezione,

ossia dalla procedura con la quale le unità campionarie sono estratte dalla

popolazione. Per definire una regola di selezione probabilistica si deve individuare:

 L’insieme Ω detto spazio campionario, formato da tutti i possibili campioni

estraibili con una medesima tecnica da una popolazione;

 La probabilità di ogni campione c in Ω di essere estratto.

La coppia {Ω, probabilità dei campioni in Ω} è detta piano di campionamento o

disegno campionario.

Due campioni non ordinati di uguale numerosità sono diversi tra loro se almeno una

unità del primo campione non è contenuta nel secondo campione. Quando si svolge

un’ indagine statistica si può incorrere a degli errori non campionari. Nel caso di

un’indagine campionaria si aggiunge un ulteriore tipo di errore, detto errore

campionario.

Il campionamento casuale semplice

Nel campionamento casuale semplice i campioni di uguale dimensione hanno tutti la

stessa probabilità di essere estratti. La procedura di selezione delle unità pone però

alcuni problemi:

 Si devono conoscere a priori tutte le unità che compongono la popolazione;

 Tutte le unità della popolazione devono essere reperibili;

 Si deve procedere all’estrazione casuale delle unità.

I primi due punti fanno riferimento alla disponibilità di liste di campionamento

attendibili. Il terzo punto si riferisce alla tecnica di estrazione delle unità campionarie.

L’estrazione delle unità può essere eseguita secondo due modalità: con ripetizione o

senza ripetizione. Nel primo caso, ogni unità estratta viene reintrodotta nella

popolazione e quindi non può essere successivamente riestratta; nel secondo caso, 50

una volta estratta, un’unità non viene reintrodotta nella popolazione e quindi non può

ripresentarsi nelle successive estrazioni. Il numero di campioni che compongono lo

spazio campionario dipenderà dalla modalità di estrazione del campione e se viene

considerato o meno l’ordine di estrazione. La modalità di estrazione senza ripetizione

è quella che viene sempre utilizzata nelle popolazioni finite.

Nel campionamento casuale semplice senza ripetizione, il numero di campioni ordinati

diversi di dimensione n estraibili da una popolazione finita di numerosità N è dato da:

N!

N*(N-1)*(N-2)*…*(N-n+1)= . Se consideriamo i campioni non ordinati, il loro

( N−n)!

N∗( )∗( )∗…∗( )

N−1 N−2 N−n+1 ( ) N!

N

= =

numero è uguale a: .

n∗( )∗( )∗…∗3∗2∗1 −n)!

n−1 n−2 n n !(N

Il piano di campionamento casuale semplice senza ripetizione da una popolazione

finita di N unità si basa su n prove successive: 1. Estrazione casuale di un’unità tra le

N presenti nella popolazione; ogni unità ha probabilità 1/N di essere estratta; 2.

Estrazione casuale di un’unità tra le N-1 unità rimaste, ognuna con probabilità 1/(N-1)

di essere estratta; ……………… n. estrazione casuale di un’unità tra le N- (n-1)unità

rimaste, ognuna con probabilità 1/(N-n+1) di essere estratta. In una popolazione finita,

X , X ,… , X

siano le variabili casuali corrispondenti alle n unità campionarie

1 2 n

estraibili attraverso un campionamento casuale senza ripetizione. Si può dimostrare

che queste v.c. hanno marginalmente la stessa distribuzione di probabilità ma non

sono indipendenti. Inoltre, la distribuzione di probabilità della generica Xᵢ è uguale alla

distribuzione del carattere X nella popolazione.

Il campionamento da popolazioni infinite

Quando la popolazione è infinita, ossia composta da infine unità statistiche, non è

possibile svolgere indagini totali e bisogna necessariamente ricorrere al

campionamento. La caratteristica di interesse nelle popolazioni infinite può essere

rappresentata da una variabile casuale, X, che possiede una certa distribuzione di

probabilità. Dalla popolazione X viene estratto un sottoinsieme di unità statistiche e

X

tale procedura genera una n-pla di v.c. la cui determinazione

¿ 1 , X , … , X

(¿ )

2 n

¿ x

numerica corrisponde a una n-pla di osservazioni che costituisce il

¿1 , x , … , x

¿ )

x=( 2 n

¿

nostro campione osservato. Poiché l’estrazione di un particolare valore non modifica,

nelle popolazioni infinite, la distribuzione della v.c. alla successiva estrazione, non ha

senso distinguere tra estrazione con o senza ripetizione. Si dimostra che la n-pla di v.c.

è una collezione di v.c. indipendenti e identicamente distribuite. In tal caso si parla di

campione casuale. X , X ,… , X

Una collezione di n v.c. ottenuta con un procedimento di estrazione

1 2 n

dalla popolazione X forma un campione casuale di dimensione n della popolazione X

X , X ,… , X

se: sono v.c. indipendenti; ogni v.c. Xᵢ possiede la stessa distribuzione

1 2 n

di probabilità della popolazione X.

Statistiche campionarie e distribuzioni campionarie

Una statistica campionaria è una funzione a valori reali delle osservazioni campionarie

X , X ,… , X . Utilizziamo il termine statistica per indicare la statistica campionaria,

1 2 n X , X ,… , X

la cui espressione è t( ). Statistiche di uso comune sono: media

1 2 n

n n

1 1

∑ ∑ 2

( )

2

^

= = −

X́ X σ X X́

campionaria: . Varianza campionaria: . Deviazione

i i

n n

i=1 i=1

√ =max ( )

X ⁡ X , X , … , X

2

standard campionaria: . Massimo campionario: .

^ ^

=

σ σ 1 2 n

(n) 51

=min ( )

X ⁡ X , X ,… , X

Minimo campionario: . Intervallo di variazione campionario

1 2 n

(1)

−X

R= X .

(n) (1 ) ¿

X , X ,… , X

Una statistica t( assume valori diversi a seconda del particolare

1 2 n

campione estratto, quindi la probabilità che una statistica assuma un certo valore, è

pari alla probabilità complessiva di tutti i campioni per i quali si ottiene tale valore. La

distribuzione di probabilità di una statistica è detta distribuzione campionaria.

La distribuzione della media campionaria nelle popolazioni infinite

Il valore atteso della media campionaria è uguale alla media della popolazione, ossia

( ) . – La varianza della media campionaria è uguale alla varianza della

E X́ 2

popolazione divisa per la dimensione campionaria, . – La deviazione standard

/n

σ √

della distribuzione campionaria della media è pari a .

/

σ n

L’importanza di tali risultati è data dal fatto che essi valgono qualunque sia la

distribuzione della popolazione X e per qualsiasi dimensione campionaria. La

distribuzione della media campionaria dipende dalla distribuzione della popolazione. In

effetti, per alcune distribuzione della popolazione si può determinare facilmente la

distribuzione della . Ciò accade nel caso di distribuzione normale o di Bernoulli. Se

X́ ( )

2

la popolazione ha una distribuzione normale allora, la distribuzione della

X N μ ; σ

( )

2

σ

media campionaria sarà ancora una normale: . La distribuzione della

X́ N μ ; n

media campionaria è meno variabile della distribuzione del carattere nella popolazione

perché è difficile avere campioni con tutti valori estremi. Nella popolazione ogni

distribuzione contribuisce in egual modo alla variabilità della distribuzione, ma il valore

della media è calcolato anche sulla base di altre osservazioni ed ha quindi minore

variabilità. Se aumentiamo la dimensione del campione, l’influenza dei valori molto

grandi o molto piccoli diminuisce ulteriormente e diminuisce anche la variabilità della

distribuzione della media campionaria.

Se la popolazione X possiede una distribuzione di Bernoulli con parametro π, la

distribuzione della media campionaria sarà data da:

X́ (1−π )

π

( ) 1 2 n−1

n

( ) nx n−nx

= (1−π )

P X́=x π x=0, , , … , , 1 con media π e varianza . In

n n n n

nx

definitiva si ha che in definitiva si ha che ha una distribuzione proporzionale alla

1

X́ Bin(n , π)

Binomiale, ossia .

n

Essendo il calcolo della distribuzione esatta della media campionaria complesso da

svolgere, lo strumento che permette di approssimare la distribuzione della è il

teorema del limite centrale. Con tale risultato si dimostra che, qualsiasi sia la

popolazione considerata, la distribuzione della media campionaria tende alla

distribuzione normale all’aumentare della dimensione campionaria n. Sia la

n

( ) ( )

−μ / /

X́ σ n

media campionaria riferita a un campione di dimensione n e la sua

n

standardizzazione; applicando il teorema otteniamo che: qualunque sia la popolazione

( )

−μ

X́ n =P(Z

lim P ≤ z ≤ z)

X dove Z è una variabile casuale normale standardizzata.

/

σ n

n →∞ X́

Quindi, per ogni n abbastanza grande, si distribuisce approssimativamente come

n 2

una variabile normale con media μ e varianza . Per raggiungere un sufficiente

/n

σ

grado di approssimazione, sarà necessario disporre di un campione formato da almeno

n=30 unità campionarie.

11. STIMA PUNTUALE 52

In alcuni casi, quando non è possibile osservare tutte le unità della popolazione, vuol

dire che i parametri sono ignoti. Per trovare una funzione dei dati campionari che

fornisca una buona approssimazione del parametro ignoto, usiamo la stima puntuale.

Quando un parametro della popolazione è stimato attraverso un singolo valore, tale

valore viene chiamato stima puntuale del parametro.

Stima puntuale e stimatori θ

Lo stimatore del parametro (parametro incognito) è la statistica T= t(

X , X ,… , X ), ovvero la funzione delle osservazioni campionarie, utilizzata per

1 2 n

assegnare un valore al parametro incognito. Uno stimatore è una v.c. utilizzata per

θ

stimare una determinata caratteristica della popolazione e sarà indicato con T= t(

X , X ,… , X ). Il valore assunto da uno stimatore in corrispondenza di un particolare

1 2 n X , X ,… , X

campione verrà detto stima e indicato con t= t( ).

1 2 n θ=μ

Esempio: campione osservato (2,5,3,6,4,4,1,2,2,5); parametro: media della

10

1 ∑

= x́=3,4

X́ X

popolazione; stimatore: media campionaria ; stima:

i

10 i=1

Lo stimatore, dipendendo dal campione, è una v.c. e quindi possiede una distribuzione

campionaria la cui conoscenza permette di capire se lo stimatore scelto produrrà con

elevata probabilità stime “vicine” al valore vero del parametro.

Potendo scegliere tra più stimatori, occorrerà definire le proprietà che uno stimatore

ha, per essere preferito agli altri. Le proprietà vengono distinte in esatte e asintotiche.

Nel primo caso si studiano le proprietà dello stimatore tenendo fissa la dimensione del

campione; nel secondo caso si studia il comportamento dello stimatore e quindi della

distribuzione di probabilità al crescere della dimensione campionaria.

Stimatori corretti

La proprietà più intuitiva per uno stimatore è la correttezza. T è uno stimatore corretto

θ θ

di se il suo valore atteso è uguale al valore vero del parametro, cioè E(T)= ,

θ θ θ

per tutti i possibili valori di . Se E(T) è diverso da per qualche valore di ,

( )=E ( )−θ

B T T

allora T sarà distorto. La distorsione di uno T è uguale a: . T è uno

stimatore corretto se e solo se la sua distorsione è uguale a zero. 53


PAGINE

67

PESO

1.13 MB

PUBBLICATO

5 mesi fa


DETTAGLI
Corso di laurea: Corso di laurea in scienze aziendali
SSD:
A.A.: 2017-2018

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher sabrina95. di informazioni apprese con la frequenza delle lezioni di Statistica base e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università La Sapienza - Uniroma1 o del prof Polettini Silvia.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea in scienze aziendali

Domande frequenti economia politica Riccardo Tilli
Appunto
Quarta parte, Ragioneria
Appunto
Economia degli intermediari finanziari - Santoboni
Appunto
Riassunto esame Economia e Gestione delle Imprese - Corrado Gatti
Appunto