Statistica I

Appunti di Statistica I.Contengono tutti gli argomenti trattati a lezione: una breve introduzione, le tabelle statistiche, la distribuzione di frequenze, le rappresentazioni grafiche, i rapporti …

Esame Statistica I

Facoltà Economia

Dal corso del Prof. Leogrande Domenico

Università Università degli Studi di Bari

Publisher Checca123

A.A. 2014-2015

57 pagine

4 download

Appunto

Vota 4,0 / 5 (2)

Scarica

Estratto del documento

8. ASIMMETRIA, CURVA NORMALE E DISNORMALITÁ

Sino ad ora sono stati analizzati i metodi che vengono utilizzati per descrivere una popolazione sia mediante

tabelle o grafici sia mediante dei parametri come gli indicatori di tendenza (le medie, gli indici di variabilità).

Gli indici che saranno di seguito analizzati sono detti indici di forma in quanto non descrivono la tendenza di

un fenomeno ad assumere una determinata modalità ma ci descrivono la forma della distribuzione. Gli indici

di forma possono assumere due diversi aspetti: quello dell’asimmetria e quello della disnormalità; ovvia-

mente per parlare di questi è necessario definire cosa si intende per normalità e cosa per simmetria.

8.1.Concetto e indici di asimmetria

In alcuni casi le variabili statistiche si caratterizzano per una simmetria perfetta dove per simmetria si inten-

de che il ramo a destra della mediana (che come è noto divide in due parti uguali la distribuzione) è identico

a quello a sinistra mediante un ribaltamento. Per verificare se una distribuzione è o no simmetrica è necessa-

rio osservare il diagramma o l’istogramma. L’essere una distribuzione simmetrica non è legato alla forma

unimodale (ossia la distribuzione presenta una sola moda), in quanto si presentano distribuzioni simmetriche

bimodali o anche plurimodali o zeromodali (che si presentano nel caso in cui non c’è una moda o questa

coincide con i valori estremi) l’importante è che il ramo di sinistra e destra rispetto alla mediana coincidono

perfettamente. ///!mediana!

Distribuzione simmetrica Distribuzione simmetrica Distribuzione simmetrica

unimodale bimodale zeromodale

Sarà quindi asimmetrica una variabile non simmetrica; in particolare dobbiamo distinguere due tipologie di

asimmetria:

Asimmetria positiva o destra qualora il diagramma o l’istogramma della distribuzione presenta un

• prolungamento della parte destra.

Asimmetria negativa o sinistra qualora il diagramma o l’istogramma presenta un prolungamento

• della parte sinistra, quindi il caso opposto al precedente.

Asimmetria negativa o

Asimmetria positiva o

Appunti di Francesca Barbato Statistica I 29

sinistra

destra

Se è pur vero che la simmetria può essere valutata semplicemente osservando la rappresentazione grafica

della distribuzione, in statistica vengono utilizzati degli indici che permettono di esprimere in maniera nume-

rica di quanto si è lontani dalla forma simmetrica.

Più comunemente viene utilizzato l’indice di asimmetria (Skewness):

! − ! !

! =

! !

Se l’indice è pari a 0 la distribuzione è simmetrica, se è maggiore di zero ci si troverà dinanzi ad

un’asimmetria positiva in caso contrario (indice negativo) si tratterà di un’asimmetria negativa. Nonostante

sia quello che più comunemente si utilizza l’indice di asimmetria presenta vari difetti nel caso in cui la di-

stribuzione è plurimodale o nel caso in cui la variabile statistica si continua in quanto in quest’ultima situa-

zione si potrebbe individuare la classe modale ma non la moda. Nelle distribuzioni che combaciano con uno

dei due casi citati viene utilizzato un altro indice di asimmetria:

3(! − ! )

! =

! !

Anche in questo caso sarà simmetrica se è uguale a 0, sarà asimmetrica positiva se è maggiore di 0 o ne-

gativa se minore di 0.

Il più delle volte però si ricorre ad un altro indice proposto da Pearson, che inoltre è quello che più diffusa-

mente viene utilizzato, ed è definito coefficiente di asimmetria:

! !

(! − !)

!!!

! =

! !

(! − !) !

! !

!!!

! =

! !

La ragion per cui si considerano gli scarti dalla media al cubo è dovuto al fatto che in questo modo si posso-

no confrontare sia i valori positivi sia negativi, mentre il cubo dello scarto quadratico medio è necessario al

fine di ottenere un indice indipendente dall’unità di misura e dalla variabilità del fenomeno.

Se la distribuzione si espande maggiormente a destra della media allora l’indice sarà positivo e prevarranno

gli scarti positivi su quelli negativi, viceversa se la distribuzione si espande maggiormente a sinistra della

media. Nel primo caso si tratterà di un’asimmetria positiva, sarà negativa nel secondo caso.

8.2. Distribuzioni empiriche e curve continue

Sappiamo che dopo aver raccolto tutte le osservazioni, queste vengono rappresentate graficamente mediante

degli istogrammi o diagrammi, le cosiddette distribuzioni empiriche. Spesso però per poter effettuare delle

operazioni matematiche è necessario trasformare tali distribuzioni in curve continue: la trasformazione av-

viene unendo con una curva i punti che coincidono con i rettangoli del grafico.

8.3. La curva normale

La curva normale o anche chiamata curva degli errori accidentali o curva di Gauss (dal primo statista che la

studiò) è una curva continua utilizzata per rappresentare la maggior parte dei fenomeni statistici o per indica-

re la probabilità che si verifichi un fenomeno. La curva normale è una curva simmetrica e unimodale (pertan-

!(!, !).

to moda, mediana e media aritmetica coincidono) e viene genericamente indicata come Per giungere

a definire normale una distribuzione, solitamente si osserva la distribuzione empirica: nel caso in cui questa

può essere rappresentata mediante una curva continua normale allora si dice che la distribuzione è normale.

In realtà però procedere secondo questo metodo non è sempre corretto in quanto l’andamento di una distri-

buzione non è il risultato di una causa costante e di una molteplicità di cause a carattere accidentale ma la

normalità potrebbe risultare dalla compensazione di cause sistematiche.

Appunti di Francesca Barbato Statistica I 30

8.4. Espressione algebrica della curva normale

Dalle ricerche condotte da Gauss sulla distribuzione degli errori di osservazione, si dimostra che

l’espressione algebrica della curva dipende solamente dal numero delle osservazioni N, dalla media µ e dallo

scarto quadratico medio σ. !

!!!

! !

! = ! !

! !"

Le tre costanti N, µ e σ rappresentano i tre parametri della curva normale. Si noti che l’area al disotto della

curva è uguale ad N e per poterla conoscere bisogna calcolare l’integrale della funzione:

! !

! !!!

! !" = !

! 2!

Ponendo uguale a zero le derivate della funzione della curva normale è noto che µ è l’ascissa del punto di

massimo e che la curva presenta due punti di flesso in corrispondenza delle ascisse µ-σ e µ+σ; il parametro σ

è pertanto la distanza in valore assoluto di ciascun punto di flesso dal punto di massimo. La funzione della

curva normale è sempre positiva e assume una forma simmetrica e campanulare, presenta due asintoti che

corrispondono all’asse delle ascisse.

Al variare di uno dei tre parametri la curva normale cambia: al variare di N cambiano proporzionalmente le

ordinate della curva normale e quindi cambia l’area al di sotto del piano; al variare della media aritmetica la

curva si trasla sull’asse delle ascisse; al variare dello scarto quadratico medio la curva diventa più aguzza o

più appiattita. Poiché le variazioni che i tre parametri possono subire sono infinite, esistono un’infinità di

curve normali. σ!

σ! µ+σ!

µ/σ! µ!

Calcolare un integrale per conoscere la frequenza di una modalità è un procedimento che richiede molto

tempo, per finalità pratiche quindi si riconducono le infinite curve normali ad un’unica curva mediante la

standardizzazione. Nella curva normale standardizzata vengono considerate le frequenze relative , per tanto

N si riduce ad 1, e si considera come variabile lo scarto standardizzato:

! − !

! =

! !

Pertanto nella curva normale standardizzata non si prenderanno più in considerazione i valori x ma i valori z;

la funzione sarà quindi uguale a : !

1 !

! = ! !

Si ha quindi una curva normale di area 1, media 0 e scarto quadratico medio 1. Anche in questo caso per po-

ter calcolare l’area al di sotto della curva bisognerebbe utilizzare l’integrale (cd. funzione di ripartizione):

! !

1 !

!(!) = ! = 1

Appunti di Francesca Barbato Statistica I 31

Poiché la curva normale standardizzata è solo una, gli integrali sono stati raccolti nella tavola B : questo rap-

presenta il vantaggio della curva normale standardizzata.

Nella tavola B sono riportati nella colonna madre e nella testata i valori di z mentre al suo interno sono con-

tenute le aree. Nella tavola sono considerati solo i valori positivi di z ma sapendo che la curva è simmetrica

allora l’area è uguale anche a sinistra di 0. L’area indicata dalla tavola parte sempre da 0 sino alla z calcolata

!(!). !(!)

e si indica con In base all’ area che intendiamo calcolare la andrà sottratta a 0,5 (ossia il 50% dei

!(!)

casi che è situato a destra o a sinistra della media), o aggiunta o sottratta ad un’ altra a seconda dei casi.

!(!)

Ovviamente si può avere anche il procedimento inverso nel senso che da si può ottenere il valore della

!(!)fornita

x ricordandosi che la tavola ci permette di calcolare l’area che va da 0 a z (pertanto la deve esse-

re sottratta allo 0,5).

8.5. Concetto e misura della disnormalità

Non tutte le distribuzioni che si presentano in statistica possono essere rappresentate con curve normali;

l’essere o no una curva normale si valuta in base al confronto con una distribuzione normale. Per questo la

normalità in statistica è diventata un punto di riferimento. Se una curva non è normale allora potrà essere:

Iponormale o platicurtica quando la distribuzione è più bassa della curva normale al centro mentre

• sui fianchi è più spessa.

Ipernormale o leptocurtica quando la distribuzione è più alta della curva normale al centro e più

• bassa nei fianchi. Normale!

Iponormale!

Ipernormale!

Questo è quello che avviene graficamente, ma come per la simmetria anche nella disnormalità è necessario

avere degli indici che indicano se la distribuzione è normale oppure no. Per misurare la disnormalità di una

distribuzione viene utilizzato il coefficiente di eccesso di curtosi:

! !

! − !

!!!<

Anteprima

Vedrai una selezione di 13 pagine su 57