Estratto del documento

La statistica è lo studio quantitativo di fenomeni collettivi e La distribuzione di frequenza può essere rappresentata in due

sintetizza grandi insiemi di dati. Il fenomeno da studiare è modi: modalità per modalità per caratteri qualitativi e

chiamato carattere o variabile, mentre l’insieme di unità quantitativi discreti. Per i caratteri quantitativi continui si

statistiche su cui si rileva il fenomeno è chiamato collettivo. costruisce la distribuzione di frequenza in classi: al posto della

La raccolta dei dati si chiama rilevazione e può essere totale colonna delle possibili modalità vi è quella delle classi.

(censimento) o parziale (indagine campionaria). La parte che L’estremo superiore di una classe coincide con l’estremo

si occupa di censimenti è chiamata statistica descrittiva, inferiore di un’altra (solitamente l’estremo superiore è

mentre la parte che si occupa della rilevazione parziale (in cui compreso nella classe, quello inferiore no): tutte le unità della

si estraggono a campione le unità statistiche) è chiamata distribuzione unitaria sono incluse in una classe.

inferenza e utilizza il campo delle probabilità.

Statistica descrittiva

I dati rilevati si inseriscono in una tabella chiamata

distribuzione unitaria, che può essere semplice, se si rileva

un solo carattere, o doppia, se si rilevano due caratteri. Una

distribuzione unitaria in cui le unità statistiche sono gli anni si

chiama serie storica. La numerosità del collettivo (n) è il

numero totale di unità statistiche su cui si rileva un carattere: 2° sintesi: Rappresentazioni grafiche

nella distribuzione unitaria semplice è l’ultimo numero della

prima colonna. Se n è molto grande, occorre una sintesi per

comprendere i dati rilevati: esistono molte sintesi, quindi Il grafico di una distribuzione di frequenza varia in base al tipo

bisogna applicare quella corretta in base al tipo di carattere di carattere rilevato:

rilevato. • qualitativi: grafico a nastro, a rettangoli, ad aste, a

Un carattere si presenta sulle unità statistiche con modalità torta;

differenti. I caratteri sono qualitativi se le loro modalità non • quantitativi discreti: diagramma cartesiano;

sono numeriche (es. titolo di studio, colore dei capelli), • quantitativi continui: istogramma.

quantitativi se le loro modalità sono numeriche (es. peso,

reddito). I caratteri qualitativi sono sconnessi se non hanno un Un grafico a nastri si realizza con due assi su cui si disegnano

ordinamento predefinito tra le modalità (es. colore dei capelli), dei nastri (tanto più lungo quanto più elevata la frequenza della

ordinati se hanno un ordinamento predefinito tra le modalità modalità). Nel grafico a colonne/aste le funzioni degli assi

(es. titolo di studio). I caratteri quantitativi sono discreti se le sono invertite.

loro modalità sono numeri interi (es. numero di figli), continui

se le loro modalità sono numeri reali (es. altezza). Secondo la

gerarchia dei caratteri, i qualitativi sconnessi sono i più poveri

di informazioni e con essi possono essere fatte solo le sintesi

più semplici. I caratteri quantitativi, invece, stanno allo stesso

piano nella gerarchia dei caratteri.

1° sintesi: Distribuzione di frequenza

La prima sintesi è il passaggio da distribuzione unitaria a

distribuzione di frequenza. Ogni volta che si applica una Il grafico a torta si divide in sezioni in base agli angoli,

sintesi si perde qualcosa: nel caso del passaggio tra calcolati moltiplicando le frequenze relative per 360.

distribuzione unitaria e di frequenza si perde il collegamento

tra l’unità e la sua modalità. Si costruisce una tabella con due

colonne: nella prima vi sono le possibili modalità di carattere,

nella seconda quante unità hanno presentato quella

determinata modalità (frequenze assolute n ). La somma delle

i

frequenze assolute è la numerosità del collettivo. Le frequenze

relative (f ) sono ottenute dal rapporto tra la frequenza assoluta

i

(n ) e la numerosità del collettivo (n); moltiplicando per 100 le

i

frequenze relative si ottengono le frequenze percentuali (p ).

i Il diagramma cartesiano si costruisce con due assi: quello

orizzontale rappresenta le modalità di carattere, quello

verticale le loro frequenze. Dato che il carattere è discreto, non

bisogna unire i pallini (altrimenti si dà l’impressione di

Le frequenze relative cumulate sono calcolate sommando man continuità).

mano le frequenze relative, in modo tale che l’ultima sia pari

ad 1. Possono essere calcolate per tutti i tipi di caratteri, ma per

i qualitativi sconnessi, dato che non c’è ordinamento tra le

modalità, è inutile. Il calcolo delle frequenze relative e

percentuali, invece, può essere fatto per tutti i tipi di caratteri. 1

Per realizzare un istogramma si costruiscono due assi: sulle La mediana è la modalità posseduta dall’unità di posto

ordinate si rappresentano le densità di frequenza, cioè il centrale nella distribuzione unitaria “ordinata”, quindi viene

rapporto tra frequenza assoluta e ampiezza di ciascuna classe; calcolata per caratteri qualitativi ordinati e quantitativi: il 50%

sulle ascisse si rappresentano le ampiezze, cioè la differenza della distribuzione avrà modalità minore/uguale della

tra estremo superiore ed estremo inferiore. Le densità di mediana, il restante maggiore/uguale. Per calcolarla, quindi,

frequenza permettono di distribuire le frequenze della classe in bisogna ordinare la distribuzione unitaria: se n è pari vi sono 2

modo uniforme all’interno di essa. Dunque, nell’istogramma, modalità di mediane, se n è dispari solo una.

ogni classe è rappresentata da un rettangolo con base

l’ampiezza e altezza la densità di frequenza: l’area sarà pari

alla frequenza assoluta. Una distribuzione di frequenza modalità per modalità, così

come quella in classi, è già ordinata, quindi basta guardare le

frequenze relative cumulate: la F maggiore o uguale di 0,5 è

i

la mediana. La mediana lascia prima di sé il 50% della

distribuzione, quindi è tale che l’area prima e dopo di essa sia

0,5 (nell’istogramma). Per calcolare la mediana che cade in

una classe si applica questa formula:

Funzione di ripartizione empirica

In una distribuzione di frequenza generica, per conoscere la

proporzione di unità con modalità minore o uguale di un

generico x , che sarà pari a F , bisogna sommare le aree. La

i i

funzione di ripartizione empirica F(x) è la proporzione di

unità con modalità minore o uguale di x (che non è un estremo

< < () =

della classe): se (i-esima classe) allora

!"# !

+ area del rettangolo tratteggiato in rosso, quindi:

!"#

!

( )

() = + −

!"# !"# Legati al concetto di mediana vi sono:

! • quartili: sono 3 e tagliano la distribuzione in 4 parti

uguali;

• decili: sono 9 e tagliano la distribuzione in 10 parti

uguali;

• percentili: sono 99 e tagliano la distribuzione in 100

parti uguali.

La media aritmetica è la modalità che equi-ripartisce

l’ammontare totale di carattere (x ) tra le unità. Si calcola solo

i

per caratteri quantitativi e considera il valore di tutte le

Il valore ottenuto è un’approssimazione perché, avendo una modalità, però è più influenzata da valori anomali (se vi è un

distribuzione di frequenza in classi, non si sa come si errore, anche solo di trascrizione, la media ne risente perché è

distribuiscono i caratteri all’interno di una classe. Se il “meno robusta” della mediana). La definizione della media

carattere nelle classi non è uniformemente distribuito, il aritmetica si applica solo per la distribuzione unitaria:

risultato ottenuto sarà più o meno sbagliato. $!%#

∑ + + ⋯ +

! # & $

3° sintesi: Calcolo di indicatori = =

La terza sintesi prevede il calcolo di alcuni indicatori, ovvero Per le distribuzioni di frequenza “modalità per modalità” la

gli indici di dimensione, variabilità e forma. Gli indici di formula cambia:

dimensione danno informazioni sull’ordine di grandezza del

fenomeno; i principali sono: moda, mediana (con quartili, '

decili e percentili), media aritmetica. $!%#

! !

= = 0

! !

!%#

La moda può essere calcolata per qualunque carattere: Per le distribuzioni di frequenza “in classi” viene scelta una

• Nelle distribuzioni unitarie è la modalità che si modalità, da moltiplicare per la frequenza corrispondente, che

presenta più spesso; rappresenti ciascuna classe. Di solito si considera il valore

• Nelle distribuzioni di frequenza modalità per centrale della classe:

modalità è la modalità con frequenza maggiore;

• Nelle distribuzioni di frequenza in classi, la classe +

!"# !

modale è la classe con densità di frequenza

1 =

( 2

maggiore. 2

In questo modo si ottiene una media aritmetica approssimata. Lo scostamento quadratico medio SQM nelle distribuzioni

Se la distribuzione in classi presenta anche la colonna del unitarie si calcola con queste due formule, di cui la seconda

valore medio di ogni classe (μ ) si ottiene la media aritmetica, derivante dalla seconda proprietà della media aritmetica.

i

non approssimata, della distribuzione mediante questa

formula: '

'!%#

1

( !

= = 0

1

( !

!%# Nelle distribuzioni di frequenza, le formule possibili per

La media aritmetica è l’indice di dimensione più comune calcolare lo scostamento quadratico medio sono quattro:

perché gode di importanti proprietà. La prima proprietà

afferma che la media aritmetica rende nulla la somma degli

scarti, cioè la differenza tra la modalità x e la media aritmetica.

i

La dimostrazione viene chiesta all’orale: Lo scostamento quadratico medio è un indice difficile da

interpretare come valore assoluto: non si dice che la variabilità

sia elevata o meno.

Per calcolare la varianza si utilizzano le stesse formule

togliendo la radice quadrata: è espressa con un’unità di misura

La seconda proprietà afferma che la media aritmetica rende al quadrato rispetto alla media aritmetica e allo scostamento

minima la somma degli scarti al quadrato, mentre la mediana quadratico medio.

rende minima la somma degli scarti in valore assoluto: Il coefficiente di variazione è il rapporto tra SQM e la media

aritmetica (quest’ultima in valore assoluto). È un indice utile

per confrontare la variabilità di diverse distribuzioni ed è

indipendente dall’unità di misura del carattere; inoltre, non è

influenzato dall’intensità (cioè dall’ordine di grandezza del

fenomeno).

La terza è la proprietà di linearità della media aritmetica: data

una trasformazione lineare di x, la media di y si può calcolare Lo scostamento quadratico medio e la varianza hanno diverse

applicando la stessa relazione che vi è tra i caratteri x e y con proprietà. La prima afferma che, data una trasformazione

le medie aritmetiche. lineare, risulta:

Il termine “a” di una trasformazione lineare non ha effetti sugli

indici di variabilità. Immaginando un istogramma che descriva

La quarta è proprietà associativa della media aritmetica: la distribuzione di x, aggiungendo il numero “a” alla

distribuzione, esso trasla l’istogramma di quel numero

sull’asse delle ascisse, ma la sua forma rimane invariata.

Gli indici di variabilità indicano la variabilità tra le modalità

intorno alla media. Sono calcolati solo per caratteri quantitativi

e sono sempre positivi se c’è variabilità, uguali a zero se non La seconda proprietà è la formula di scomposizione della

c’è variabilità (mai negativi). Questi indici sono: varianza: immaginando un contesto analogo a quello della

proprietà associativa della media aritmetica, si rileva un

• lo scostamento quadratico medio (SQM o carattere sulle unità di “s” gruppi e all’interno di ogni gruppo

deviazione standard) che si indica con “sigma” σ; si calcola la media e la varianza del carattere. La proprietà

• la varianza, che è lo SQM al quadrato; associativa della media aritmetica ci consente di calcolare la

• il coefficiente di variazione, che è il rapporto tra media generale (con la formula in blu, che ci dice che la media

SQM e la media aritmetica (quest’ultima in valore generale può essere calcolata come la media ponderata delle

assoluto). medie dei gruppi usando come pesi le numerosità dei gruppi).

3 < .

Nelle situazioni di asimmetria negativa, invece, In

questo caso poche unità presentano valori contenuti; vi è una

“lunga coda sinistra” nella distribuzione data dai pochi valori

molto piccoli delle x, che trascinano la media aritmetica verso

sinistra.

L’ultimo istogramma nella realtà non si presenta quasi mai ed

è il caso della simmetria rispetto a un asse che coincide col

= ).

valore della media aritmetica e della mediana (

Una forma analoga a questa si utilizza per calcolare la varianza

generale del carattere partendo da numerosità, media e

varianza dei gruppi: essa è la somma di due quantità, cioè la L’indice di asimmetria di Fisher (si indica con la lettera

varianza interna e la varianza esterna. La varianza interna “gamma” γ):

ricorda la proprietà associativa della media aritmetica perché è

una media ponderata delle varianze dei singoli gruppi usando

come pesi le numerosità di ciascun gruppo. La variabilità

misura quanto le modalità delle singole unità si differenziano

rispetto alla media: avendo dei gruppi, con la varianza interna

si tiene conto solo della variabilità che c’è all’interno dei

gruppi, ma per ottenere una varianza generale bisogna tener

conto anche della varianza esterna, cioè della variabilità che

c’è tra i diversi gruppi (tiene conto di quanto i gruppi sono

vicini o lontani). Non si tratta di una varianza del carattere x

(negli esercizi non vengono date informazioni su di esso), ma

di una varianza generale che c’è tra le medie dei gruppi e la All’interno delle parentesi tonde vi è la formula della

media generale. standardizzazione (z). Non è un indice facilmente

interpretabile (così come la varianza).

Distribuzioni doppie

La distribuzione doppia è la rilevazione di due caratteri su un

unico collettivo. L’obiettivo principale è lo studio della

relazione tra i due caratteri. Si parte sempre da una

distribuzione doppia unitaria con tre colonne: unità, modalità

Una particolare trasformazione lineare è la standardizzazione di x posseduta dalle unità, modalità di y posseduta dalle unità.

(z). La prima formula permette di passare da un carattere

quantitativo x alla corrispondente versione standardizzata z.

Generalmente, però, si usa la seconda formula. È una

&

= 0 = 1.

trasformazione lineare particolare perché e

) 1° sintesi: Distribuzione doppia di frequenza

Il primo passaggio per sintetizzare una distribuzione doppia

unitaria è passare ad una distribuzione doppia di frequenza.

Si costruisce una tabella a doppia entrata: nella prima colonna

Gli indici di forma si calcolano solo per caratteri quantitativi: si inseriscono le modalità di x, nella prima riga le modalità di

i più importanti sono quelli di asimmetria. y. All’interno si riportano il numero di unità che presentano la

coppia x, y di modalità: queste si chiamano frequenze interne

delle coppie di modalità. La somma delle frequenze riga per

riga viene scritta nell’ultima colonna; la somma delle

frequenze colonna per colonna viene scritta nell’ultima riga.

Queste frequenze che stanno ai margini della tabella si

chiamano frequenze marginali e non hanno doppio indice

perché dipendono da una sola variabile.

Questi istogrammi rappresentano le tre situazioni che si

possono verificare. Si parla di asimmetria positiva quando la

maggior parte delle unità presenta valori contenuti della x e

poche unità presentano valori molto elevati della x (“lunga

coda destra” nella distribuzione). Le poche unità con valori

elevati trascinano la media aritmetica verso destra, ma non la

> .

mediana perché è più robusta, quindi: 4

Se s = t la distribuzione è quadrata. Le frequenze relative sono: uguaglianza porta alla seguente formula: c’è

indipendenza assoluta se e solo se per tutte le celle

(frequenze interne alla tabella) vale questa formula

.

.

!* *

!

= , .= , . = (danno tutte lo stesso risultato):

!* ! *

. .

! *

2° sintesi: Rappresentazione grafica = , ∀∀

!*

Nel caso di x e y caratteri qualitativi discreti: si rappresentano 2) massima dipendenza assoluta: conoscere la

sul piano cartesiano le coppie (x , y ) con frequenza non nulla.

i i modalità di x che si presenta su un’

Anteprima
Vedrai una selezione di 5 pagine su 20
Appunti esame Statistica Pag. 1 Appunti esame Statistica Pag. 2
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
Appunti esame Statistica Pag. 6
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
Appunti esame Statistica Pag. 11
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
Appunti esame Statistica Pag. 16
1 su 20
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher memilp di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi Roma Tre o del prof Conigliani Caterina.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community