Anteprima
Vedrai una selezione di 6 pagine su 21
Riassunto esame Statistica prof.Zavarrone Pag. 1 Riassunto esame Statistica prof.Zavarrone Pag. 2
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Riassunto esame Statistica prof.Zavarrone Pag. 6
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Riassunto esame Statistica prof.Zavarrone Pag. 11
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Riassunto esame Statistica prof.Zavarrone Pag. 16
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Riassunto esame Statistica prof.Zavarrone Pag. 21
1 su 21
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

LA RAPPRESENTAZIONE GRAFICA.

Le rappresentazioni grafiche sono un modo alternativo alla rappresentazione tabellare di rappresentare

delle informazioni riferenti a delle variabili. Un grafico è formato dalle modalità di un carattere e dalle relative

frequenze. I grafici sono più intuitivi delle tabelle e riescono a dare un'idea più chiara dei risultati numerici.

La rappresentazione grafica è fortemente influenzabile dalla manipolazione dell'informazione perchè un

grafico può essere costruito funzionalmente per uno scopo.

Ogni grafico è specifico per la rappresentazione di date tipologie di variabili e scale di misura.

Un nuovo approccio allo studio dell'esplorazione dei fenomeni è stato dato da John Tukey nel 1965 con la

Exploratory Data Analysis. Con la EDA nasce la statistica applicata che si affianca alla statistica metodologica.

La statistica applicata parte dall'osservazione della realtà per capire i fenomeni attraverso formule teoriche.

Tukey ha anche introdotto il termine informatico bit e ha creato il box plot. Edward Tufte è stato invece il

primo a capire le potenzialità dei grafici per veicolare informazioni, ma ha compreso anche il pericolo dei

chart junk: elementi visivi ridondanti nei grafici e che distraggono i lettori. L'uso dei pittogrammi per

rappresentare i fenomeni, molto spesso, non ha infatti riscontri fedeli rispetto alle informazioni. Per esempio,

un fenomeno che è legato al tempo può essere rappresentato solo con una continuità (per esempio inserita

in un sistema di assi cartesiani) e non attraverso puntualità. I grafici devono sintetizzare la realtà e veicolare

informazioni ma non devono portare ad approssimazioni semplificanti.

8

Statistica [Prof. Zavarrone] – Andrea Panzeri

Con infografica si intende l'integrazione di rappresentazioni grafiche a statistiche. Il pittogramma qui serve

per rendere più intuitive informazioni globali fornite dai numeri. Le scale di variabili qualitative di tipo

nominale possono essere rappresentate da istogrammi e anche ordinati in base alle frequenze (in quanto

non possono essere ordinate per qualità).

Nel grafico a torta, per esempio, le frequenze percentuali non sono immediatamente intuibili dalla sola

rappresentazione grafica se non affiancata da dei numeri. La Apple ha utilizzato un grafico tridimensionale

per far sembrare la sua fetta di torta più grande rispetto ad altre e solo il numero all'interno delle torte stesse

può veicolare l'informazione corretta.

Per una rappresentazione di variabili ordinali non si possono usare le frequenze assolute per fare un

confronto, bensì quelle relative/percentuali.

In sintesi:

 I grafici rappresentano una forma primordiale di comunicazione

 Lo sviluppo dei grafici è stato (ed è tuttora) caratterizzato da finalità descrittive e strategiche

 Forte impulso alla diffusione dei grafici è imputabile all’introduzione dei pc

 Argomento molto importante per: Infografica, Data Visualization, Graphic Design, Statistica

SCALA GRAFICO

QUALITATIVA - NOMINALE TORTA o BARRE

QUALITATIVA - ORDINALE BARRE

QUANTITATIVA - A INTERVALLO ASTE

QUANTITATIVA - A RAPPORTO ASTE

QUANTITATIVA – A RAPPORTO E CONTINUA ISTOGRAMMA

SERIE STORICHE LINEA DI TENDENZA

Le serie storiche hanno tempo e intensità come dimensioni. I grafici, essendo rappresentativi, devono

rispettare la natura del fenomeno. 9

Statistica [Prof. Zavarrone] – Andrea Panzeri

FREQUENZE E RAPPRESENTAZIONI GRAFICHE.

La rappresentazione di una variabile quantitativa di tipo continuo (o discreto ma determinata da un numero

elevato di unità) necessita al ricorso di due artifici: o la distribuzione in classi/intervalli di frequenza (per la

rappresentazione tabellare) o l'istogramma (per rappresentazione grafica). Le classi/intervalli sono

sistemazioni che raggruppano i caratteri. La creazione delle classi rispetta due criteri: l'equi-frequenza o

l'equi-ampiezza. Le classi devono quindi avere o frequenza o ampiezza costanti.

Le classi vanno da valore minimo X a un valore massimo X dove r è il range.

i i+r

Nell'istogramma l'asse delle ordinate è formato dalla frequenza delle classi, mentre quello delle ascisse è

formato dalle ampiezze delle classi. L'istogramma è ben diverso dal grafico a barre in quanto il primo

rappresenta classi continue tra loro, essendo costruibile solo con variabili quantitative di tipo continuo.

In caso di classi non equi-ampie si utilizzeranno frequenze percentuali.

10

Statistica [Prof. Zavarrone] – Andrea Panzeri

LE MISURE DI SINTESI: LA MEDIANA.

Quando dobbiamo descrivere un campione spesso non ci basta una sola distribuzione di frequenza (che

indica solamente la distribuzione delle modalità) quindi abbiamo bisogno di misure di sintesi. Per sintetizzare

l'andamento dei fenomeni in un numero bisogna partire dall'analisi delle scale di misura. Per esempio è

chiaro che non è possibile fare una media tra variabili qualitative ordinali ma ci sarà un altro tipo di misura di

sintesi, noto come mediana. Per sintetizzare una variabile qualitativa nominale, invece, utilizzo la moda,

ovvero la modalità a cui appartengono il maggior numero di frequenze (maggiore frequenza assoluta).

La mediana individua quale modalità divide il collettivo/campione in due parti uguali. L'individuazione del

valore mediano deve essere anticipato però dall'ordinamento delle modalità. Per calcolare la mediana

occorre conoscere la posizione relativa alla metà del collettivo e successivamente associare ad esso un valore.

Se le distribuzioni sono univariate:

Se N è dispari --> posizione della mediana = (N+1)/2

Se N è pari --> posizione della mediana = N/2 e (N/2)+1

Con N dispari il valore della mediana è la modalità a

cui corrisponde la posizione individuata.

Con N pari bisogna fare la semisomma tra le due posizioni individuate.

La mediana ha proprietà di robustezza, ovvero che non risente dei valori degli estremi. Le mediana lavora

sulle posizioni! 11

Statistica [Prof. Zavarrone] – Andrea Panzeri

In questa tabella n indica le frequenze mentre N indica le posizioni delle modalità nella distribuzione.

i i

X è il valore (N+1)/2 è la posizione.

Esempio 1:

Esempio 2: Un ristretto gruppo di colleghi (Fabio, Laura, Mara, Luca) è curioso di conoscere quale delle loro

abitazioni si trova esattamente a metà del percorso che effettuano ogni giorno per andare al lavoro.

Quando il valore mediano è indeterminato si può sintetizzare un numero attraverso la moda o le percentuali.

12

Statistica [Prof. Zavarrone] – Andrea Panzeri

I QUARTILI.

Il quartile è la mediana di una mediana. Nel calcolo del quartile non va considerata l'intera modalità della

mediana (ovvero il secondo quartile). Il calcolo dei quartili è possibile solo se il carattere è di natura

ordinabile.

ESERCIZIO 1:

NUMERO MEDIO DI STANZE = 6. NUMERO MEDIANO DI STANZE = AL PIÙ 5

13

Statistica [Prof. Zavarrone] – Andrea Panzeri

Se media e mediana coincidono si dice che la distribuzione ha forma simmetrica. Altrimenti sulla forma

della distribuzione incidono valori estremi/anomali. Media e mediana non corrispondono perchè nella

media i valori non sono considerati per grado di importanza

ESERCIZIO 2:

L’età di un gruppo di 13 studenti di un corso di tango è riportata di seguito:

12, 13, 13, 13, 14, 14, 17, 17, 17, 18, 19, 19, 21

 Q1: esclusa la mediana, nel primo 50% di osservazioni abbiamo 6 valori. La posizione del valore di Q1 è

compresa tra 6/2 e (6/2)+1 = 3 e 4.

 Q2: esclusa la mediana, nel secondo 50% di osservazioni abbiamo 6 valori. La posizione del valore di Q3

è compresa tra 6/2 e (6/2)+1 = 3 e 4. 14

Statistica [Prof. Zavarrone] – Andrea Panzeri

MEDIA E MEDIANA: IL CONFRONTO.

Se media e mediana sono uguali la distribuzione è simmetrica e viene detta campanulare. Se la media è

inferiore alla mediana si ha asimmetria a sinistra mentre se la media è maggiore alla mediana si ha asimmetria

a destra.

LE MISURE DI VARIABILITA’: LA DEVIAZIONE STANDARD E LO SCARTO QUADRATICO MEDIO.

La media trascura la variabilità delle modalità nella popolazione. Per indicarle si utilizzano le misure di

variabilità. Naturalmente la media può essere applicata solo alle variabili quantitative. La deviazione

standard e lo scarto quadratico medio indicano le variazioni delle modalità dal valore medio.

2

S = varianza campionaria - s = deviazione standard 15

Statistica [Prof. Zavarrone] – Andrea Panzeri

2

A = varianza della popolazione - sqm = a = scarto quadratico medio

ESERCIZIO:

La paga settimanale (in euro) di 5 operatori di un call-center è la seguente 500, 100, 400, 300, 50.

Dopo alcune elaborazioni si può affermare che: la retribuzione settimanale media degli operatori è pari a 270

euro. Rispetto alla media di quanto variano le retribuzioni settimanali di ogni operatore?

*I valori 50 e 500 sono definiti outlayer.

DETERMINARE ED INTERPRETARE GLI Z-SCORE.

La statistica bivariata permette di confrontare due diversi fenomeni. In senso assoluto, infatti, due fenomeni

non possono essere confrontati perchè influenzati da diverse variabilità.

16

Statistica [Prof. Zavarrone] – Andrea Panzeri

Scarto standardizzato e z-score sono sinonimi. Il procedimento è centrato sulla media, questo vuol dire che

dall'osservazione considerata si sottrae la media aritmetica. Questo risultato viene depurato dalla variabilità

ricondotta alla stessa unità di misura del fenomeno rilevato (scarto quadratico medio o deviazione standard

campionaria). Il nome “scarto standardizzato” deriva dalla standardizzazione dello scarto tra modalità e

media. Fatta questa premessa, è conseguenza diretta che si otterrà uno z-score collegato a ciascuna modalità.

LA STATISTICA DESCRITTIVA BIVARIATA: LA CORRELAZIONE LINEARE.

Come già detto, la statistica descrittiva bivariata è lo studio congiunto di due distinte caratteristiche sulla

stessa unità statistica. L'andamento delle due caratteristiche deve, però, essere prima correlato.

L'andamento congiunto delle variabili qualitative verrà inoltre chiamato associazione, mentre l'andamento

congiunto delle variabili quantitative verrà definito correlazione.

Una correlazione lineare sarebbe data dall'allineamento dei punti dello scatterplot sulla diagonale principale

del grafico. La correlazione lineare in quel caso sarebbe pari a 1, in quanto massima per concordanza. La

massima discordanza, invece, è data dal valore -1. Il valore d

Dettagli
Publisher
A.A. 2017-2018
21 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher E.molfino di informazioni apprese con la frequenza delle lezioni di Statistica e ricerche di mercato e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Libera Università di Lingue e Comunicazione (IULM) o del prof Zavarrone Emma.