Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
LA RAPPRESENTAZIONE GRAFICA.
Le rappresentazioni grafiche sono un modo alternativo alla rappresentazione tabellare di rappresentare
delle informazioni riferenti a delle variabili. Un grafico è formato dalle modalità di un carattere e dalle relative
frequenze. I grafici sono più intuitivi delle tabelle e riescono a dare un'idea più chiara dei risultati numerici.
La rappresentazione grafica è fortemente influenzabile dalla manipolazione dell'informazione perchè un
grafico può essere costruito funzionalmente per uno scopo.
Ogni grafico è specifico per la rappresentazione di date tipologie di variabili e scale di misura.
Un nuovo approccio allo studio dell'esplorazione dei fenomeni è stato dato da John Tukey nel 1965 con la
Exploratory Data Analysis. Con la EDA nasce la statistica applicata che si affianca alla statistica metodologica.
La statistica applicata parte dall'osservazione della realtà per capire i fenomeni attraverso formule teoriche.
Tukey ha anche introdotto il termine informatico bit e ha creato il box plot. Edward Tufte è stato invece il
primo a capire le potenzialità dei grafici per veicolare informazioni, ma ha compreso anche il pericolo dei
chart junk: elementi visivi ridondanti nei grafici e che distraggono i lettori. L'uso dei pittogrammi per
rappresentare i fenomeni, molto spesso, non ha infatti riscontri fedeli rispetto alle informazioni. Per esempio,
un fenomeno che è legato al tempo può essere rappresentato solo con una continuità (per esempio inserita
in un sistema di assi cartesiani) e non attraverso puntualità. I grafici devono sintetizzare la realtà e veicolare
informazioni ma non devono portare ad approssimazioni semplificanti.
8
Statistica [Prof. Zavarrone] – Andrea Panzeri
Con infografica si intende l'integrazione di rappresentazioni grafiche a statistiche. Il pittogramma qui serve
per rendere più intuitive informazioni globali fornite dai numeri. Le scale di variabili qualitative di tipo
nominale possono essere rappresentate da istogrammi e anche ordinati in base alle frequenze (in quanto
non possono essere ordinate per qualità).
Nel grafico a torta, per esempio, le frequenze percentuali non sono immediatamente intuibili dalla sola
rappresentazione grafica se non affiancata da dei numeri. La Apple ha utilizzato un grafico tridimensionale
per far sembrare la sua fetta di torta più grande rispetto ad altre e solo il numero all'interno delle torte stesse
può veicolare l'informazione corretta.
Per una rappresentazione di variabili ordinali non si possono usare le frequenze assolute per fare un
confronto, bensì quelle relative/percentuali.
In sintesi:
I grafici rappresentano una forma primordiale di comunicazione
Lo sviluppo dei grafici è stato (ed è tuttora) caratterizzato da finalità descrittive e strategiche
Forte impulso alla diffusione dei grafici è imputabile all’introduzione dei pc
Argomento molto importante per: Infografica, Data Visualization, Graphic Design, Statistica
SCALA GRAFICO
QUALITATIVA - NOMINALE TORTA o BARRE
QUALITATIVA - ORDINALE BARRE
QUANTITATIVA - A INTERVALLO ASTE
QUANTITATIVA - A RAPPORTO ASTE
QUANTITATIVA – A RAPPORTO E CONTINUA ISTOGRAMMA
SERIE STORICHE LINEA DI TENDENZA
Le serie storiche hanno tempo e intensità come dimensioni. I grafici, essendo rappresentativi, devono
rispettare la natura del fenomeno. 9
Statistica [Prof. Zavarrone] – Andrea Panzeri
FREQUENZE E RAPPRESENTAZIONI GRAFICHE.
La rappresentazione di una variabile quantitativa di tipo continuo (o discreto ma determinata da un numero
elevato di unità) necessita al ricorso di due artifici: o la distribuzione in classi/intervalli di frequenza (per la
rappresentazione tabellare) o l'istogramma (per rappresentazione grafica). Le classi/intervalli sono
sistemazioni che raggruppano i caratteri. La creazione delle classi rispetta due criteri: l'equi-frequenza o
l'equi-ampiezza. Le classi devono quindi avere o frequenza o ampiezza costanti.
Le classi vanno da valore minimo X a un valore massimo X dove r è il range.
i i+r
Nell'istogramma l'asse delle ordinate è formato dalla frequenza delle classi, mentre quello delle ascisse è
formato dalle ampiezze delle classi. L'istogramma è ben diverso dal grafico a barre in quanto il primo
rappresenta classi continue tra loro, essendo costruibile solo con variabili quantitative di tipo continuo.
In caso di classi non equi-ampie si utilizzeranno frequenze percentuali.
10
Statistica [Prof. Zavarrone] – Andrea Panzeri
LE MISURE DI SINTESI: LA MEDIANA.
Quando dobbiamo descrivere un campione spesso non ci basta una sola distribuzione di frequenza (che
indica solamente la distribuzione delle modalità) quindi abbiamo bisogno di misure di sintesi. Per sintetizzare
l'andamento dei fenomeni in un numero bisogna partire dall'analisi delle scale di misura. Per esempio è
chiaro che non è possibile fare una media tra variabili qualitative ordinali ma ci sarà un altro tipo di misura di
sintesi, noto come mediana. Per sintetizzare una variabile qualitativa nominale, invece, utilizzo la moda,
ovvero la modalità a cui appartengono il maggior numero di frequenze (maggiore frequenza assoluta).
La mediana individua quale modalità divide il collettivo/campione in due parti uguali. L'individuazione del
valore mediano deve essere anticipato però dall'ordinamento delle modalità. Per calcolare la mediana
occorre conoscere la posizione relativa alla metà del collettivo e successivamente associare ad esso un valore.
Se le distribuzioni sono univariate:
Se N è dispari --> posizione della mediana = (N+1)/2
Se N è pari --> posizione della mediana = N/2 e (N/2)+1
Con N dispari il valore della mediana è la modalità a
cui corrisponde la posizione individuata.
Con N pari bisogna fare la semisomma tra le due posizioni individuate.
La mediana ha proprietà di robustezza, ovvero che non risente dei valori degli estremi. Le mediana lavora
sulle posizioni! 11
Statistica [Prof. Zavarrone] – Andrea Panzeri
In questa tabella n indica le frequenze mentre N indica le posizioni delle modalità nella distribuzione.
i i
X è il valore (N+1)/2 è la posizione.
Esempio 1:
Esempio 2: Un ristretto gruppo di colleghi (Fabio, Laura, Mara, Luca) è curioso di conoscere quale delle loro
abitazioni si trova esattamente a metà del percorso che effettuano ogni giorno per andare al lavoro.
Quando il valore mediano è indeterminato si può sintetizzare un numero attraverso la moda o le percentuali.
12
Statistica [Prof. Zavarrone] – Andrea Panzeri
I QUARTILI.
Il quartile è la mediana di una mediana. Nel calcolo del quartile non va considerata l'intera modalità della
mediana (ovvero il secondo quartile). Il calcolo dei quartili è possibile solo se il carattere è di natura
ordinabile.
ESERCIZIO 1:
NUMERO MEDIO DI STANZE = 6. NUMERO MEDIANO DI STANZE = AL PIÙ 5
13
Statistica [Prof. Zavarrone] – Andrea Panzeri
Se media e mediana coincidono si dice che la distribuzione ha forma simmetrica. Altrimenti sulla forma
della distribuzione incidono valori estremi/anomali. Media e mediana non corrispondono perchè nella
media i valori non sono considerati per grado di importanza
ESERCIZIO 2:
L’età di un gruppo di 13 studenti di un corso di tango è riportata di seguito:
12, 13, 13, 13, 14, 14, 17, 17, 17, 18, 19, 19, 21
Q1: esclusa la mediana, nel primo 50% di osservazioni abbiamo 6 valori. La posizione del valore di Q1 è
compresa tra 6/2 e (6/2)+1 = 3 e 4.
Q2: esclusa la mediana, nel secondo 50% di osservazioni abbiamo 6 valori. La posizione del valore di Q3
è compresa tra 6/2 e (6/2)+1 = 3 e 4. 14
Statistica [Prof. Zavarrone] – Andrea Panzeri
MEDIA E MEDIANA: IL CONFRONTO.
Se media e mediana sono uguali la distribuzione è simmetrica e viene detta campanulare. Se la media è
inferiore alla mediana si ha asimmetria a sinistra mentre se la media è maggiore alla mediana si ha asimmetria
a destra.
LE MISURE DI VARIABILITA’: LA DEVIAZIONE STANDARD E LO SCARTO QUADRATICO MEDIO.
La media trascura la variabilità delle modalità nella popolazione. Per indicarle si utilizzano le misure di
variabilità. Naturalmente la media può essere applicata solo alle variabili quantitative. La deviazione
standard e lo scarto quadratico medio indicano le variazioni delle modalità dal valore medio.
2
S = varianza campionaria - s = deviazione standard 15
Statistica [Prof. Zavarrone] – Andrea Panzeri
2
A = varianza della popolazione - sqm = a = scarto quadratico medio
ESERCIZIO:
La paga settimanale (in euro) di 5 operatori di un call-center è la seguente 500, 100, 400, 300, 50.
Dopo alcune elaborazioni si può affermare che: la retribuzione settimanale media degli operatori è pari a 270
euro. Rispetto alla media di quanto variano le retribuzioni settimanali di ogni operatore?
*I valori 50 e 500 sono definiti outlayer.
DETERMINARE ED INTERPRETARE GLI Z-SCORE.
La statistica bivariata permette di confrontare due diversi fenomeni. In senso assoluto, infatti, due fenomeni
non possono essere confrontati perchè influenzati da diverse variabilità.
16
Statistica [Prof. Zavarrone] – Andrea Panzeri
Scarto standardizzato e z-score sono sinonimi. Il procedimento è centrato sulla media, questo vuol dire che
dall'osservazione considerata si sottrae la media aritmetica. Questo risultato viene depurato dalla variabilità
ricondotta alla stessa unità di misura del fenomeno rilevato (scarto quadratico medio o deviazione standard
campionaria). Il nome “scarto standardizzato” deriva dalla standardizzazione dello scarto tra modalità e
media. Fatta questa premessa, è conseguenza diretta che si otterrà uno z-score collegato a ciascuna modalità.
LA STATISTICA DESCRITTIVA BIVARIATA: LA CORRELAZIONE LINEARE.
Come già detto, la statistica descrittiva bivariata è lo studio congiunto di due distinte caratteristiche sulla
stessa unità statistica. L'andamento delle due caratteristiche deve, però, essere prima correlato.
L'andamento congiunto delle variabili qualitative verrà inoltre chiamato associazione, mentre l'andamento
congiunto delle variabili quantitative verrà definito correlazione.
Una correlazione lineare sarebbe data dall'allineamento dei punti dello scatterplot sulla diagonale principale
del grafico. La correlazione lineare in quel caso sarebbe pari a 1, in quanto massima per concordanza. La
massima discordanza, invece, è data dal valore -1. Il valore d