Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

Per costruire un diagramma a torta disegniamo un cerchio che rappresenta la globalità delle

informazioni raccolte. Facciamo poi uso delle frequenze relative per ciascuna classe. Per calcolare

l’ampiezza di un settore del diagramma a torta, moltiplico la frequenza relativa di ciascuna etichetta per

360.

I valori numerici mostrati per ciascun settore possono essere frequenze assolute, relative o percentuali.

DISTRIBUZIONE DI FREQUENZA

Una distribuzione di frequenza è una tabella di sintesi dei dati che mostra il numero di unità in ciascuna

di un insieme di classi non sovrapposte. Questa definizione vale sia per i dati qualitativi che per quelli

quantitativi.

I tre passi necessari per definire le classi di una distribuzione di frequenza per dati quantitativi sono:

1. determinare il numero di classi non sovrapposte;

2. determinare l’ampiezza di ciascuna classe;

3. determinare i limiti della classe;

numero delle classi le classi sono formate specificando gli intervalli che saranno utilizzati per

raggruppare i dati. L’obiettivo è quello di utilizzare un numero sufficiente di classi tale da consentire,

da un lato, di mostrare la variabilità nei dati ma, dall’altro lato, di non avere classi che contengono

solamente poche unità.

ampiezza delle classi l’ampiezza dev’essere la stessa per tutte le classi. Per calcolare l’ampiezza

approssimata delle classi faccio: (valore dei dati più grande – valore dei dati più piccolo)/ numero di

classi.

limiti della classe devono essere scelti in modo tale che ciascuna unità dell’insieme dei dati

appartenga solo ad una classe. Il limite inferiore della classe identifica il più piccolo valore possibile

dei dati assegnato alla classe. Il limite superiore della classe invece indica il più grande valore possibile

dei dati assegnato alla classe.

punto medio della classe in una distribuzione di frequenza per dati quantitativi, il punto medio della

classe è il valore situato a metà tra il limite inferiore e il limite superiore.

DISTRIBUZIONE DI FREQUENZA RELATIVA E DI FREQUENZA PERCENTUALE

La frequenza relativa di una classe si calcola facendo: frequenza della classe/ n osservazioni.

La frequenza percentuale di una classe è la frequenza relativa moltiplicata per 100.

DIAGRAMMA A PUNTI

Il diagramma a punti è uno degli strumenti grafici più semplici per la sintesi dei dati. L’asse

orizzontale mostra l’intervallo dei dati. Ciascun valore dei dati è rappresentato da un punto collocato

sopra l’asse. I diagrammi a punti rappresentano i dati nel dettaglio e sono utili per confrontare le

distribuzioni dei dati relative a due o più variabili.

ISTOGRAMMA

Un istogramma si costruisce disponendo la variabile di interesse sull’asse orizzontale e la frequenza

assoluta, relativa o percentuale sull’asse verticale.

Uno degli utilizzi più importanti di un istogramma è quello di fornire informazioni sulla forma di una

distribuzione. 4

Un istogramma è definito asimmetrico a sinistra se la sua coda si estende maggiormente verso sinistra.

Questo istogramma è tipico per i risultati di un esame con nessun risultato sopra il 100%, molti dei

risultati sopra il 70% e solamente alcuni particolarmente bassi.

Un istogramma è definito asimmetrico a destra se la sua coda si estende maggiormente verso destra. I

dati provenienti da applicazioni economiche e aziendali portano spesso ad istogrammi che sono

asimmetrici a destra. Per esempio i dati sui prezzi delle case, i salari, i consumi e così via.

In un istogramma simmetrico la coda di sinistra rispecchia la forma della coda di destra. Gli istogrammi

per dati che provengono da contesti pratici non sono mai perfettamente simmetrici, anche se dati sui

punteggi dei test di ammissione all’università, sull’altezza e il peso delle persone danno luogo d

istogrammi che sono approssimativamente simmetrici.

DISTRIBUZIONI CUMULATE

La distribuzione di frequenza cumulata mostra il numero di unità che hanno valore inferiore o uguale

al limite superiore di ciascuna classe. La distribuzione di frequenza cumulata utilizza il numero,

l’ampiezza e i limiti delle classi usati per costruire la distribuzione di frequenza.

Una distribuzione di frequenza cumulata relativa mostra la proporzione, e una distribuzione di

frequenza cumulata percentuale mostra la percentuale, di unità di valore inferiore o uguale al limite

superiore di ciascuna classe.

OGIVA

Il grafico di una distribuzione cumulata, definito ogiva, mostra i valori dei dati sull’asse orizzontale e le

frequenze assolute cumulate, le frequenze relative cumulate o le frequenze percentuali cumulate

sull’asse verticale. L’ogiva è costruita disegnando un punto in corrispondenza della frequenza cumulata

di ciascuna classe. Per completare l’ogiva, i punti disegnati sono connessi tra loro mediante linee.

ANALISI ESPLORATIVA DEI DATI: IL DIAGRAMMA STEM-AND-LEAF

Le tecniche di analisi esplorativa dei dati consistono in semplici strumenti aritmetici e di grafici facili

da disegnare che possono essere utilizzati per sintetizzare rapidamente i dati.

La tecnica definita come diagramma stem-and-leaf (ramo foglia) può essere utilizzata per evidenziare

simultaneamente sia la posizione che la forma di un insieme di dati.

Per costruire un diagramma stem-and-leaf, dobbiamo prima posizionare le prime cifre del valore di

ciascuna unità dei dati a sinistra di una linea verticale. A destra di questa linea verticale posizioniamo

l’ultima cifra del valore di ciascuna unità dei dati (vedi pagg.45-47). I numeri a sinistra della linea

verticale formano lo stem (ramo) e ciascuna cifra a destra della linea verticale è una leaf (foglia).

Per analizzare la forma dell’insieme dei dati, attraverso questo tipo di diagramma, ricorriamo a dei

rettangoli, ottenendo uno schema simile ad un istogramma.

DIAGRAMMA A DISPERSIONE E LINEA DI TENDENZA

Un diagramma scatter (a dispersione) è una rappresentazione grafica della relazione tra due variabili

quantitative, e una linea di tendenza è una retta che fornisce un’approssimazione della relazione tra le

due variabili. 5

cap.2 STATISTICA DESCRITTIVA: MISURE NUMERICHE

MISURE DI POSIZIONE

MEDIA

La misura di posizione più importante è la media. Essa fornisce una misura di posizione centrale dei

dati. La formula per la media campionaria è : Σ x / n.

i

MEDIANA

La mediana è un’altra misura di posizione centrale. È il valore centrale quando i dati sono disposti in

ordine crescente. Per un numero di osservazioni dispari la mediana è la modalità in posizione centrale.

Per un numero di osservazioni pari, la mediana è la media delle due modalità in posizione centrale.

MODA

Una terza misura di posizione è la moda. La moda è la modalità che si presenta con frequenza più

elevata. Possono verificarsi situazioni in cui la frequenza più elevata si osserva per due o più valori

diversi. In questi casi esiste più di una moda. Se i dati contengono due mode si dicono bimodali. Se

invece contengono più di due mode, diciamo che sono multimodali. Nei casi multimodali la moda non

è quasi mai riportata poiché non è un’informazione importante per sintetizzare i dati.

PERCENTILI

Un percentile fornisce informazioni su come i dati si distribuiscono nell’intervallo tra il valore più

piccolo e il valore più grande. Per i dati che non contengono numerosi valori ripetuti, il p-mo percentile

divide i dati in due parti.

Il p-mo percentile è il valore tale per cui almeno il p% delle osservazioni ha valore inferiore o uguale e

almeno il (100 – p)% delle osservazioni ha valore superiore o uguale.

Per calcolare il p-mo percentile devo disporre i dati in ordine crescente e calcolare l’indice i facendo:

i = (p/100)*n in cui p è il percentile di interesse e n è il numero di osservazioni.

Se i non è un intero, arrotondo per eccesso. L’intero più grande di i definisce la posizione del p-mo

percentile.

Se i è un intero, il p-mo percentile è la media dei valori nelle posizioni i e i+1.

QUARTILI

Spesso è conveniente suddividere i dati in quattro parti, in modo tale che ciascuna parte contenga circa

un quarto, o il 25% delle osservazioni. I punti di suddivisione sono chiamati quartili e sono definiti

come: Q = primo quartile, o 25-mo percentile;

1

Q = secondo quartile, o 50-mo percentile;

2

Q = terzo quartile, o 75-mo percentile;

3

Un quartile si trova determinando il valore della sua posizione nella sequenza ordinata dei dati, dove

Posizione primo quartile (Q ) 0,25 (n+1)

1

Posizione secondo quartile (= mediana) 0,5 (n+1)

Posizione terzo quartile (Q ) 0,75 (n+1)

3 MISURE DI VARIABILITA’

RANGE

La misura di variabilità più semplice è il range (o campo di variazione). Si calcola facendo: valore più

grande – valore più piccolo. È utilizzato raramente come singola misura, perché essendo che si basa

solo su due osservazioni è fortemente influenzato da valori estremi.

SCARTO INTERQUARTILE

È la differenza tra il terzo quartile e il primo. È l’ampiezza dell’intervallo che contiene il 50% dei dati

posizionati in mezzo alla distribuzione. 6

VARIANZA

È una misura della variabilità che utilizza tutti i dati. Si basa sulla differenza tra il valore di ciascuna

osservazione (x ) e la media. La differenza tra ciascuna xi e la media è definita scarto dalla media. Per

i

un campione, uno scarto dalla media è scritto come (x – x); per una popolazione è scritto come (x –μ).

i i

Nel calcolo della varianza, gli scarti dalla media sono elevati al quadrato.

Se i dati provengono da una popolazione la media dei quadrati degli scarti è chiamata varianza della

popolazione. Per una popolazione di N osservazioni con media μ, la definizione della varianza è:

2

varianza pop = [Σ(x –μ) ] /N.

i 2

Invece la varianza campionaria è definita nel modo seguente: [ Σ(x – x) ] / (n – 1).

i

DEVIAZIONE STANDARD

È definita come la radice quadrata della varianza presa con segno positivo. È più facile da interpretare

rispetto alla varianza l’unità di misura della deviazione standard è la stessa dei dati.

2

Deviazione standard campionaria = √s 2

Deviazione standard della popolazione = √ơ

COEFFICIENTE DI VARIAZIONE

Indica quanto è grande la deviazione standard in relazione alla media. È una misura di variabilità

relativa. Si calcola facendo: [(deviazione standard/media)* 100] % .

FORMA DELLA DISTRIBUZIONE

Una misura numerica importante della forma di una distribuzione è chiamata skewness (asimmetria).

Per i dati asimmetrici a destra la skewness è positiva. Quando i dati manifestano asimmetria positiva,

generalmente la media sarà più grande della mediana.

Per i dati asimmetrici a sinistra la skewness è negativa. Quando i dati hanno un’asimmetria negativa, la

media è più piccola della mediana. Se i dati sono simmetrici, la skewness è uguale a zero.

La mediana rappresenta la misura di posizione preferibile quando i dati sono fortemente asimmetrici.

L’INDICE Z-SCORE

Lo z-score è spesso chiamato valore standardizzato. Può essere interpretato come il numero di

deviazioni standard tra x e la media.

i

Si calcola facendo: (x – media) / deviazione standard.

i

Uno z-score maggiore di zero si presenta per osservazioni di valore superiore alla media, uno z-score

minore di zero, invece, per osservazioni di valore inferiore alla media. Uno z-score pari a zero indica

che il valore dell’osservazione è uguale alla media.

Per ogni osservazione lo z-score può essere interpretato come una misura della posizione relativa

dell’osservazione dell’insieme dei dati. Quindi se due osservazioni appartenenti a due insiemi di dati

diversi hanno lo stesso z-score, si può dire che hanno la medesima posizione relativa, nel senso che

hanno il medesimo numero di deviazioni standard dalla media.

TEOREMA DI CHEBYSHEV

Il teorema di Chebyshev permette di trarre delle conclusioni a proposito della proporzione di

osservazioni che devono trovarsi entro un numero specificato di deviazioni standard dalla media.

Almeno il 75% delle osservazioni deve trovarsi entro 2 deviazioni standard dalla media.

Almeno l’89% delle osservazioni deve trovarsi entro 3 deviazioni standard dalla media.

Almeno il 94% delle osservazioni deve trovarsi entro 4 deviazioni standard dalla media.

Uno dei vantaggi del teorema di Chebyshev è che esso si applica a qualsiasi insieme di dati a

prescindere dalla forma della distribuzione dei dati.

7


PAGINE

11

PESO

84.50 KB

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea in amministrazione aziendale e diritto
SSD:
Università: Trento - Unitn
A.A.: 2014-2015

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher chiaralp93 di informazioni apprese con la frequenza delle lezioni di Analisi e statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Trento - Unitn o del prof Taufer Emanuele.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea in amministrazione aziendale e diritto

Riassunto esame Finanza, prof. Erzegovesi, libro consigliato Finanza aziendale, Berk, De Marzo
Appunto
Riassunto esame Economia II, prof. Cerea, libro consigliato Corso di Scienze delle Finanze di Bosi
Appunto
Contabilità completa
Appunto
Riassunto esame Economia Aziendale, prof. Collini, libro consigliato Analisi dei costi
Appunto