Statistica per le analisi economico aziendali - Anderson, Sweeney,Williams -sunto, prof. Taufer
Anteprima
ESTRATTO DOCUMENTO
Per costruire un diagramma a torta disegniamo un cerchio che rappresenta la globalità delle
informazioni raccolte. Facciamo poi uso delle frequenze relative per ciascuna classe. Per calcolare
l’ampiezza di un settore del diagramma a torta, moltiplico la frequenza relativa di ciascuna etichetta per
360.
I valori numerici mostrati per ciascun settore possono essere frequenze assolute, relative o percentuali.
DISTRIBUZIONE DI FREQUENZA
Una distribuzione di frequenza è una tabella di sintesi dei dati che mostra il numero di unità in ciascuna
di un insieme di classi non sovrapposte. Questa definizione vale sia per i dati qualitativi che per quelli
quantitativi.
I tre passi necessari per definire le classi di una distribuzione di frequenza per dati quantitativi sono:
1. determinare il numero di classi non sovrapposte;
2. determinare l’ampiezza di ciascuna classe;
3. determinare i limiti della classe;
numero delle classi le classi sono formate specificando gli intervalli che saranno utilizzati per
raggruppare i dati. L’obiettivo è quello di utilizzare un numero sufficiente di classi tale da consentire,
da un lato, di mostrare la variabilità nei dati ma, dall’altro lato, di non avere classi che contengono
solamente poche unità.
ampiezza delle classi l’ampiezza dev’essere la stessa per tutte le classi. Per calcolare l’ampiezza
approssimata delle classi faccio: (valore dei dati più grande – valore dei dati più piccolo)/ numero di
classi.
limiti della classe devono essere scelti in modo tale che ciascuna unità dell’insieme dei dati
appartenga solo ad una classe. Il limite inferiore della classe identifica il più piccolo valore possibile
dei dati assegnato alla classe. Il limite superiore della classe invece indica il più grande valore possibile
dei dati assegnato alla classe.
punto medio della classe in una distribuzione di frequenza per dati quantitativi, il punto medio della
classe è il valore situato a metà tra il limite inferiore e il limite superiore.
DISTRIBUZIONE DI FREQUENZA RELATIVA E DI FREQUENZA PERCENTUALE
La frequenza relativa di una classe si calcola facendo: frequenza della classe/ n osservazioni.
La frequenza percentuale di una classe è la frequenza relativa moltiplicata per 100.
DIAGRAMMA A PUNTI
Il diagramma a punti è uno degli strumenti grafici più semplici per la sintesi dei dati. L’asse
orizzontale mostra l’intervallo dei dati. Ciascun valore dei dati è rappresentato da un punto collocato
sopra l’asse. I diagrammi a punti rappresentano i dati nel dettaglio e sono utili per confrontare le
distribuzioni dei dati relative a due o più variabili.
ISTOGRAMMA
Un istogramma si costruisce disponendo la variabile di interesse sull’asse orizzontale e la frequenza
assoluta, relativa o percentuale sull’asse verticale.
Uno degli utilizzi più importanti di un istogramma è quello di fornire informazioni sulla forma di una
distribuzione. 4
Un istogramma è definito asimmetrico a sinistra se la sua coda si estende maggiormente verso sinistra.
Questo istogramma è tipico per i risultati di un esame con nessun risultato sopra il 100%, molti dei
risultati sopra il 70% e solamente alcuni particolarmente bassi.
Un istogramma è definito asimmetrico a destra se la sua coda si estende maggiormente verso destra. I
dati provenienti da applicazioni economiche e aziendali portano spesso ad istogrammi che sono
asimmetrici a destra. Per esempio i dati sui prezzi delle case, i salari, i consumi e così via.
In un istogramma simmetrico la coda di sinistra rispecchia la forma della coda di destra. Gli istogrammi
per dati che provengono da contesti pratici non sono mai perfettamente simmetrici, anche se dati sui
punteggi dei test di ammissione all’università, sull’altezza e il peso delle persone danno luogo d
istogrammi che sono approssimativamente simmetrici.
DISTRIBUZIONI CUMULATE
La distribuzione di frequenza cumulata mostra il numero di unità che hanno valore inferiore o uguale
al limite superiore di ciascuna classe. La distribuzione di frequenza cumulata utilizza il numero,
l’ampiezza e i limiti delle classi usati per costruire la distribuzione di frequenza.
Una distribuzione di frequenza cumulata relativa mostra la proporzione, e una distribuzione di
frequenza cumulata percentuale mostra la percentuale, di unità di valore inferiore o uguale al limite
superiore di ciascuna classe.
OGIVA
Il grafico di una distribuzione cumulata, definito ogiva, mostra i valori dei dati sull’asse orizzontale e le
frequenze assolute cumulate, le frequenze relative cumulate o le frequenze percentuali cumulate
sull’asse verticale. L’ogiva è costruita disegnando un punto in corrispondenza della frequenza cumulata
di ciascuna classe. Per completare l’ogiva, i punti disegnati sono connessi tra loro mediante linee.
ANALISI ESPLORATIVA DEI DATI: IL DIAGRAMMA STEM-AND-LEAF
Le tecniche di analisi esplorativa dei dati consistono in semplici strumenti aritmetici e di grafici facili
da disegnare che possono essere utilizzati per sintetizzare rapidamente i dati.
La tecnica definita come diagramma stem-and-leaf (ramo foglia) può essere utilizzata per evidenziare
simultaneamente sia la posizione che la forma di un insieme di dati.
Per costruire un diagramma stem-and-leaf, dobbiamo prima posizionare le prime cifre del valore di
ciascuna unità dei dati a sinistra di una linea verticale. A destra di questa linea verticale posizioniamo
l’ultima cifra del valore di ciascuna unità dei dati (vedi pagg.45-47). I numeri a sinistra della linea
verticale formano lo stem (ramo) e ciascuna cifra a destra della linea verticale è una leaf (foglia).
Per analizzare la forma dell’insieme dei dati, attraverso questo tipo di diagramma, ricorriamo a dei
rettangoli, ottenendo uno schema simile ad un istogramma.
DIAGRAMMA A DISPERSIONE E LINEA DI TENDENZA
Un diagramma scatter (a dispersione) è una rappresentazione grafica della relazione tra due variabili
quantitative, e una linea di tendenza è una retta che fornisce un’approssimazione della relazione tra le
due variabili. 5
cap.2 STATISTICA DESCRITTIVA: MISURE NUMERICHE
MISURE DI POSIZIONE
MEDIA
La misura di posizione più importante è la media. Essa fornisce una misura di posizione centrale dei
dati. La formula per la media campionaria è : Σ x / n.
i
MEDIANA
La mediana è un’altra misura di posizione centrale. È il valore centrale quando i dati sono disposti in
ordine crescente. Per un numero di osservazioni dispari la mediana è la modalità in posizione centrale.
Per un numero di osservazioni pari, la mediana è la media delle due modalità in posizione centrale.
MODA
Una terza misura di posizione è la moda. La moda è la modalità che si presenta con frequenza più
elevata. Possono verificarsi situazioni in cui la frequenza più elevata si osserva per due o più valori
diversi. In questi casi esiste più di una moda. Se i dati contengono due mode si dicono bimodali. Se
invece contengono più di due mode, diciamo che sono multimodali. Nei casi multimodali la moda non
è quasi mai riportata poiché non è un’informazione importante per sintetizzare i dati.
PERCENTILI
Un percentile fornisce informazioni su come i dati si distribuiscono nell’intervallo tra il valore più
piccolo e il valore più grande. Per i dati che non contengono numerosi valori ripetuti, il p-mo percentile
divide i dati in due parti.
Il p-mo percentile è il valore tale per cui almeno il p% delle osservazioni ha valore inferiore o uguale e
almeno il (100 – p)% delle osservazioni ha valore superiore o uguale.
Per calcolare il p-mo percentile devo disporre i dati in ordine crescente e calcolare l’indice i facendo:
i = (p/100)*n in cui p è il percentile di interesse e n è il numero di osservazioni.
Se i non è un intero, arrotondo per eccesso. L’intero più grande di i definisce la posizione del p-mo
percentile.
Se i è un intero, il p-mo percentile è la media dei valori nelle posizioni i e i+1.
QUARTILI
Spesso è conveniente suddividere i dati in quattro parti, in modo tale che ciascuna parte contenga circa
un quarto, o il 25% delle osservazioni. I punti di suddivisione sono chiamati quartili e sono definiti
come: Q = primo quartile, o 25-mo percentile;
1
Q = secondo quartile, o 50-mo percentile;
2
Q = terzo quartile, o 75-mo percentile;
3
Un quartile si trova determinando il valore della sua posizione nella sequenza ordinata dei dati, dove
Posizione primo quartile (Q ) 0,25 (n+1)
1
Posizione secondo quartile (= mediana) 0,5 (n+1)
Posizione terzo quartile (Q ) 0,75 (n+1)
3 MISURE DI VARIABILITA’
RANGE
La misura di variabilità più semplice è il range (o campo di variazione). Si calcola facendo: valore più
grande – valore più piccolo. È utilizzato raramente come singola misura, perché essendo che si basa
solo su due osservazioni è fortemente influenzato da valori estremi.
SCARTO INTERQUARTILE
È la differenza tra il terzo quartile e il primo. È l’ampiezza dell’intervallo che contiene il 50% dei dati
posizionati in mezzo alla distribuzione. 6
VARIANZA
È una misura della variabilità che utilizza tutti i dati. Si basa sulla differenza tra il valore di ciascuna
osservazione (x ) e la media. La differenza tra ciascuna xi e la media è definita scarto dalla media. Per
i
un campione, uno scarto dalla media è scritto come (x – x); per una popolazione è scritto come (x –μ).
i i
Nel calcolo della varianza, gli scarti dalla media sono elevati al quadrato.
Se i dati provengono da una popolazione la media dei quadrati degli scarti è chiamata varianza della
popolazione. Per una popolazione di N osservazioni con media μ, la definizione della varianza è:
2
varianza pop = [Σ(x –μ) ] /N.
i 2
Invece la varianza campionaria è definita nel modo seguente: [ Σ(x – x) ] / (n – 1).
i
DEVIAZIONE STANDARD
È definita come la radice quadrata della varianza presa con segno positivo. È più facile da interpretare
rispetto alla varianza l’unità di misura della deviazione standard è la stessa dei dati.
2
Deviazione standard campionaria = √s 2
Deviazione standard della popolazione = √ơ
COEFFICIENTE DI VARIAZIONE
Indica quanto è grande la deviazione standard in relazione alla media. È una misura di variabilità
relativa. Si calcola facendo: [(deviazione standard/media)* 100] % .
FORMA DELLA DISTRIBUZIONE
Una misura numerica importante della forma di una distribuzione è chiamata skewness (asimmetria).
Per i dati asimmetrici a destra la skewness è positiva. Quando i dati manifestano asimmetria positiva,
generalmente la media sarà più grande della mediana.
Per i dati asimmetrici a sinistra la skewness è negativa. Quando i dati hanno un’asimmetria negativa, la
media è più piccola della mediana. Se i dati sono simmetrici, la skewness è uguale a zero.
La mediana rappresenta la misura di posizione preferibile quando i dati sono fortemente asimmetrici.
L’INDICE Z-SCORE
Lo z-score è spesso chiamato valore standardizzato. Può essere interpretato come il numero di
deviazioni standard tra x e la media.
i
Si calcola facendo: (x – media) / deviazione standard.
i
Uno z-score maggiore di zero si presenta per osservazioni di valore superiore alla media, uno z-score
minore di zero, invece, per osservazioni di valore inferiore alla media. Uno z-score pari a zero indica
che il valore dell’osservazione è uguale alla media.
Per ogni osservazione lo z-score può essere interpretato come una misura della posizione relativa
dell’osservazione dell’insieme dei dati. Quindi se due osservazioni appartenenti a due insiemi di dati
diversi hanno lo stesso z-score, si può dire che hanno la medesima posizione relativa, nel senso che
hanno il medesimo numero di deviazioni standard dalla media.
TEOREMA DI CHEBYSHEV
Il teorema di Chebyshev permette di trarre delle conclusioni a proposito della proporzione di
osservazioni che devono trovarsi entro un numero specificato di deviazioni standard dalla media.
Almeno il 75% delle osservazioni deve trovarsi entro 2 deviazioni standard dalla media.
Almeno l’89% delle osservazioni deve trovarsi entro 3 deviazioni standard dalla media.
Almeno il 94% delle osservazioni deve trovarsi entro 4 deviazioni standard dalla media.
Uno dei vantaggi del teorema di Chebyshev è che esso si applica a qualsiasi insieme di dati a
prescindere dalla forma della distribuzione dei dati.
7
I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher chiaralp93 di informazioni apprese con la frequenza delle lezioni di Analisi e statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Trento - Unitn o del prof Taufer Emanuele.
Acquista con carta o conto PayPal
Scarica il file tutte le volte che vuoi
Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato