S = è la branca della statistica che studia i criteri di rilevazione, classificazione, sintesi e
TATISTICA DESCRITTIVA [1]
rappresentazione dei dati appresi dallo studio di una popolazione o di una parte di essa (detta campione ). I risultati
ottenuti nell'ambito della statistica descrittiva si possono definire certi, a meno di errori di misurazione dovuti al caso,
che sono in media pari a zero. Da questo punto di vista si differenzia dalla statistica inferenziale, alla quale sono
associati inoltre errori di valutazione.
= è il procedimento per cui si inducono le caratteristiche di una popolazione dall'osservazione di
STATISTICA INFERENZIALE
una parte di essa (detta "campione"), selezionata solitamente mediante un esperimento casuale.
VARIABILI (DATI)
QUANTITATIVE QUALITATTIVE
numeriche non numeriche tutte le altre
peso altezza, al cui risposta è un numero vanno a descrive una nostra percezione:
divertimento nel vedere un film
dolore nel avere la febbre
var. num. DISCRETA var. num. CONTINUA
se l’insieme dei valori che può se l’insieme dei valori che può assumere è l’insieme dei numeri
assumere è finito o numerabile reali* o un intervallo di numeri reali
(es: quanti figli ha una famiglia? 1;2;3 figli) (es: altezza di una persona: 1,76mt ; 1,77mt; 1,80mt)
Numeri reali* = numeri positivi o negativi con parte decimale finita o infinita .
IN BASE ALLA VARIABILE CHE ABBIAMO BISOGNA ESEGUIRE UNA CLASSIFICAZIONE DIFFERENTE
→
PER DECIDERE SE UNA VARIABILE È DISCRETA O CONTINUA SI DEVE RAGIONARE SU QUALI VALORI LA VARIABILE PUÒ
(è infatti evidente che i valori riportati sono sempre un
ASSUMERE E NON SUI VALORI EFFETTIVAMENTE ASSUNTI
numero di variabili finito)
I dati ottenuti da rilevazioni statistiche, per essere studiati, devono essere divisi in classi e determinare poi
la frequenza assoluta = numero di osservazioni che appartengono a ciascuna classe
• VARIABILI DISCRETE
Rilevando il voto di 40 staudenti all’esame di statistica si ottengono i seguenti dati:
La variabile x osservata è una variabile discreta che può assumere solo valori interi.
Sceglieremo come classe i numeri k = 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30
Classe =
Frequenza assoluta ( ) = numero di osservazioni che cadono in ciascuna classe.
frequenza di classe
È un numero compreso tra 0 ed il numero totale di osservazioni (nell’esempio 40)
La somma delle freq. ass. è sempre uguale al numero totale di osservazioni
Frequenza relativa = frequenza assoluta / numero totale di osservazioni
È un numero sempre uguale o prossimo (dovuto ad arrotondamenti) ad 1.
Frequenza percentuale = frequenza relativa * 100
La somma di tutte le freq. percentuali dà come risultato 100 (o numero prossimo)
• VARIABILI NUMERICHE CONTINUE → possono assumere infiniti valori all’interno di un intervallo
R (range) = differenza tra valore maggiore e valore minore
Rilevando le altezze di 40 studenti si ottengono i seguenti dati (espressi in cm)
La variabile osservata è continua ed i valori dei dati sono compresi tra 155 e 190 cm
R (range) = 190 – 155 = 35
Variabili numeriche continue → il modo di scegliere le classi non è unico perché ho infiniti intervalli.
Le classi:
- non devono sovrapporsi
- devono contenere tutti i valori
- generalmente hanno la stessa ampiezza (caratteristica non obbligatoria)
- bisogna specificare se la classe è chiusa a destra e/o sinistra, ovvero se i dati coincidenti con gli estremi
devono essere raggruppati nella stessa classe o nella classe adiacente
N →
UMERO DI CLASSI PER DETERMINARE IL NUMERO DELLE CLASSI DA UTILIZZARE CI SONO DIVERSE METODOLOGIE
√
k =
- : (numero di classi k = radice quadrata del numero di osservazioni)
REGOLA PRATICA
k ≈ 1 + 3,322 * log n
- :
ALTRA REGOLA
A : Ampiezza = R / k (range / numero delle classi)
MPIEZZA DELLA CLASSE
Classe = definita come un intervallo. Il numero di classi è un numero finito
k = = 7 approssimazione all’intero superiore
√40
Ampiezza = 35 / 7 = 5 Si è deciso di tenere l’estremo
inferiore appartenente alla
classe.
Mai mettere gli uguali in
entrambi gli estremi ma solo in
uno
L’utilizzo di classi formate da intervalli fa perdere delle informazioni che provengono dai dati iniziali.
Non sappiamo infatti l’esatta altezza degli studenti ma solo se essi ricadono all’interno di un intervallo o di
un altro. Tale perdita di informazione non vi è per le variabili numeriche discrete poiché non ho intervalli
ma valori assoluti
• VARIABILI NON NUMERICHE → rappresentano il grado di piacere, di divertimento…... qualcosa di non
rappresentabile con un numero
Livello di gradimento di un film (ho una tabella differente)
La variabile è “divertimento”
In questo caso i dati sono già raggruppati in classi
Tabella molto simile a quelle delle
variabili discrete solo che non ho
numeri ma giudizi
TABELLA DI DISTRIBUZIONE CUMULATIVA DI FREQUENZA
Ci sono altri modi di raggruppare i dati ad esempio dati “minori di”, “maggiori di” ottenendo in questo
modo le distribuzioni cumulative Esempio 1
Freq. ass. cumulativa relativa alla classe
19 tiene in considerazione anche le freq
assolute delle classi precedenti
- Ultimo valore di freq ass cumulativa =
numero totale di osservazioni
- Ultima freq relativa cumulativa = 1
- Ultima freq percent. cumulativa = 100
Frequenza cumulativa = la frequenza totale di tutti i valori minori del limite superiore di una classe.
Si considerano anche i valori appartenenti alla classi precedenti
GRAFICI → SONO UTILI PER RAPPRESENTARE IN MODO VELOCE E INTUITIVO INFORMAZIONI RICAVATE DAI DATI (OSSERVAZIONI)
• DIAGRAMMI A BARRE
Indicati per variabili non numeriche e per variabili discrete
Asse y: nome delle classi
Asse x: frequenza assoluta per ogni classe
I rettangoli non sono adiacenti e comunque equidistante tra loro
• ISTOGRAMMI (sono dei diagrammi a barre ruotati – inverto assi)
Utilizzati per rappresentare generalmente le frequenze relative
Asse y: frequenza relativa o frequenza assoluta
Asse x: nome carattere /classi
I rettangoli non sono adiacenti e comunque equidistante tra loro
• DIAGRAMMI A TORTA
Utilizzati per rappresentare generalmente le frequenze percentuali e per le
variabili non numeriche
Numero delle fette = numero delle classi
Ampiezza di ciascuna fetta = valore della freq. percentuale della classe
f : 100 = g : 360° → 2 2
RAPPORTO STATISTICO È UNA DIVISIONE TRA QUANTITÀ CHE CI PERMETTE CONFRONTARE EVENTI ED OTTENERE QUINDI
.
UN LEGAME LOGICO TRA DI ESSI
Un esempio sono le frequenze relative ottenute dal rapporto tra la singola frequenza assoluta di una classe
e la somma di tutte le osservazioni
NUMERI INDICE = , , ’
SONO VALORI ESPRESSI DA UN RAPPORTO CHE PERMETTONO DI VERIFICARE L ANDAMENTO DI VARIABILI
.
ECONOMICHE NEL TEMPO O NELLO SPAZIO
È UN RAPPORTO CHE PERMETTE DI CONFRONTARE UN FENOMENO IN CONDIZIONI SIA TEMPORALI CHE SPAZIALI DIFFERENTI
(temporali significa in 2 tempi diversi / spaziali invece in 2 zone diverse)
vendita di un bene a maggio e luglio / in Italia ed in Francia
Numeri indice possono essere classificati in:
N : ottenuti dal rapporto di 2 dati appartenenti della stessa serie
• UMERI INDICE SEMPLICE : il periodo di riferimento rimane sempre lo stesso
INDICI A BASE FISSA : il periodo di riferimento è quello precedente
INDICI A BASE MOBILE
N : utilizzati per studiare l’andamento di un’intera classe e non di soli 2 dati.
• UMERI INDICE COMPLESSI
Utilizzati in economia per rilevazioni sui prezzi.
Numeri indice dei prezzi più noti:
- indice di Laspeyres
- indice di Paasche
- indice di Fisher
INDICE DI LASPEYRES → < 1
SE IL RISULTATO È I PREZZI SONO DIMINUITI RISPETTO AL PRIMO PERIODO 2
RAPPORTO TRA LE MEDIE DEI PREZZI DI M BENI DIVERSI CALCOLATI IN PERIODI
( 0, ),
DIFFERENTI PERIODO PERIODO N PONDERATI CON LE QUANTITÀ DEI BENI NEL
0
PERIODO INIZIALE n ( )
RAPPORTO TRA IL PRODOTTO DEL PREZZO DEL BENE NEL PERIODO MOLTIPLICATO PONDERATO PER LA QUANTITÀ DELLO
0 .
STESSO BENE VENDUTO NEL PERIODO INIZIALE DIVIDO PER LA SOMMATORIA DEL PRODOTTO TRA IL PREZZO DEL BENE NEL
0 0
PERIODO PER LA QUANTITÀ DEL BENE VENDUTO NEL PERIODO .
QUESTO INDICE NON VARIA TEMPORALMENTE MA SOLO SPAZIALMENTE
IN TALE INDICE IL PANIERE DI RIFERIMENTO NON VARIA NEL TEMPO
INDICE DI PAASCHE → < 1 .
SE IL RISULTATO È I PREZZI SONO DIMINUITI RISPETTO AL PRIMO PERIODO
L .
NUMERO SIMILE MA DIVERSO DA QUELLO DI ASPEYRES LA PONDERAZIONE È FATTA CON LE QUANTITÀ DEI BENI NEL PERIODO
,
FINALE QUINDI È UN INDICE PIÙ AGGIORNATO 2
RAPPORTO TRA LE MEDIE DEI PREZZI DI M BENI DIVERSI CALCOLATI IN PERIODI
(0, ), .
DIFFERENTI N PONDERATI CON LE QUANTITÀ DEI BENI NEL PERIODO N
In questo caso il periodo di riferimento varia perché la ponderazione è
fatta con la quantità venduta nel periodo n e non nel periodo iniziale 0
(Laspeyres)
’ P
È PREFERIBILE UTILIZZARE L INDICE DI AASCHE PERCHÉ RISULTA ESSERE PIÙ AGGIORNATO IN QUANTO IL PERIODO DI
.
RIFERIMENTO VARIA COSTANTEMENTE NEL TEMPO LA PONDERAZIONE VIENE INFATTI ESEGUITA CON LA QUANTITÀ DEL BENE
n ’ L .
VENDUTA NEL PERIODO E NON NEL PERIODO INIZIALE COME INVECE AVVIENE NELL INDICE DI ASPEYRES
C ’ P
IÒ RENDE L INDICE DI AASCHE AGGIORNATO E PER QUESTO È PREFERIBILE DA UTILIZZARE
INDICE DI FISHER ’ L ’ P
CORRISPONDE ALLA MEDIA GEOMETRICA DELL INDICE DI ASPEYRES E DELL INDICE DI AASCHE ED È STATO INTRODOTTO PER
2 :
SUPERARE I LIMITI PRESENTI IN QUESTI ULTIMI INDICI
- l’indice di Laspeyres sovrastima qualsiasi incremento dei prezzi all’interno del paniere
- l’indice di Paasche sottostima qualsiasi incremento dei prezzi all’interno del paniere
E : 3
SERCIZIO CONSIDERIAMO IL PREZZO DI CELLULARI E LE RISPETTIVE QUANTITÀ VENDUTE NEL MESE DI MAGGIO E DI GIUGNO
INDICE LASPEYRES
• a numeratore e denominatore si usano solo le quantità vendute nel periodo 0 (maggio)
m = 3
periodo 0 = maggio (viene prima)
periodo n = giungo
i due periodi di riferimento sono maggio e giugno
i prezzi e le quantità sono riportate nella tabella
< 1
ESSENDO IL RISULTATO VUOL DIRE CHE I PREZZI DA MAGGIO A GIUGNO SONO DIMINUITI
INDICE PAASCHE
•
La ponderazione è fatta sul periodo n quindi l’indice è aggiornato all’ultimo periodo
L’indice di Paasche sottostima.
Valore < dell’indice di Laspeyres
Anche questo indice ci dà lo stesso andamento ma sottostima. Utilizzo quindi l’indice di Fischer che esegue
la media geometrica di questi 2
INDICI DI POSIZIONE
G LI INDICI DI POSIZIONE SONO DEI VALORI CHE RAPPRESENTANO IN MODO SINTETICO ALCUNE CARATTERISTICHE APPARTENENTI
. C
AD UNA DISTRIBUZIONE DI DATI ON UN VALORE PERMETTONO INFATTI DI RENDERE CHIARO CIÒ CHE INVECE NON LO SAREBBE
SE VEDESSIMO LA DISTRIBUZIONE COMPLETA DEI VALORI OTTENUTI
Valore medio = è un valore che rappresenta il cuore della distribuzione (rappresenta una tendenza centrale).
Media: definibile come il valore compreso tra il dato minimo ed il dato massimo (definizione di Cauchy)
2 :
CATEGORIE DI INDICI
- → vengono calcolate tenendo in considerazione tutti i valori presenti all’interno della
LE MEDIE ANALITICHE
distribuzione di dati: media aritmetica, media geometrica, media armonica, media quadratica, a queste si
aggiunge il termine ponderata quando si attribuisce diversa importanza tra i dati della distribuzione
(quando abbiamo una distribuzione di frequenza)
- → sono quelle che vengono calcolate tenendo in considerazione solo alcuni valori
LE MEDIE LASCHE
dell’intera distribuzione di dati: mediana, moda (o valore normale), quartile
MEDIA ARITMETICA Si ottiene effettuando un rapporto tra la somma dei singoli valori della
distribuzione fratto il numero totale degli stessi valori. I valori rilevati non
sono riportati con le frequenza (media aritmetica semplice)
Media aritmetica ponderata è utilizzata quando i valori
hanno frequenza differente (quando hanno un peso
diverso). N = indica la somma delle singole frequenze
Ad esempio nel calcolare la media dei voti all’università si
considerano i valori dei CFU come frequenze
MEDIA GEOMETRICA
Si può calcolare se i valori sono tutti positivi e non nulli
È la radice ennesima, dove n indica il numero totale dei dati,
del prodotto dei singoli valori della distribuzione
Media geometrica ponderata = tiene in considerazione il peso
determinato dalla frequenza
N = somma delle frequenze dei singoli valori
(x1 elevato alla propria frequenza) .
LA MEDIA GEOMETRICA VIENE UTILIZZATA QUANDO SI VUOLE ANALIZZARE IL VARIARE DI UN FENOMENO NEL TEMPO
, ,
PER ESEMPIO IL TASSO MEDIO DI CRESCITA DI UNA POPOLAZIONE LA VARIAZIONE MEDIA MENSILE DEI PREZZI DI UN PRODOTTO
IL TASSO DI VARIAZIONE DEI PREZZI O I TASSI DI RENDIMENTO DI CAPITALI
Esempio: un capitale è stato impiegato per 4 anni al tasso del 2%, per altri 3 anni al tasso del 3% ed in fine per 2
anni al tasso del 5%.
Per calcolare il tasso medio si utilizza la media geometrica ponderata
Gli anni rappresentano la frequenza.
Radice nona perché sommo le frequenza (in questo caso gli anni)
MEDIA QUADRATICA
Utilizzata quando non si vuole ottenere un valore negativo, non importa il segno del valore.
La media quadratica è quella con valore maggiore e viene utilizzata per mettere in evidenza i valori che si
scostano molto dai valori centrali
È la radice quadrata della somma dei quadrati dei singoli dati della
distribuzione divisi per il loro numero totale (n)
Media quadratica ponderata = si ottiene moltiplicando ciascun dato
per la propria frequenza ricordandosi di mettere al denominatore la
somma delle frequenze (N). Il tutto sotto radice quadrata
MEDIA ARMONICA
È l’inverso della media aritmetica – e si utilizza quando ha senso parlare del reciproco di una grandezza
Media armonica semplice = al numeratore abbiamo n e al denominatore
abbiamo la somma del reciproco dei singoli valori della distribuzione.
Media armonica ponderata tiene in considerazione le frequenze.
La media armonica è un indice di posizione utilizzato quando si è interessati non alla sintesi di una
distribuzione ma all’analisi di un evento che è il reciproco di quello osservato
Esempio: per calcolare il potere di acquisto medio di una moneta in diversi Paesi in cui invece il fenomeno
osservato è il costo di un bene nei vari Paesi (potere di acquisto = 1/prezzo del bene)
Supponiamo che uno stesso prodotto sia venduto a prezzo differente in 4 città.
A Milano costa 0,85 – a Torino 0,90 – a Roma 0,75 – a Bari 0,70
Potere d’acquisto medio =
M →
EDIE LASCHE NON UTILIZZANO PIÙ TUTTI I VALORI DELLA DISTRIBUZIONE MA SOLO ALCUNI DATI
MEDIANA
E’ il valore centrale della distribuzione ordinata se il numero dei valori è dispari.
È la media aritmetica dei 2 valori centrali della distribuzione ordinata se il numero dei dati è pari
Esempio:
Calcola la mediana della seguente distribuzione: 14-6-8-2-9-3-10
2-3-6-8-9-10-14 ordino la distribuzione
Mediana = 8 poiché il numero dei valori della distribuzione è dispari. Prendo quindi quello centrale
Calcola la mediana della seguente distribuzione: 14-6-8-2-9-3-10-1
1-2-3-6-8-9-10-14 ordino la distribuzione
Mediana = media aritmetica tra 6 e 8 = 6+8/2 = 7 La distribuzione presenta un numero di valori pari.
Eseguo quindi la media aritmetica dei due dati centrali
Mediana su distribuzione di frequenza → è necessario calcolare le frequenze cumulate
N = è alla somma delle frequenze
Mediana = N/2 → se N è pari
Mediana = (N+1)/2 → se N è dispari
Esempio: indagine sul numero di figli su un campione di famiglie.
Mi devo poi calcolare la frequenza cumulativa per ogni classe
N = 25 (è la somma di tutte le frequenze)
N → è DISPARI quindi:
Mediana = (N+1)/2 = (25+1)/2 = 26/2 = 13 → cioè 2
Mediana = 2
Il valore della mediana non è 13, ma 2 → cioè il valore della classe
alla quale corrisponde la frequenza maggiore di quella trovata (13)
Esempio: Ricerca sulle cilindrate delle auto possedute da un gruppo di persone. Calcolare la mediana
Innanzi tutto si calcolano le frequenze cumulative
N → è PARI quindi:
Mediana = N/2 = 2500 /2 = 1250 → la classe mediana di
riferimento sarà quella corrispondente alla riga della frequenza
cumulativa maggiore del valore trovato (1250)
Classe mediana = 1200 – 1600 corrisponde alla freq cum 1895
Per ottenere un valore preciso della mediana si deve eseguire una
proporzione:
1200 940
x 1250 (la x è il valore preciso della mediana che è compreso
1600 1895 tra 1200 e 1600)
(x - 1200) : (1600-1200) = (1250 – 940) : (1895-940)
x = 1212,95
MODA
P UÒ ESSERE DEFINITA COME UN INDICE DI POSIZIONE CHE INDIVIDUA IL VALORE DI UNA DISTRIBUZIONE AL QUALE CORRISPONDE
.
LA MASSIMA FREQUENZA
La moda corrisponde al valore che ha più probabilità di presentarsi.
la moda appartiene alle medie lasche perché non tiene in considerazione tutti i valori.
Distribuzioni plurimodali → sono distribuzioni che presentano più valori di mod. hanno valori che
presentano entrambi la frequenza massima
Esempio: la moda è 5 poiché corrisponde al valore più alto di frequenza
Se i valori sono raggruppati in classi si determina la Classe
modale:
- se l’ampiezza delle classi è costante si dir&a
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.