Estratto del documento

S = è la branca della statistica che studia i criteri di rilevazione, classificazione, sintesi e

TATISTICA DESCRITTIVA [1]

rappresentazione dei dati appresi dallo studio di una popolazione o di una parte di essa (detta campione ). I risultati

ottenuti nell'ambito della statistica descrittiva si possono definire certi, a meno di errori di misurazione dovuti al caso,

che sono in media pari a zero. Da questo punto di vista si differenzia dalla statistica inferenziale, alla quale sono

associati inoltre errori di valutazione.

= è il procedimento per cui si inducono le caratteristiche di una popolazione dall'osservazione di

STATISTICA INFERENZIALE

una parte di essa (detta "campione"), selezionata solitamente mediante un esperimento casuale.

VARIABILI (DATI)

QUANTITATIVE QUALITATTIVE

numeriche non numeriche tutte le altre

peso altezza, al cui risposta è un numero vanno a descrive una nostra percezione:

divertimento nel vedere un film

dolore nel avere la febbre

var. num. DISCRETA var. num. CONTINUA

se l’insieme dei valori che può se l’insieme dei valori che può assumere è l’insieme dei numeri

assumere è finito o numerabile reali* o un intervallo di numeri reali

(es: quanti figli ha una famiglia? 1;2;3 figli) (es: altezza di una persona: 1,76mt ; 1,77mt; 1,80mt)

Numeri reali* = numeri positivi o negativi con parte decimale finita o infinita .

IN BASE ALLA VARIABILE CHE ABBIAMO BISOGNA ESEGUIRE UNA CLASSIFICAZIONE DIFFERENTE

PER DECIDERE SE UNA VARIABILE È DISCRETA O CONTINUA SI DEVE RAGIONARE SU QUALI VALORI LA VARIABILE PUÒ

(è infatti evidente che i valori riportati sono sempre un

ASSUMERE E NON SUI VALORI EFFETTIVAMENTE ASSUNTI

numero di variabili finito)

I dati ottenuti da rilevazioni statistiche, per essere studiati, devono essere divisi in classi e determinare poi

la frequenza assoluta = numero di osservazioni che appartengono a ciascuna classe

• VARIABILI DISCRETE

Rilevando il voto di 40 staudenti all’esame di statistica si ottengono i seguenti dati:

La variabile x osservata è una variabile discreta che può assumere solo valori interi.

Sceglieremo come classe i numeri k = 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30

Classe =

Frequenza assoluta ( ) = numero di osservazioni che cadono in ciascuna classe.

frequenza di classe

È un numero compreso tra 0 ed il numero totale di osservazioni (nell’esempio 40)

La somma delle freq. ass. è sempre uguale al numero totale di osservazioni

Frequenza relativa = frequenza assoluta / numero totale di osservazioni

È un numero sempre uguale o prossimo (dovuto ad arrotondamenti) ad 1.

Frequenza percentuale = frequenza relativa * 100

La somma di tutte le freq. percentuali dà come risultato 100 (o numero prossimo)

• VARIABILI NUMERICHE CONTINUE → possono assumere infiniti valori all’interno di un intervallo

R (range) = differenza tra valore maggiore e valore minore

Rilevando le altezze di 40 studenti si ottengono i seguenti dati (espressi in cm)

La variabile osservata è continua ed i valori dei dati sono compresi tra 155 e 190 cm

R (range) = 190 – 155 = 35

Variabili numeriche continue → il modo di scegliere le classi non è unico perché ho infiniti intervalli.

Le classi:

- non devono sovrapporsi

- devono contenere tutti i valori

- generalmente hanno la stessa ampiezza (caratteristica non obbligatoria)

- bisogna specificare se la classe è chiusa a destra e/o sinistra, ovvero se i dati coincidenti con gli estremi

devono essere raggruppati nella stessa classe o nella classe adiacente

N →

UMERO DI CLASSI PER DETERMINARE IL NUMERO DELLE CLASSI DA UTILIZZARE CI SONO DIVERSE METODOLOGIE

k =

- : (numero di classi k = radice quadrata del numero di osservazioni)

REGOLA PRATICA

k ≈ 1 + 3,322 * log n

- :

ALTRA REGOLA

A : Ampiezza = R / k (range / numero delle classi)

MPIEZZA DELLA CLASSE

Classe = definita come un intervallo. Il numero di classi è un numero finito

k = = 7 approssimazione all’intero superiore

√40

Ampiezza = 35 / 7 = 5 Si è deciso di tenere l’estremo

inferiore appartenente alla

classe.

Mai mettere gli uguali in

entrambi gli estremi ma solo in

uno

L’utilizzo di classi formate da intervalli fa perdere delle informazioni che provengono dai dati iniziali.

Non sappiamo infatti l’esatta altezza degli studenti ma solo se essi ricadono all’interno di un intervallo o di

un altro. Tale perdita di informazione non vi è per le variabili numeriche discrete poiché non ho intervalli

ma valori assoluti

• VARIABILI NON NUMERICHE → rappresentano il grado di piacere, di divertimento…... qualcosa di non

rappresentabile con un numero

Livello di gradimento di un film (ho una tabella differente)

La variabile è “divertimento”

In questo caso i dati sono già raggruppati in classi

Tabella molto simile a quelle delle

variabili discrete solo che non ho

numeri ma giudizi

TABELLA DI DISTRIBUZIONE CUMULATIVA DI FREQUENZA

Ci sono altri modi di raggruppare i dati ad esempio dati “minori di”, “maggiori di” ottenendo in questo

modo le distribuzioni cumulative Esempio 1

Freq. ass. cumulativa relativa alla classe

19 tiene in considerazione anche le freq

assolute delle classi precedenti

- Ultimo valore di freq ass cumulativa =

numero totale di osservazioni

- Ultima freq relativa cumulativa = 1

- Ultima freq percent. cumulativa = 100

Frequenza cumulativa = la frequenza totale di tutti i valori minori del limite superiore di una classe.

Si considerano anche i valori appartenenti alla classi precedenti

GRAFICI → SONO UTILI PER RAPPRESENTARE IN MODO VELOCE E INTUITIVO INFORMAZIONI RICAVATE DAI DATI (OSSERVAZIONI)

• DIAGRAMMI A BARRE

Indicati per variabili non numeriche e per variabili discrete

Asse y: nome delle classi

Asse x: frequenza assoluta per ogni classe

I rettangoli non sono adiacenti e comunque equidistante tra loro

• ISTOGRAMMI (sono dei diagrammi a barre ruotati – inverto assi)

Utilizzati per rappresentare generalmente le frequenze relative

Asse y: frequenza relativa o frequenza assoluta

Asse x: nome carattere /classi

I rettangoli non sono adiacenti e comunque equidistante tra loro

• DIAGRAMMI A TORTA

Utilizzati per rappresentare generalmente le frequenze percentuali e per le

variabili non numeriche

Numero delle fette = numero delle classi

Ampiezza di ciascuna fetta = valore della freq. percentuale della classe

f : 100 = g : 360° → 2 2

RAPPORTO STATISTICO È UNA DIVISIONE TRA QUANTITÀ CHE CI PERMETTE CONFRONTARE EVENTI ED OTTENERE QUINDI

.

UN LEGAME LOGICO TRA DI ESSI

Un esempio sono le frequenze relative ottenute dal rapporto tra la singola frequenza assoluta di una classe

e la somma di tutte le osservazioni

NUMERI INDICE = , , ’

SONO VALORI ESPRESSI DA UN RAPPORTO CHE PERMETTONO DI VERIFICARE L ANDAMENTO DI VARIABILI

.

ECONOMICHE NEL TEMPO O NELLO SPAZIO

È UN RAPPORTO CHE PERMETTE DI CONFRONTARE UN FENOMENO IN CONDIZIONI SIA TEMPORALI CHE SPAZIALI DIFFERENTI

(temporali significa in 2 tempi diversi / spaziali invece in 2 zone diverse)

vendita di un bene a maggio e luglio / in Italia ed in Francia

Numeri indice possono essere classificati in:

N : ottenuti dal rapporto di 2 dati appartenenti della stessa serie

• UMERI INDICE SEMPLICE : il periodo di riferimento rimane sempre lo stesso

INDICI A BASE FISSA : il periodo di riferimento è quello precedente

INDICI A BASE MOBILE

N : utilizzati per studiare l’andamento di un’intera classe e non di soli 2 dati.

• UMERI INDICE COMPLESSI

Utilizzati in economia per rilevazioni sui prezzi.

Numeri indice dei prezzi più noti:

- indice di Laspeyres

- indice di Paasche

- indice di Fisher

INDICE DI LASPEYRES → < 1

SE IL RISULTATO È I PREZZI SONO DIMINUITI RISPETTO AL PRIMO PERIODO 2

RAPPORTO TRA LE MEDIE DEI PREZZI DI M BENI DIVERSI CALCOLATI IN PERIODI

( 0, ),

DIFFERENTI PERIODO PERIODO N PONDERATI CON LE QUANTITÀ DEI BENI NEL

0

PERIODO INIZIALE n ( )

RAPPORTO TRA IL PRODOTTO DEL PREZZO DEL BENE NEL PERIODO MOLTIPLICATO PONDERATO PER LA QUANTITÀ DELLO

0 .

STESSO BENE VENDUTO NEL PERIODO INIZIALE DIVIDO PER LA SOMMATORIA DEL PRODOTTO TRA IL PREZZO DEL BENE NEL

0 0

PERIODO PER LA QUANTITÀ DEL BENE VENDUTO NEL PERIODO .

QUESTO INDICE NON VARIA TEMPORALMENTE MA SOLO SPAZIALMENTE

IN TALE INDICE IL PANIERE DI RIFERIMENTO NON VARIA NEL TEMPO

INDICE DI PAASCHE → < 1 .

SE IL RISULTATO È I PREZZI SONO DIMINUITI RISPETTO AL PRIMO PERIODO

L .

NUMERO SIMILE MA DIVERSO DA QUELLO DI ASPEYRES LA PONDERAZIONE È FATTA CON LE QUANTITÀ DEI BENI NEL PERIODO

,

FINALE QUINDI È UN INDICE PIÙ AGGIORNATO 2

RAPPORTO TRA LE MEDIE DEI PREZZI DI M BENI DIVERSI CALCOLATI IN PERIODI

(0, ), .

DIFFERENTI N PONDERATI CON LE QUANTITÀ DEI BENI NEL PERIODO N

In questo caso il periodo di riferimento varia perché la ponderazione è

fatta con la quantità venduta nel periodo n e non nel periodo iniziale 0

(Laspeyres)

’ P

È PREFERIBILE UTILIZZARE L INDICE DI AASCHE PERCHÉ RISULTA ESSERE PIÙ AGGIORNATO IN QUANTO IL PERIODO DI

.

RIFERIMENTO VARIA COSTANTEMENTE NEL TEMPO LA PONDERAZIONE VIENE INFATTI ESEGUITA CON LA QUANTITÀ DEL BENE

n ’ L .

VENDUTA NEL PERIODO E NON NEL PERIODO INIZIALE COME INVECE AVVIENE NELL INDICE DI ASPEYRES

C ’ P

IÒ RENDE L INDICE DI AASCHE AGGIORNATO E PER QUESTO È PREFERIBILE DA UTILIZZARE

INDICE DI FISHER ’ L ’ P

CORRISPONDE ALLA MEDIA GEOMETRICA DELL INDICE DI ASPEYRES E DELL INDICE DI AASCHE ED È STATO INTRODOTTO PER

2 :

SUPERARE I LIMITI PRESENTI IN QUESTI ULTIMI INDICI

- l’indice di Laspeyres sovrastima qualsiasi incremento dei prezzi all’interno del paniere

- l’indice di Paasche sottostima qualsiasi incremento dei prezzi all’interno del paniere

E : 3

SERCIZIO CONSIDERIAMO IL PREZZO DI CELLULARI E LE RISPETTIVE QUANTITÀ VENDUTE NEL MESE DI MAGGIO E DI GIUGNO

INDICE LASPEYRES

• a numeratore e denominatore si usano solo le quantità vendute nel periodo 0 (maggio)

m = 3

periodo 0 = maggio (viene prima)

periodo n = giungo

i due periodi di riferimento sono maggio e giugno

i prezzi e le quantità sono riportate nella tabella

< 1

ESSENDO IL RISULTATO VUOL DIRE CHE I PREZZI DA MAGGIO A GIUGNO SONO DIMINUITI

INDICE PAASCHE

La ponderazione è fatta sul periodo n quindi l’indice è aggiornato all’ultimo periodo

L’indice di Paasche sottostima.

Valore < dell’indice di Laspeyres

Anche questo indice ci dà lo stesso andamento ma sottostima. Utilizzo quindi l’indice di Fischer che esegue

la media geometrica di questi 2

INDICI DI POSIZIONE

G LI INDICI DI POSIZIONE SONO DEI VALORI CHE RAPPRESENTANO IN MODO SINTETICO ALCUNE CARATTERISTICHE APPARTENENTI

. C

AD UNA DISTRIBUZIONE DI DATI ON UN VALORE PERMETTONO INFATTI DI RENDERE CHIARO CIÒ CHE INVECE NON LO SAREBBE

SE VEDESSIMO LA DISTRIBUZIONE COMPLETA DEI VALORI OTTENUTI

Valore medio = è un valore che rappresenta il cuore della distribuzione (rappresenta una tendenza centrale).

Media: definibile come il valore compreso tra il dato minimo ed il dato massimo (definizione di Cauchy)

2 :

CATEGORIE DI INDICI

- → vengono calcolate tenendo in considerazione tutti i valori presenti all’interno della

LE MEDIE ANALITICHE

distribuzione di dati: media aritmetica, media geometrica, media armonica, media quadratica, a queste si

aggiunge il termine ponderata quando si attribuisce diversa importanza tra i dati della distribuzione

(quando abbiamo una distribuzione di frequenza)

- → sono quelle che vengono calcolate tenendo in considerazione solo alcuni valori

LE MEDIE LASCHE

dell’intera distribuzione di dati: mediana, moda (o valore normale), quartile

MEDIA ARITMETICA Si ottiene effettuando un rapporto tra la somma dei singoli valori della

distribuzione fratto il numero totale degli stessi valori. I valori rilevati non

sono riportati con le frequenza (media aritmetica semplice)

Media aritmetica ponderata è utilizzata quando i valori

hanno frequenza differente (quando hanno un peso

diverso). N = indica la somma delle singole frequenze

Ad esempio nel calcolare la media dei voti all’università si

considerano i valori dei CFU come frequenze

MEDIA GEOMETRICA

Si può calcolare se i valori sono tutti positivi e non nulli

È la radice ennesima, dove n indica il numero totale dei dati,

del prodotto dei singoli valori della distribuzione

Media geometrica ponderata = tiene in considerazione il peso

determinato dalla frequenza

N = somma delle frequenze dei singoli valori

(x1 elevato alla propria frequenza) .

LA MEDIA GEOMETRICA VIENE UTILIZZATA QUANDO SI VUOLE ANALIZZARE IL VARIARE DI UN FENOMENO NEL TEMPO

, ,

PER ESEMPIO IL TASSO MEDIO DI CRESCITA DI UNA POPOLAZIONE LA VARIAZIONE MEDIA MENSILE DEI PREZZI DI UN PRODOTTO

IL TASSO DI VARIAZIONE DEI PREZZI O I TASSI DI RENDIMENTO DI CAPITALI

Esempio: un capitale è stato impiegato per 4 anni al tasso del 2%, per altri 3 anni al tasso del 3% ed in fine per 2

anni al tasso del 5%.

Per calcolare il tasso medio si utilizza la media geometrica ponderata

Gli anni rappresentano la frequenza.

Radice nona perché sommo le frequenza (in questo caso gli anni)

MEDIA QUADRATICA

Utilizzata quando non si vuole ottenere un valore negativo, non importa il segno del valore.

La media quadratica è quella con valore maggiore e viene utilizzata per mettere in evidenza i valori che si

scostano molto dai valori centrali

È la radice quadrata della somma dei quadrati dei singoli dati della

distribuzione divisi per il loro numero totale (n)

Media quadratica ponderata = si ottiene moltiplicando ciascun dato

per la propria frequenza ricordandosi di mettere al denominatore la

somma delle frequenze (N). Il tutto sotto radice quadrata

MEDIA ARMONICA

È l’inverso della media aritmetica – e si utilizza quando ha senso parlare del reciproco di una grandezza

Media armonica semplice = al numeratore abbiamo n e al denominatore

abbiamo la somma del reciproco dei singoli valori della distribuzione.

Media armonica ponderata tiene in considerazione le frequenze.

La media armonica è un indice di posizione utilizzato quando si è interessati non alla sintesi di una

distribuzione ma all’analisi di un evento che è il reciproco di quello osservato

Esempio: per calcolare il potere di acquisto medio di una moneta in diversi Paesi in cui invece il fenomeno

osservato è il costo di un bene nei vari Paesi (potere di acquisto = 1/prezzo del bene)

Supponiamo che uno stesso prodotto sia venduto a prezzo differente in 4 città.

A Milano costa 0,85 – a Torino 0,90 – a Roma 0,75 – a Bari 0,70

Potere d’acquisto medio =

M →

EDIE LASCHE NON UTILIZZANO PIÙ TUTTI I VALORI DELLA DISTRIBUZIONE MA SOLO ALCUNI DATI

MEDIANA

E’ il valore centrale della distribuzione ordinata se il numero dei valori è dispari.

È la media aritmetica dei 2 valori centrali della distribuzione ordinata se il numero dei dati è pari

Esempio:

Calcola la mediana della seguente distribuzione: 14-6-8-2-9-3-10

2-3-6-8-9-10-14 ordino la distribuzione

Mediana = 8 poiché il numero dei valori della distribuzione è dispari. Prendo quindi quello centrale

Calcola la mediana della seguente distribuzione: 14-6-8-2-9-3-10-1

1-2-3-6-8-9-10-14 ordino la distribuzione

Mediana = media aritmetica tra 6 e 8 = 6+8/2 = 7 La distribuzione presenta un numero di valori pari.

Eseguo quindi la media aritmetica dei due dati centrali

Mediana su distribuzione di frequenza → è necessario calcolare le frequenze cumulate

N = è alla somma delle frequenze

Mediana = N/2 → se N è pari

Mediana = (N+1)/2 → se N è dispari

Esempio: indagine sul numero di figli su un campione di famiglie.

Mi devo poi calcolare la frequenza cumulativa per ogni classe

N = 25 (è la somma di tutte le frequenze)

N → è DISPARI quindi:

Mediana = (N+1)/2 = (25+1)/2 = 26/2 = 13 → cioè 2

Mediana = 2

Il valore della mediana non è 13, ma 2 → cioè il valore della classe

alla quale corrisponde la frequenza maggiore di quella trovata (13)

Esempio: Ricerca sulle cilindrate delle auto possedute da un gruppo di persone. Calcolare la mediana

Innanzi tutto si calcolano le frequenze cumulative

N → è PARI quindi:

Mediana = N/2 = 2500 /2 = 1250 → la classe mediana di

riferimento sarà quella corrispondente alla riga della frequenza

cumulativa maggiore del valore trovato (1250)

Classe mediana = 1200 – 1600 corrisponde alla freq cum 1895

Per ottenere un valore preciso della mediana si deve eseguire una

proporzione:

1200 940

x 1250 (la x è il valore preciso della mediana che è compreso

1600 1895 tra 1200 e 1600)

(x - 1200) : (1600-1200) = (1250 – 940) : (1895-940)

x = 1212,95

MODA

P UÒ ESSERE DEFINITA COME UN INDICE DI POSIZIONE CHE INDIVIDUA IL VALORE DI UNA DISTRIBUZIONE AL QUALE CORRISPONDE

.

LA MASSIMA FREQUENZA

La moda corrisponde al valore che ha più probabilità di presentarsi.

la moda appartiene alle medie lasche perché non tiene in considerazione tutti i valori.

Distribuzioni plurimodali → sono distribuzioni che presentano più valori di mod. hanno valori che

presentano entrambi la frequenza massima

Esempio: la moda è 5 poiché corrisponde al valore più alto di frequenza

Se i valori sono raggruppati in classi si determina la Classe

modale:

- se l’ampiezza delle classi è costante si dir&a

Anteprima
Vedrai una selezione di 10 pagine su 65
Statistica - Appunti per esame Pag. 1 Statistica - Appunti per esame Pag. 2
Anteprima di 10 pagg. su 65.
Scarica il documento per vederlo tutto.
Statistica - Appunti per esame Pag. 6
Anteprima di 10 pagg. su 65.
Scarica il documento per vederlo tutto.
Statistica - Appunti per esame Pag. 11
Anteprima di 10 pagg. su 65.
Scarica il documento per vederlo tutto.
Statistica - Appunti per esame Pag. 16
Anteprima di 10 pagg. su 65.
Scarica il documento per vederlo tutto.
Statistica - Appunti per esame Pag. 21
Anteprima di 10 pagg. su 65.
Scarica il documento per vederlo tutto.
Statistica - Appunti per esame Pag. 26
Anteprima di 10 pagg. su 65.
Scarica il documento per vederlo tutto.
Statistica - Appunti per esame Pag. 31
Anteprima di 10 pagg. su 65.
Scarica il documento per vederlo tutto.
Statistica - Appunti per esame Pag. 36
Anteprima di 10 pagg. su 65.
Scarica il documento per vederlo tutto.
Statistica - Appunti per esame Pag. 41
1 su 65
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher DottSimone91 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università telematica Niccolò Cusano di Roma o del prof Rossi Luca.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community