Anteprima
Vedrai una selezione di 7 pagine su 30
Analisi e statistica  Pag. 1 Analisi e statistica  Pag. 2
Anteprima di 7 pagg. su 30.
Scarica il documento per vederlo tutto.
Analisi e statistica  Pag. 6
Anteprima di 7 pagg. su 30.
Scarica il documento per vederlo tutto.
Analisi e statistica  Pag. 11
Anteprima di 7 pagg. su 30.
Scarica il documento per vederlo tutto.
Analisi e statistica  Pag. 16
Anteprima di 7 pagg. su 30.
Scarica il documento per vederlo tutto.
Analisi e statistica  Pag. 21
Anteprima di 7 pagg. su 30.
Scarica il documento per vederlo tutto.
Analisi e statistica  Pag. 26
1 su 30
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Simbologia

ui, i=1…n unità di popolazione U

xi, i=1…n modalità corrispondenti

Possiamo individuare n coppie del tipo: {(u1,x1),(u2,x2),…(un,xn)}

Contando le coppie che hanno la stessa modalità, otteniamo una distribuzione di frequenze: {(x1,n1),

(x2,n2),…(xk,nk)}

Nota bene: ora compaiono solo x1,…xk modalità distinte

Modalità di X Frequenza (ni)

x1 n1

x2 n2

… …

xk nk

ni indica la frequenza della modalità xi, ossia il numero di unità aventi quella modalità, i=1,…k

L’insieme {(x1,n1),(x2,n2),…(xk,nk)} definito distribuzione di frequenza del carattere X

è

fi=ni/n,i=1,2,…,k indica la frequenza relativa

pi=fi x 100, i=1,2,…,k indica la frequenza percentuale

Caratteri ordinali

Qualora i dati siano ordinali, le k modalità distinte possono essere ordinate. Indichiamo per le k

modalità distinte:

- x1<x2<…<xk se sono ordinate in senso ascendente

- x1>x2>…>xk se sono ordinate in senso discendente

Modalità in senso ascendente

NB: n1+n2+…+nk=n

Dalle frequenze cumulate posso ottenere le

frequenze: la quantità di informazione non cambia

Tabelle multi-dimensionali

Quando si hanno a disposizione più caratteri per ciascuna unità, la popolazione può essere suddivisa

opportunamente in più gruppi per ottenere informazioni di vario genere.

I gruppi sono molto spesso formati in base alle modalità di due o più caratteri. Es. i due gruppi Maschi –

Femmine sono ulteriormente suddivisi in base ad esempio all’età.

Le tabelle di frequenza sono definite bivariate, trivariate etc. a seconda del numero di caratteri contenuti.

Il calcolo delle frequenze relative per gruppi di unità permette di ottenere nuove informazioni sulle

interazioni tra caratteri, fare confronti etc.

Paradosso di Simpson

Situazione in cui una relazione tra due fenomeni appare modificata, o perfino invertita, se variabili

rilevanti per l’analisi non sono prese in considerazione (variabili nascoste).

Nell’esempio, le F hanno fatto domanda in percentuali più elevate rispetto ai maschi in quei

dipartimenti con tassi di ammissione minori. A livello aggregato quest’aspetto non considerato. La

è

relazione Sesso-Ammissioni non letta correttamente

è

Rappresentazioni grafiche

Esse affiancano la presentazione dei dato in forma tabellare con lo scopo di aiutare l’analisi e il

ragionamento

- diagramma circolare (torta), rappresenta la distribuzione delle frequenze relative

(soprattutto per caratteri di tipo qualitativo e nominale). Nel caso di frequenze relative, la somma

delle aree 1. Il cerchio diviso in parti proporzionali alle classi di frequenza.

è è

- grafici a barre, utilizzati per caratteri di tipo qualitativo (nominali o ordinali), permette di effettuare

confronti tra più caratteri. A ciascuna modalità associata una colonna la cui altezza proporzionale

è è

alla frequenza. Utilizzato poi per separare le modalità con frequenze più alte da quelle meno

rappresentate nei dati.

- diagramma di pareto, costituito da barre verticali disposte in ordine decrescente di frequenza. Esso

diventa utile quando le modalità della variabile di interesse sono molte

- istogramma, utilizzato per dati quantitativi, comunica la distribuzione delle unità statistiche tra le

modalità del carattere. Fissato un sistema di assi cartesiani ortogonali, sull’asse delle x si riportano gli

intervalli consecutivi, costituendo dei rettangoli le cui aree sono proporzionali alle frequenze. Nota

bene: se le classi hanno la stessa ampiezza, o modulo, basterà riportare altezze proporzionali alle

frequenze. Se non hanno la stessa ampiezza, le altezze delle colonne si determinano con:

Altezza=frequenza/ampiezza classe - l’altezza, in questo caso, prende il nome di frequenza specifica

L’area=frequenza=b(classi) h — area proporzionale alle frequenze

è

Bisogna costruirlo con classi con la stessa ampiezza

La forma della distribuzione

- simmetria, che può essere di diversi tipi: forma a U e campanulare

- asimmetrie, le quali rappresentano la maggior parte delle distribuzioni. Possiamo trovare asimmetrie

positive o asimmetrie negative Il diagramma lineare

usato per dati quantitativi che hanno anche un ordinamento di

È

tipo temporale e mette in evidenza l’evoluzione di un fenomeno

quantitativo. In un sistema di assi cartesiani si riporta le modalità

del carattere sull’asse y e il suo istante temporale sull’asse x.

Il diagramma a dispersione

usato per rappresentare coppie di caratteri quantitativi ed

È è

utile per rimettere in evidenza possibili relazioni esistenti tra

caratteri. Su un sistema cartesiano si riportano coppie di

modalità (una modalità per asse).

Piramide delle età

una rappresentazione grafica usata nella statistica demografica per descrivere la distribuzione per

È

età di una popolazione. Solitamente sono due istogrammi rappresentanti le età disposti

simmetricamente attorno all’asse verticale. Dalla forma della piramide si può dedurre la storia

demografica di una popolazione e l’andamento demografico:

- forma piramidale, popolazione in crescita

- piramide tendente a un rettangolo, crescita nulla

- piramide tendente a un trapezio, decremento

Errori nella presentazione dei dati

- Diversa ampiezza delle classi di intervallo in un istogramma e uso delle frequenze per

l’altezza delle barre

- Compressione o distorsione dell’asse verticale

- Omissione dello zero sull’asse verticale

-Non fornire una base di riferimento per il confronto di dati di diversi gruppi

Le misure di tendenza centrale

Medie di posizione: Moda e Mediana

Medie algebriche: media (aritmetica)

La Moda (Mo(X)) del carattere X la modalità che si presenta con la frequenza assoluta (o relativa)

è

maggiore. La Moda, nell’istogramma, solitamente associata al picco (punto più elevato)

è

La mediana

Dato un insieme x1,x2,..,xn in cui elementi sono ordinabili in senso crescente o decrescente, si definisce

mediana (Me(X)) la modalità che equipartisce l’insieme dei dati

La mediana la modalità che occupa la posizione centrale, la quale data da 0,5 (n+1)

è è

Nel caso in cui n pari esistono due posizioni centrali

è

- se X ordinale la mediana ben definita solo se le due posizioni adiacenti 0,5(n+1) risultano occupate

è è

dalla medesima

- se X quantitativa la mediana definita come la semisomma dei due valori centrali

è è

Quartili e percentili

La mediana una grandezza che appartiene ad un insieme di misure di posizione, i percentili.

è

I p-esimo percentile il valore della distribuzione al di sotto del quale ricade il p% delle osservazioni e

è

al di sopra del quale ricade il (100-p)% delle unità.

Nota bene: la mediana corrisponde dunque con il percentile 0,5 ovvero il 50%

I quartili vengono definiti attraverso il 25-esimo e il 75-esimo percentile. Dividono la distribuzione in

quattro parti, ciascuna delle quali contiene 1/4 delle osservazioni.

Percentili del QI (grafico): le percentuali possono essere calcolare anche attraverso le

frequenze cumulate

Calcolare il quartile

Il primo quartile (Q1) il valore che si trova nella posizione 0.25(n+1) , quindi Q1=x0.25(n+1)

è

(Analogamente il secondo sarà Q2=x0.50(n+1),..)

Nota bene: n il numero di valore osservati. Se la posizione non un numero intero, il quartile

è è

corrispondente dato dalla semisomma dei valori adiacenti

è

La differenza interquartile (ad esempio primo e terzo) viene definita scarto interquartile e viene

indicata IQR (Inter Quartile Range). Una rappresentazione grafica basata su 5 numeri EDA per mettere

in evidenza le caratteristiche principali di una distribuzione il Box Plot. Il box delimitato dal primo e

è

terzo quartile contiene il 50% centrale della distribuzione. Le linee sono chiamate whiskers (baffi, che

ci dicono l’estensione totale della distribuzione) e vanno fino al massimo e al minimo, a meno che

nella distribuzione siano presenti outlier.

Nota bene: mediana rappresentata da una linea che attraversa il box

Outlier

Se sono presenti osservazioni anomale, i limiti del box plot sono definita da

Q1-1.5 (IQR), limite inferiore

Q3+1.5 (IQR), limite superiore

I valori al di fuori del limite sono identificati con asterischi e classificati come outlier.

Outlier: valore anomalo che può essere dovuto da

- errori di misurazione o di codifica, i quali vengono poi corretti o eliminati

- particolarità del fenomeno in esame, per cui il dato richiede analisi statistica sofisticata

La media (aritmetica)

La media suddivide un totale equamente tra n unità. Dunque, dato un insieme di n modalità x1,x2,..,xn

si definisce media M(X) la quantità. Ricorda: distribuisce equamente

Distribuzione di frequenze

(x1+…+x1+x2+…+x2+xk+…+xk)=(x1 n1+x2 n2+…+xk nk)=

Simbologia

In un contesto in cui si considera una popolazione di N unità ed un campione di n unità, si usano

simbologie specifiche per la media

Proprietà

- la somma degli scarti di un insieme di valori dalla loro media aritmetica nulla

è

(X1-M(x))+(X2-M(x))+…+(Xn-M(x))=X1+X2+…+Xn-nM(x)=0

- proprietà dei minimi quadrati, per ogni costante A

Nota bene: la mediana porta con sé le informazioni sulle frequenze

- proprietà di linearità. Se Y=a+b X, con a e b delle costanti, allora M(Y)=a+b M(X)

Nell’esempio potrebbe essere interessante scomporre

l’andamento della quotazione xt, t=1, ... n in: xt = trendt +

disturbot

dove la componente di trend indica i fondamentali del

titolo mentre il disturbo indica fattori quali speculazione,

voci incontrollate etc.

Poiché gli errori positivi e negativi tendono ad annullarsi,

usiamo delle medie aritmetiche su sottoperiodi per

rappresentare il trendt

Le medie mobili

Dato un insieme di n modalità definiamo media mobile di ordine s (s intero)

x1,x2,…,xn

Nota bene: usiamo il termine Mt(s) per rappresentare il trend al momento t

La media geometrica

Dato un insieme di n numeri positivi, x1,x2,…,xn si definisce media geometrica G(X) la quantità

Distribuzione di frequenza

Consideriamo ora il caso in cui siano state misurate n unità statistiche ottenendo k modalità distinte.

Il campo di variazione

La misura più semplice della variabilità per dati quantitativi data dal campo di variazione,

è

Dettagli
Publisher
A.A. 2024-2025
30 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher luolo di informazioni apprese con la frequenza delle lezioni di Analisi e statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Trento o del prof Taufer Emanuele.