Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Simbologia
ui, i=1…n unità di popolazione U
xi, i=1…n modalità corrispondenti
Possiamo individuare n coppie del tipo: {(u1,x1),(u2,x2),…(un,xn)}
Contando le coppie che hanno la stessa modalità, otteniamo una distribuzione di frequenze: {(x1,n1),
(x2,n2),…(xk,nk)}
Nota bene: ora compaiono solo x1,…xk modalità distinte
Modalità di X Frequenza (ni)
x1 n1
x2 n2
… …
xk nk
ni indica la frequenza della modalità xi, ossia il numero di unità aventi quella modalità, i=1,…k
L’insieme {(x1,n1),(x2,n2),…(xk,nk)} definito distribuzione di frequenza del carattere X
è
fi=ni/n,i=1,2,…,k indica la frequenza relativa
pi=fi x 100, i=1,2,…,k indica la frequenza percentuale
Caratteri ordinali
Qualora i dati siano ordinali, le k modalità distinte possono essere ordinate. Indichiamo per le k
modalità distinte:
- x1<x2<…<xk se sono ordinate in senso ascendente
- x1>x2>…>xk se sono ordinate in senso discendente
Modalità in senso ascendente
NB: n1+n2+…+nk=n
Dalle frequenze cumulate posso ottenere le
frequenze: la quantità di informazione non cambia
Tabelle multi-dimensionali
Quando si hanno a disposizione più caratteri per ciascuna unità, la popolazione può essere suddivisa
opportunamente in più gruppi per ottenere informazioni di vario genere.
I gruppi sono molto spesso formati in base alle modalità di due o più caratteri. Es. i due gruppi Maschi –
Femmine sono ulteriormente suddivisi in base ad esempio all’età.
Le tabelle di frequenza sono definite bivariate, trivariate etc. a seconda del numero di caratteri contenuti.
Il calcolo delle frequenze relative per gruppi di unità permette di ottenere nuove informazioni sulle
interazioni tra caratteri, fare confronti etc.
Paradosso di Simpson
Situazione in cui una relazione tra due fenomeni appare modificata, o perfino invertita, se variabili
rilevanti per l’analisi non sono prese in considerazione (variabili nascoste).
Nell’esempio, le F hanno fatto domanda in percentuali più elevate rispetto ai maschi in quei
dipartimenti con tassi di ammissione minori. A livello aggregato quest’aspetto non considerato. La
è
relazione Sesso-Ammissioni non letta correttamente
è
Rappresentazioni grafiche
Esse affiancano la presentazione dei dato in forma tabellare con lo scopo di aiutare l’analisi e il
ragionamento
- diagramma circolare (torta), rappresenta la distribuzione delle frequenze relative
(soprattutto per caratteri di tipo qualitativo e nominale). Nel caso di frequenze relative, la somma
delle aree 1. Il cerchio diviso in parti proporzionali alle classi di frequenza.
è è
- grafici a barre, utilizzati per caratteri di tipo qualitativo (nominali o ordinali), permette di effettuare
confronti tra più caratteri. A ciascuna modalità associata una colonna la cui altezza proporzionale
è è
alla frequenza. Utilizzato poi per separare le modalità con frequenze più alte da quelle meno
rappresentate nei dati.
- diagramma di pareto, costituito da barre verticali disposte in ordine decrescente di frequenza. Esso
diventa utile quando le modalità della variabile di interesse sono molte
- istogramma, utilizzato per dati quantitativi, comunica la distribuzione delle unità statistiche tra le
modalità del carattere. Fissato un sistema di assi cartesiani ortogonali, sull’asse delle x si riportano gli
intervalli consecutivi, costituendo dei rettangoli le cui aree sono proporzionali alle frequenze. Nota
bene: se le classi hanno la stessa ampiezza, o modulo, basterà riportare altezze proporzionali alle
frequenze. Se non hanno la stessa ampiezza, le altezze delle colonne si determinano con:
Altezza=frequenza/ampiezza classe - l’altezza, in questo caso, prende il nome di frequenza specifica
L’area=frequenza=b(classi) h — area proporzionale alle frequenze
è
Bisogna costruirlo con classi con la stessa ampiezza
La forma della distribuzione
- simmetria, che può essere di diversi tipi: forma a U e campanulare
- asimmetrie, le quali rappresentano la maggior parte delle distribuzioni. Possiamo trovare asimmetrie
positive o asimmetrie negative Il diagramma lineare
usato per dati quantitativi che hanno anche un ordinamento di
È
tipo temporale e mette in evidenza l’evoluzione di un fenomeno
quantitativo. In un sistema di assi cartesiani si riporta le modalità
del carattere sull’asse y e il suo istante temporale sull’asse x.
Il diagramma a dispersione
usato per rappresentare coppie di caratteri quantitativi ed
È è
utile per rimettere in evidenza possibili relazioni esistenti tra
caratteri. Su un sistema cartesiano si riportano coppie di
modalità (una modalità per asse).
Piramide delle età
una rappresentazione grafica usata nella statistica demografica per descrivere la distribuzione per
È
età di una popolazione. Solitamente sono due istogrammi rappresentanti le età disposti
simmetricamente attorno all’asse verticale. Dalla forma della piramide si può dedurre la storia
demografica di una popolazione e l’andamento demografico:
- forma piramidale, popolazione in crescita
- piramide tendente a un rettangolo, crescita nulla
- piramide tendente a un trapezio, decremento
Errori nella presentazione dei dati
- Diversa ampiezza delle classi di intervallo in un istogramma e uso delle frequenze per
l’altezza delle barre
- Compressione o distorsione dell’asse verticale
- Omissione dello zero sull’asse verticale
-Non fornire una base di riferimento per il confronto di dati di diversi gruppi
Le misure di tendenza centrale
Medie di posizione: Moda e Mediana
Medie algebriche: media (aritmetica)
La Moda (Mo(X)) del carattere X la modalità che si presenta con la frequenza assoluta (o relativa)
è
maggiore. La Moda, nell’istogramma, solitamente associata al picco (punto più elevato)
è
La mediana
Dato un insieme x1,x2,..,xn in cui elementi sono ordinabili in senso crescente o decrescente, si definisce
mediana (Me(X)) la modalità che equipartisce l’insieme dei dati
La mediana la modalità che occupa la posizione centrale, la quale data da 0,5 (n+1)
è è
Nel caso in cui n pari esistono due posizioni centrali
è
- se X ordinale la mediana ben definita solo se le due posizioni adiacenti 0,5(n+1) risultano occupate
è è
dalla medesima
- se X quantitativa la mediana definita come la semisomma dei due valori centrali
è è
Quartili e percentili
La mediana una grandezza che appartiene ad un insieme di misure di posizione, i percentili.
è
I p-esimo percentile il valore della distribuzione al di sotto del quale ricade il p% delle osservazioni e
è
al di sopra del quale ricade il (100-p)% delle unità.
Nota bene: la mediana corrisponde dunque con il percentile 0,5 ovvero il 50%
I quartili vengono definiti attraverso il 25-esimo e il 75-esimo percentile. Dividono la distribuzione in
quattro parti, ciascuna delle quali contiene 1/4 delle osservazioni.
Percentili del QI (grafico): le percentuali possono essere calcolare anche attraverso le
frequenze cumulate
Calcolare il quartile
Il primo quartile (Q1) il valore che si trova nella posizione 0.25(n+1) , quindi Q1=x0.25(n+1)
è
(Analogamente il secondo sarà Q2=x0.50(n+1),..)
Nota bene: n il numero di valore osservati. Se la posizione non un numero intero, il quartile
è è
corrispondente dato dalla semisomma dei valori adiacenti
è
La differenza interquartile (ad esempio primo e terzo) viene definita scarto interquartile e viene
indicata IQR (Inter Quartile Range). Una rappresentazione grafica basata su 5 numeri EDA per mettere
in evidenza le caratteristiche principali di una distribuzione il Box Plot. Il box delimitato dal primo e
è
terzo quartile contiene il 50% centrale della distribuzione. Le linee sono chiamate whiskers (baffi, che
ci dicono l’estensione totale della distribuzione) e vanno fino al massimo e al minimo, a meno che
nella distribuzione siano presenti outlier.
Nota bene: mediana rappresentata da una linea che attraversa il box
Outlier
Se sono presenti osservazioni anomale, i limiti del box plot sono definita da
Q1-1.5 (IQR), limite inferiore
Q3+1.5 (IQR), limite superiore
I valori al di fuori del limite sono identificati con asterischi e classificati come outlier.
Outlier: valore anomalo che può essere dovuto da
- errori di misurazione o di codifica, i quali vengono poi corretti o eliminati
- particolarità del fenomeno in esame, per cui il dato richiede analisi statistica sofisticata
La media (aritmetica)
La media suddivide un totale equamente tra n unità. Dunque, dato un insieme di n modalità x1,x2,..,xn
si definisce media M(X) la quantità. Ricorda: distribuisce equamente
Distribuzione di frequenze
(x1+…+x1+x2+…+x2+xk+…+xk)=(x1 n1+x2 n2+…+xk nk)=
Simbologia
In un contesto in cui si considera una popolazione di N unità ed un campione di n unità, si usano
simbologie specifiche per la media
Proprietà
- la somma degli scarti di un insieme di valori dalla loro media aritmetica nulla
è
(X1-M(x))+(X2-M(x))+…+(Xn-M(x))=X1+X2+…+Xn-nM(x)=0
- proprietà dei minimi quadrati, per ogni costante A
Nota bene: la mediana porta con sé le informazioni sulle frequenze
- proprietà di linearità. Se Y=a+b X, con a e b delle costanti, allora M(Y)=a+b M(X)
Nell’esempio potrebbe essere interessante scomporre
l’andamento della quotazione xt, t=1, ... n in: xt = trendt +
disturbot
dove la componente di trend indica i fondamentali del
titolo mentre il disturbo indica fattori quali speculazione,
voci incontrollate etc.
Poiché gli errori positivi e negativi tendono ad annullarsi,
usiamo delle medie aritmetiche su sottoperiodi per
rappresentare il trendt
Le medie mobili
Dato un insieme di n modalità definiamo media mobile di ordine s (s intero)
x1,x2,…,xn
Nota bene: usiamo il termine Mt(s) per rappresentare il trend al momento t
La media geometrica
Dato un insieme di n numeri positivi, x1,x2,…,xn si definisce media geometrica G(X) la quantità
Distribuzione di frequenza
Consideriamo ora il caso in cui siano state misurate n unità statistiche ottenendo k modalità distinte.
Il campo di variazione
La misura più semplice della variabilità per dati quantitativi data dal campo di variazione,
è