Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
OUTLIERS
Avere degli outliers significa avere alcune osservazioni che registrano dei valori estremamente diversi
dall’insieme dei miei dati. La presenza degli outliers è particolarmente fastidiosa per gli studi perché
essa influenza il valore medio. Influenzando il valore medio andrà ovviamente a influenzare anche la
varianza e la deviazione standard.
Econometria e statistica gestiscono diversamente gli outliers: la prima li gestisce, la seconda li elimina.
l’esistenza degli outliers posso utilizzare:
Per verificare
1. CURTOSI Quest’ultima chiamata “scatola
2. PERCENTILE E BOXPLOT. è una rappresentazione grafica, anche
a baffi”, che evidenzia la presenza degli outliers. Per arrivare a realizzarla bisogna definire il il
percentile, ossia indica il p percento delle osservazioni che cadono al di sotto o prima di quel valore.
I percentili che vengono generalmente utilizzati sono i quartili, ovvero quei percentili che
“grande”
dividono in 4 parti da 25% la nostra distribuzione. Il Box plot è dal 1º quartile al 3º
quartile, nel 2º trovo la mediana.
Il box-plot ha infatti 5 elementi principali:
1. Valore minimo
2. Q1
3. Q2 o Mediana
4. Q3
5. Valore massimo.
Al di fuori del Boxplot si allungano dal valore minimo a sx al valore massimo a dx, tutto ciò che sta al di
La barra centrale di Q2 se è più spostata da una parte o dall’altra determina
fuori si chiama outliers.
l’asimmetria positiva o negativa, se sta al centro abbiamo una distribuzione normale.
c’è
Alla base della costruzione del box-plot la regola dello scarto interquartilico. Prima di tutto devo
calcolare la differenza tra il terzo e il primo quartile, ovvero lo scarto interquartilico (o interquartile range)
controllare l’esistenza di
( − ) , .
Q1 e Q3: Al suo interno rientrano il 50% delle osservazioni. Per
outliers, questo risultato lo posso sottrarre a Q1 o sommare a Q3.
Check list analisi univariata
3. Misure di tendenza centrale
4. Varianza e deviazione standard
5. 5 number summary (valore minimo, valore massimo, primo quartile, terzo quartile, mediana)
6. Curtosi e asimmetria (istogramma/funzione di densità)
Distribuzione normale: si standardizza la variabile trasformandola in un numero, attraverso lo zscore trovo
una nuova misurazione in cui il valore medio, o xbarra, è uguale a 0 e la deviazione standard, o s, è
uguale a 1. Questa è tipica della distribuzione standardizzata.
Lezione 3
Lettura della tabella normale standardizzata
μ–
3. mediana
x̄ –
4. valore medio
σ deviazione standard
5.
Può diventare uno 0 con la standardizzazione del valore, prendendo il concetto di zscore che viene calcolato
come – :
= – : = – ∶
Secondo l’empirical rule della distribuzione normale:
7. zona rossa 68% ossia quella compresa tra +1 e -1
8. zona rossa + zona viola = 95%
9. zona rossa + zona viola + zona arancione= 99,7%
in questo caso la zona verde è maggiore di 68% perché
il valore zscore è più grande di 0.14, per calcolarla devo
usare la tabella della normale.
Le aree che trovo nella coda della mia rappresentazione, nella distribuzione continua, si chiamano
Dobbiamo identificare l’area che sta a
probabilità (negli istogrammi rappresentano le frequenze relative).
destra (essendo la probabilità stanziata sulla destra).
mi aspetto che l’area sulla destra sia
Se prendessimo uno zscore ossia z uguale a 0, il 50% perché so che
per uno zscore uguale a 0 sto dividendo a metà perfetta la mia distribuzione. Se questo Z invece di 0 fosse
trovare sempre l’area che sta
un altro numero, ad esempio 0,001, devo proiettare quel punto sulla curva e poi
–
sulla destra della rappresentazione che ora per definizione sarà più piccola di 50% o 0.5. Come fare? lo
possiamo osservare nella tavola della normale standardizzata. Il primo decimale lo leggo nella prima
colonna con z, il secondo decimale sulle rimanenti colonne di fianco a z. Osservando, dunque, la tabella
trovo che l’area in questo caso è uguale a 0.4960 ovvero 49,60%. A sinistra avremo un’area uguale 1- 04960.
Se Z fosse 0,14 osservo la tabella prima di z (primo decimale) e poi mi sposto alla ricerca del secondo decimale
e trovo che l’area di destra vale 0.4443 ossia il 44.43%.
Per trovare l’area in mezzo tra i due valori +1 e
Se Z fosse uguale a 1.00 sarà 0.1587 ossia 15.87%. -1 allora
dovrò fare (1-0.1587) - 0.1587= 0.6826 ossia 68.26%.
Sulla prima colonna e sulle restanti leggo lo zscore ossia il valore standardizzato, all’interno poi della
tavola stessa leggo la probabilità di avere valori a dx dello zscore. Come facciamo a sapere che sono quelli
a dx? è segnato nella tabella perché sono tutti positivi. Per trovare quelli negativi basta pensare che essendo
una rappresentazione simmetrica, avrò lo stesso valore ma in negativo anche a sinistra.
Popolazione vs Campione
Campionamento casuale, è quello su cui si basa la statistica ed è rappresentativo del mio studio. Lo devo
selezionare al fine di essere certi che sia effettivamente rappresentativa della popolazione di studio.
Teorema del limite centrale o TLC, afferma che la distribuzione della media campionaria è normale ed è
cruciale che sia così perché permette di usare la tavola della media standardizzata.
1. Campionamento casuale semplice, estraggo in modo casuale il numero delle osservazioni che mi
serve all’interno del parametro di riferimento. Esistono diversi metodi (vedi slide: tavola dei numeri
casuali, random.org, Excel uso casuale o casuale.tra ecc.). In econometria devo utilizzare un
campionamento casuale perché diversamente il mio studio avrà solo validità interna e non esterna,
ossia saranno validi solo per me e non applicabili in generale.
2. Campionamento a gruppi o Cluster, non seleziono a caso su tutta la popolazione ma seleziono
casualmente un gruppo tra dei gruppi (tra i gruppi 1-2-3 seleziono casualmente il gruppo 2)
3. Campionamento stratificato, seleziono casualmente in diversi gruppi dei soggetti che riestraggo poi
a caso. Distinguo le varie tipologie di soggetti e a caso all’interno degli strati seleziono i soggetti.
(procedimento di stratificazione può chiederlo in esame come il campionamento in generale)
Errore
Errore di campionamento, è il più semplice da gestire perché è legato al campione stesso.
Per approssimarlo devo calcolare il margine di errore o m come
1 100
, .
Per capire quanto può essere grande il campione devo considerare la varianza, il margine di errore che
voglio imputare, il livello di intervallo di confidenza. Sulla base di questo considero che:
= ² ²: ²
trovo che l’area sulla dx è 0.0256 che a sx sarà uguale. L’area del centro sarà
Esempio: Se z uguale a 1.95
2x0.0256 = 0.9488 ossia 94.88% che approssimato all’unità diventa 95%. è l’intervallo di
1- Questo 95%
confidenza, può avere delle percentuali diverse e mi dà un range di valori entro cui si stanzia il valore medio
o miu.
Proporzione di popolazione o p: la formula qui cambia leggermente, perché non si considera la varianza
= (1 – ) ²: ²
STATISTICA BIVARIATA di osservare
Concetto di base risiede nell’intenzione e analizzare il grado di associazione, o correlazione, tra
due variabili. Ne esistono di tre tipologie: con l’indice di
4. Associazione tra variabili di natura cardinale (quantitative) che si calcola
correlazione di Pearson (ex. peso e età) con l’indice chi-quadrato
5. Associazione tra variabili di natura ordinale e/o nominale che si calcola
(ex. genere e preferenze politiche)
6. Associazione tra una variabile di natura ordinale e una di natura nominale che si calcola con la
point biseral correlation (non richiesto in esame)
L’indice di correlazione di Pearson vale tra +1 e -1, per calcolarlo dobbiamo
1. Scattogramma o scatterplot, si tratta di una rappresentazione grafica su assi cartesiani di una
l’incrocio
variabile x e y - indicando sul database originario le due variabili, delle info derivanti dalle
due diventa un puntino nello Scattogramma. Alla fine, abbiamo tanti punti quanti sono i numeri di
osservazioni (ex. 13 paesi = 13 pallini) al fine di evidenziare il grado di associazione tra variabili
esiste un’associazione
Esempio: vedi slide sotto, positiva tra due variabili se la variabile del pil pro-
capite di un paese x aumenta e quella della diffusione di internet y aumenta a sua volta. La retta che
posso rappresentare si inclina dunque positivamente. Non sempre si verifica questo caso, potrebbe
essere negativa o addirittura nulla.
2. Valore della correlazione calcolato come segue: Scattogramma
,
= ∗
Non posso calcolare la correlazione se, rappresentando graficamente le due variabili nello Scattogramma,
mi accorgo che i dati non sono disposti lungo una retta ma lungo una curva (i dati, quindi, non sono
è necessario chiarire che l’indice di correlazione dimostra
sintetizzabili con una retta). Oltre a questo,
unicamente se le due variabili che sto osservando sono associate (ossia sono in relazione tra loro) e non
definisce invece il nesso di casualità esistente tra le due (definito invece dall’econometria). Questa
considerazione è legata alla formula della correlazione stessa, definita con P. Tutte le volte che si calcola P,
si può dunque affermare che x si comporta in un modo e che y si comporta similmente o diversamente o
in maniera random rispetto a x. Si definisce con la correlazione quindi se le due variabili sono correlate
in maniera positiva, negativa o se non esiste nessun tipo di correlazione (nulla).
La correlazione tra due variabili potrebbe essere di natura spuria laddove la correlazione tra le variabili
x e y esiste grazie ad una terza variabile z, collegata alle due singolarmente e che rende la correlazione
tra x e y fortuita, casuale. (ex. correlazione tra numero di azioni criminali e numero di poliziotti, è una
correlazione di n