Anteprima
Vedrai una selezione di 6 pagine su 25
Parte Statistica, metodologie 1 Pag. 1 Parte Statistica, metodologie 1 Pag. 2
Anteprima di 6 pagg. su 25.
Scarica il documento per vederlo tutto.
Parte Statistica, metodologie 1 Pag. 6
Anteprima di 6 pagg. su 25.
Scarica il documento per vederlo tutto.
Parte Statistica, metodologie 1 Pag. 11
Anteprima di 6 pagg. su 25.
Scarica il documento per vederlo tutto.
Parte Statistica, metodologie 1 Pag. 16
Anteprima di 6 pagg. su 25.
Scarica il documento per vederlo tutto.
Parte Statistica, metodologie 1 Pag. 21
1 su 25
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

OUTLIERS

Avere degli outliers significa avere alcune osservazioni che registrano dei valori estremamente diversi

dall’insieme dei miei dati. La presenza degli outliers è particolarmente fastidiosa per gli studi perché

essa influenza il valore medio. Influenzando il valore medio andrà ovviamente a influenzare anche la

varianza e la deviazione standard.

Econometria e statistica gestiscono diversamente gli outliers: la prima li gestisce, la seconda li elimina.

l’esistenza degli outliers posso utilizzare:

Per verificare

1. CURTOSI Quest’ultima chiamata “scatola

2. PERCENTILE E BOXPLOT. è una rappresentazione grafica, anche

a baffi”, che evidenzia la presenza degli outliers. Per arrivare a realizzarla bisogna definire il il

percentile, ossia indica il p percento delle osservazioni che cadono al di sotto o prima di quel valore.

I percentili che vengono generalmente utilizzati sono i quartili, ovvero quei percentili che

“grande”

dividono in 4 parti da 25% la nostra distribuzione. Il Box plot è dal 1º quartile al 3º

quartile, nel 2º trovo la mediana.

Il box-plot ha infatti 5 elementi principali:

1. Valore minimo

2. Q1

3. Q2 o Mediana

4. Q3

5. Valore massimo.

Al di fuori del Boxplot si allungano dal valore minimo a sx al valore massimo a dx, tutto ciò che sta al di

La barra centrale di Q2 se è più spostata da una parte o dall’altra determina

fuori si chiama outliers.

l’asimmetria positiva o negativa, se sta al centro abbiamo una distribuzione normale.

c’è

Alla base della costruzione del box-plot la regola dello scarto interquartilico. Prima di tutto devo

calcolare la differenza tra il terzo e il primo quartile, ovvero lo scarto interquartilico (o interquartile range)

controllare l’esistenza di

( − ) , .

Q1 e Q3: Al suo interno rientrano il 50% delle osservazioni. Per

outliers, questo risultato lo posso sottrarre a Q1 o sommare a Q3.

Check list analisi univariata

3. Misure di tendenza centrale

4. Varianza e deviazione standard

5. 5 number summary (valore minimo, valore massimo, primo quartile, terzo quartile, mediana)

6. Curtosi e asimmetria (istogramma/funzione di densità)

Distribuzione normale: si standardizza la variabile trasformandola in un numero, attraverso lo zscore trovo

una nuova misurazione in cui il valore medio, o xbarra, è uguale a 0 e la deviazione standard, o s, è

uguale a 1. Questa è tipica della distribuzione standardizzata.

Lezione 3

Lettura della tabella normale standardizzata

μ–

3. mediana

x̄ –

4. valore medio

σ deviazione standard

5.

Può diventare uno 0 con la standardizzazione del valore, prendendo il concetto di zscore che viene calcolato

come – :

= – : = – ∶

Secondo l’empirical rule della distribuzione normale:

7. zona rossa 68% ossia quella compresa tra +1 e -1

8. zona rossa + zona viola = 95%

9. zona rossa + zona viola + zona arancione= 99,7%

in questo caso la zona verde è maggiore di 68% perché

il valore zscore è più grande di 0.14, per calcolarla devo

usare la tabella della normale.

Le aree che trovo nella coda della mia rappresentazione, nella distribuzione continua, si chiamano

Dobbiamo identificare l’area che sta a

probabilità (negli istogrammi rappresentano le frequenze relative).

destra (essendo la probabilità stanziata sulla destra).

mi aspetto che l’area sulla destra sia

Se prendessimo uno zscore ossia z uguale a 0, il 50% perché so che

per uno zscore uguale a 0 sto dividendo a metà perfetta la mia distribuzione. Se questo Z invece di 0 fosse

trovare sempre l’area che sta

un altro numero, ad esempio 0,001, devo proiettare quel punto sulla curva e poi

sulla destra della rappresentazione che ora per definizione sarà più piccola di 50% o 0.5. Come fare? lo

possiamo osservare nella tavola della normale standardizzata. Il primo decimale lo leggo nella prima

colonna con z, il secondo decimale sulle rimanenti colonne di fianco a z. Osservando, dunque, la tabella

trovo che l’area in questo caso è uguale a 0.4960 ovvero 49,60%. A sinistra avremo un’area uguale 1- 04960.

Se Z fosse 0,14 osservo la tabella prima di z (primo decimale) e poi mi sposto alla ricerca del secondo decimale

e trovo che l’area di destra vale 0.4443 ossia il 44.43%.

Per trovare l’area in mezzo tra i due valori +1 e

Se Z fosse uguale a 1.00 sarà 0.1587 ossia 15.87%. -1 allora

dovrò fare (1-0.1587) - 0.1587= 0.6826 ossia 68.26%.

Sulla prima colonna e sulle restanti leggo lo zscore ossia il valore standardizzato, all’interno poi della

tavola stessa leggo la probabilità di avere valori a dx dello zscore. Come facciamo a sapere che sono quelli

a dx? è segnato nella tabella perché sono tutti positivi. Per trovare quelli negativi basta pensare che essendo

una rappresentazione simmetrica, avrò lo stesso valore ma in negativo anche a sinistra.

Popolazione vs Campione

Campionamento casuale, è quello su cui si basa la statistica ed è rappresentativo del mio studio. Lo devo

selezionare al fine di essere certi che sia effettivamente rappresentativa della popolazione di studio.

Teorema del limite centrale o TLC, afferma che la distribuzione della media campionaria è normale ed è

cruciale che sia così perché permette di usare la tavola della media standardizzata.

1. Campionamento casuale semplice, estraggo in modo casuale il numero delle osservazioni che mi

serve all’interno del parametro di riferimento. Esistono diversi metodi (vedi slide: tavola dei numeri

casuali, random.org, Excel uso casuale o casuale.tra ecc.). In econometria devo utilizzare un

campionamento casuale perché diversamente il mio studio avrà solo validità interna e non esterna,

ossia saranno validi solo per me e non applicabili in generale.

2. Campionamento a gruppi o Cluster, non seleziono a caso su tutta la popolazione ma seleziono

casualmente un gruppo tra dei gruppi (tra i gruppi 1-2-3 seleziono casualmente il gruppo 2)

3. Campionamento stratificato, seleziono casualmente in diversi gruppi dei soggetti che riestraggo poi

a caso. Distinguo le varie tipologie di soggetti e a caso all’interno degli strati seleziono i soggetti.

(procedimento di stratificazione può chiederlo in esame come il campionamento in generale)

Errore

Errore di campionamento, è il più semplice da gestire perché è legato al campione stesso.

Per approssimarlo devo calcolare il margine di errore o m come

1 100

, .

Per capire quanto può essere grande il campione devo considerare la varianza, il margine di errore che

voglio imputare, il livello di intervallo di confidenza. Sulla base di questo considero che:

= ² ²: ²

trovo che l’area sulla dx è 0.0256 che a sx sarà uguale. L’area del centro sarà

Esempio: Se z uguale a 1.95

2x0.0256 = 0.9488 ossia 94.88% che approssimato all’unità diventa 95%. è l’intervallo di

1- Questo 95%

confidenza, può avere delle percentuali diverse e mi dà un range di valori entro cui si stanzia il valore medio

o miu.

Proporzione di popolazione o p: la formula qui cambia leggermente, perché non si considera la varianza

= (1 – ) ²: ²

STATISTICA BIVARIATA di osservare

Concetto di base risiede nell’intenzione e analizzare il grado di associazione, o correlazione, tra

due variabili. Ne esistono di tre tipologie: con l’indice di

4. Associazione tra variabili di natura cardinale (quantitative) che si calcola

correlazione di Pearson (ex. peso e età) con l’indice chi-quadrato

5. Associazione tra variabili di natura ordinale e/o nominale che si calcola

(ex. genere e preferenze politiche)

6. Associazione tra una variabile di natura ordinale e una di natura nominale che si calcola con la

point biseral correlation (non richiesto in esame)

L’indice di correlazione di Pearson vale tra +1 e -1, per calcolarlo dobbiamo

1. Scattogramma o scatterplot, si tratta di una rappresentazione grafica su assi cartesiani di una

l’incrocio

variabile x e y - indicando sul database originario le due variabili, delle info derivanti dalle

due diventa un puntino nello Scattogramma. Alla fine, abbiamo tanti punti quanti sono i numeri di

osservazioni (ex. 13 paesi = 13 pallini) al fine di evidenziare il grado di associazione tra variabili

esiste un’associazione

Esempio: vedi slide sotto, positiva tra due variabili se la variabile del pil pro-

capite di un paese x aumenta e quella della diffusione di internet y aumenta a sua volta. La retta che

posso rappresentare si inclina dunque positivamente. Non sempre si verifica questo caso, potrebbe

essere negativa o addirittura nulla.

2. Valore della correlazione calcolato come segue: Scattogramma

,

= ∗

Non posso calcolare la correlazione se, rappresentando graficamente le due variabili nello Scattogramma,

mi accorgo che i dati non sono disposti lungo una retta ma lungo una curva (i dati, quindi, non sono

è necessario chiarire che l’indice di correlazione dimostra

sintetizzabili con una retta). Oltre a questo,

unicamente se le due variabili che sto osservando sono associate (ossia sono in relazione tra loro) e non

definisce invece il nesso di casualità esistente tra le due (definito invece dall’econometria). Questa

considerazione è legata alla formula della correlazione stessa, definita con P. Tutte le volte che si calcola P,

si può dunque affermare che x si comporta in un modo e che y si comporta similmente o diversamente o

in maniera random rispetto a x. Si definisce con la correlazione quindi se le due variabili sono correlate

in maniera positiva, negativa o se non esiste nessun tipo di correlazione (nulla).

La correlazione tra due variabili potrebbe essere di natura spuria laddove la correlazione tra le variabili

x e y esiste grazie ad una terza variabile z, collegata alle due singolarmente e che rende la correlazione

tra x e y fortuita, casuale. (ex. correlazione tra numero di azioni criminali e numero di poliziotti, è una

correlazione di n

Dettagli
A.A. 2023-2024
25 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher giorgiastagnoli di informazioni apprese con la frequenza delle lezioni di Metodologie per la valutazione delle politiche 1 e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Cattolica del "Sacro Cuore" o del prof Uberti Teodora Erika.