Appunti di Statistica

Gli appunti di Statistica sono integrati con il libro, con le slide e con le spiegazioni della prof. Gli appunti coprono l'intero programma d'esame. All'interno del documento si trovano anche …

Esame Statistica

Facoltà Economia

Dal corso del Prof. Bisaglia Luisa

Università Università degli Studi di Padova

Publisher gio81478

A.A. 2024-2025

57 pagine

Appunti esame

Vota

Scarica

Estratto del documento

(DIAGRAMMA A SCATOLA)

Tabella a doppia entrata o distribuzione doppia di frequenze

La distribuzione unitaria doppia riferita a due caratteri può essere sintetizzata attraverso una tabella di

frequenze a doppia entrata detta anche distribuzione doppia di frequenze

- Dati due caratteri X e Y, si definisce distribuzione doppia di frequenze l’insieme delle frequenze congiunte f ,

ovvero le frequenze assolute delle unità che presentano congiuntamente la modalità i−esima della variabile

X e la modalità j−esima della variabile Y

La distribuzione congiunta di una coppia di variabili X e Y consiste nell’insieme delle frequenze (assolute o

relative) con cui vengono congiuntamente osservate tutte le coppie di modalità di X e di Y. Tali frequenze sono

dette congiunte

• L’ultima colonna e l’ultima riga sono dette distribuzioni marginali rispettivamente di X e Y (rappresentano la

distribuzione di frequenza assoluta di X e Y)

• indica la frequenza assoluta delle unità che presentano nel collettivo la modalità x e qualunque modalità

i. i

di Y. Analogamente, indica la frequenza assoluta delle unità che presentano nel collettivo la modalità yj e

qualunque modalità di X

• Le righe e le colonne interne alla tabella a doppia entrata identificano le distribuzioni condizionate. Per

esempio, la distribuzione data dalla prima riga, f , …, f , …, f , ci dice come si distribuisce il carattere Y quando

11 1j 1K

consideriamo le sole unità che presentano la modalità x di X

Media condizionata e varianza condizionata

SE UNO DEI VALORI È UGUALE A 0, I DUE CARATTERI NON SONO INDIPENDENTI !!!!

Punto Medio o Baricentro (in una distribuzione doppia)

Analisi dell’associazione fra due caratteri

• Si parla di dipendenza logica tra due o più caratteri quando tra questi sono note a priori relazioni di causa

ed effetto (esempio: la statura di un uomo dipende dall’età, dall’alimentazione, dal patrimonio genetico dei

genitori, . . .).

• Si parla di indipendenza logica fra due o più caratteri quando si suppone a priori che tra questi non possa

sussistere alcuna relazione di causa ed effetto (esempio: importazione annuale di banane e numero annuale

di incidenti automobilistici).

• Mediante l’analisi statistica si cerca di verificare l’esistenza o meno di regolarità nell’associazione fra le

modalità dei caratteri osservati

• Si possono utilizzare due approcci: l’analisi della dipendenza e l’analisi dell’interdipendenza

Indipendenza statistica = assenza di un qualsiasi legame fra i due caratteri

→ In questo caso conoscere le modalità di uno dei due caratteri non migliora la previsione delle modalità dell’altro

Per individuarla uso le distribuzioni di frequenza condizionata del carattere Y, perché mostrano come si

distribuisce Y al variare delle modalità di X

- Due caratteri X e Y si dicono indipendenti se le distribuzioni relative condizionate di un carattere rispetto

alle modalità dell’altro sono fra loro uguali e sono uguali alla distribuzione marginale

→ distribuzione relativa condizionata di x = modalità di y = distribuzione marginale

Dipendenza e interdipendenza

Se i due caratteri non sono indipendenti, allora fra di essi sussiste qualche tipo di relazione

• Si ha dipendenza perfetta di Y da X quando ad ogni modalità di X è associata una sola modalità di Y (relazione

unidirezionale)

• Si ha interdipendenza perfetta tra X e Y se ad ogni modalità di uno dei due caratteri corrisponde una e una

sola modalità dell’altro e viceversa (relazione bidirezionale)

L’interdipendenza perfetta (biunivocità) si può avere solo in tabelle che hanno lo stesso numero di righe

e di colonne

Contingenze

Contingenza = differenza tra le frequenze (congiunte) osservate f e quelle teoriche di indipendenza f’

ij ij

Indice di associazione Chi-quadrato

È sempre positivo. In caso di indipendenza è uguale a zero VEDI ES PAG 127 (LIBRO)

L’indice χ dipende dalla numerosità del collettivo cioè a parità di associazione l’indice è maggiore quando N

è più elevato→ per risolvere questo problema si usa l’indice di contingenza quadratica

Affinché l’indice possa essere utile è necessario trasformarlo in un Indice Normalizzato ovvero un Indice di

2 2

cui si conosca il campo di variazione. Essendo 0 il minimo valore che Φ (come pure χ ) può assumere, si

deve individuare solo il valore massimo

- Valore massimo: 2

Quindi, l’indice normalizzato di χ è

È un valore compreso tra 0 e 1 con estremi inclusi ([0,1]) che corrispondono a:

- χ = 0→ Indipendenza Statistica

- χ = 1→ Dipendenza o Interdipendenza Statistica

- Valori compresi tra 0 e 1 indicano l’esistenza di un grado di associazione

VEDI DA SLIDE 26 (POWERPOINT 5)8

Grafico di dispersione

Rappresenta gli scarti dalla media

• Scostamenti dalla media concordi: le coppie di punti che si trovano sul I e III quadrante hanno lo stesso

→

segno punti concordanti

• Scostamenti dalla media discordi: le coppie di punti che si trovano sul II e IV quadrante hanno segni diversi

→ punti discordanti

- Se gli scostamenti sono prevalentemente concordi si ha concordanza e questo significa che all’aumentare (o

diminuire) dei valori di X anche i valori di Y tendono a crescere (o diminuire)

- Se gli scostamenti sono prevalentemente discordi si ha discordanza ovvero all’aumentare (o diminuire) dei

valori di X i valori di Y tendono invece a diminuire (o aumentare)

Covarianza

Covarianza = indice simmetrico che misura la concordanza o la discordanza tra due caratteri quantitativi

La covarianza dipende dalla scala dei fenomeni ed è definita sull’insieme dei numeri reali

(e dall’unità di misura)

→

- È positiva in caso di concordanza σ > 0

XY

→

- È negativa in caso di discordanza σ < 0

XY →

- È nulla in caso di incorrelazione (o indipendenza lineare) σ = 0

XY

Tuttavia, se σ = 0 non è detto che i due caratteri siano indipendenti

XY

Varianza positiva, negativa o nulla:

Indice/coefficiente di correlazione di Pearson e Bravais

- Numeratore = covarianza

- Denominatore = deviazioni standard di X e Y

• ρ = 1 se fra X e Y sussiste un perfetto legame lineare e i due caratteri sono concordi

XY

• ρ = −1 se fra X e Y sussiste un perfetto legame lineare e i due caratteri sono discordi

XY

• ρ = 0 se i due caratteri sono indipendenti oppure se la loro relazione non è lineare

XY

• L’indipendenza statistica è la forma di Indipendenza più forte in assoluto perché coinvolge l’intera

distribuzione

→Esiste se X ed Y presentano distribuzioni condizionate identiche

• L’incorrelazione è la forma di Indipendenza più debole in assoluto tra le tre perché valuta la linearità

→ Esiste se X ed Y NON sono funzione lineare l’una dell’altra

→

- L’indipendenza statistica implica la correlazione se sono indipendenti, sono sicuramente incorrelati

→

- L’incorrelazione NON implica l’indipendenza statistica se sono incorrelati, non per forza sono indipendenti

13/03/2023

Serie storica = sequenza di osservazioni di un fenomeno Y osservato in T tempi (es: andamento del PIL)

NUMERI INDICI

È un particolare tipo di rapporto che confronta intensità o frequenze di un fenomeno riferite ad aree

geografiche diverse (indici spaziali) o tempi distinti (indici temporali)

Numeri indici semplici

Misurano l’entità dei mutamenti di una serie storica come rapporti tra due o più valori della serie

“Semplici” significa che fanno riferimento ad un solo fenomeno

• Hanno 0 come valore minimo e sono illimitati superiormente

→

• Valore neutro = 1 significa che non c’è stata variazione nell’intensità del fenomeno (nei saggi di

variazione il valore neutro è 0)

→

- Indice compreso tra 0 e 1 diminuzione dell’intensità del fenomeno

→

- Indice maggiore di 1 aumento dell’intensità del fenomeno

I numeri indici semplici possono essere:

• A base fissa: esprime l’intensità o la frequenza di un fenomeno con riferimento ad un fissato periodo di

tempo detto base (base = periodo di tempo rispetto al quale calcoliamo la variazione)

• A base mobile: esprime l’intensità o la frequenza di un fenomeno con riferimento al periodo di tempo

immediatamente precedente

Proprietà dei numeri indici (NON IMPORTANTE)

• Proprietà di identità: se si confronta una situazione temporale con sé stessa, il numero indice vale 1

• Proprietà di reversibilità delle basi: Il numero indice I è l’inverso del numero indice I

s/t t/s

• Proprietà circolare: Dati tre periodi di tempo t, s, r, si ha: I · I · I = 1

t/s s/r r/t

- Passaggio da una base fissa ad un’altra base fissa

- Passaggio da una base fissa a una base mobile

- Passaggio da una base mobile a una base fissa

Numeri indici complessi

Sintetizzano in un unico indice le variazioni subite dai diversi fenomeni

2 metodi di costruzione:

1) Metodo delle somme ponderate: calcolo del numero indice delle somme ponderate delle intensità o

frequenze

Il numero indice percentuale dei prezzi per il periodo t con il metodo delle somme ponderate è:

Numero indice dei prezzi di Laspeyres e Numero indice dei prezzi di Paasche

Formula ideale di Fisher

2) Metodo della media ponderata: calcolo della media ponderata dei numeri indici semplici a base fissa

I due metodi a confronto:

Principali serie di numeri indici

- Indici che si riferiscono ai consumi delle famiglie

• NIC: Indice nazionale dei prezzi al consumo per l’intera collettività

• IPCA: Indice armonizzato dei prezzi al consumo per i Paesi dell’Unione Europea

• FOI: Indice dei prezzi al consumo per le famiglie di operai e impiegati

- Indici che si riferiscono ai prezzi praticati dalle imprese industriali

• Indice dei prezzi alla produzione

Attraverso i numeri indici dei prezzi è possibile depurare le serie storiche dall’effetto inflazionistico

Rapporti statistici

In un rapporto statistico si mettono a confronto due termini, frequenze o quantità, di cui uno almeno è di

natura statistica (ossia riferito a un fenomeno collet

Anteprima

Vedrai una selezione di 13 pagine su 57