Statistica - Appunti completi

Appunti teorici per l'esame di Statistica utilizzati come punto di partenza per lo svolgimento degli esercizi. Il documento si basa interamente sugli appunti presi durante le lezioni e sul …

Esame Statistica

Facoltà Scienze statistiche

Dal corso del Prof. Trivisano Carlo

Università Università degli Studi di Bologna

Publisher sofdf23

A.A. 2022-2023

25 pagine

Appunti esame

Vota

Scarica

Estratto del documento

(X)

Nei casi di asimmetria positiva > 0 11

(X)

Nei casi di asimmetria negativa < 0

Curtosi

Il peso delle code tra due distribuzioni può risultare diverso. Tale peso è detto curtosi.

Indice di curtosi di Pearson

() )

∑(

Questo indice è sempre ≥ 1 ed assume valore β = 3 per la distribuzione gaussiana.

Se β > 3 le code sono più pesanti di quelle gaussiane.

Se β < 3 le code sono meno pesanti di quelle gaussiane.

→ () −

Indice di curtosi di Fischer

La concentrazione

Modo in cui l’ammontare totale del carattere (quantitativo e trasferibile) si ripartisce tra le n unità

statistiche. La concentrazione sarà tanto più elevata se il carattere si addensa in poche unità.

Il caso di minima concentrazione è l’ipotesi teorica di equidistribuzione in cui il carattere si

ripartisce in parti uguali tra le unità statistiche. In questo caso ogni unità statistica possiede una

frazione pari a 1/n dell’ammontare totale del carattere.

In caso di massima concentrazione si ottiene se l’intero ammontare del carattere è posseduto da

un singolo individuo.

→

NB la concentrazione si calcola sui caratteri ordinati.

L’ammontare complessivo del carattere si calcola come cumulata dei valori del carattere

= ∑

rappresenta la cumulata fino all’unità i-esima; ne consegue che

→

Intensità relativa cumulata delle i unità

→ = = =

Intensità relativa cumulata in equidistribuzione poiché

= 0 ∀ = .

In caso di massima concentrazione si ha

< ∀,

Di solito poiché se ci si allontana dal caso di equidistribuzione le cumulate Ai

inizieranno a diminuire fino a diventare = 0.

= allora = = 1.

La concentrazione si misura proprio come differenza di Fi e Qi

−1 R =

= ∑( − )

→

Generalmente si utilizza il Rapporto di concentrazione di Gini

Si tratta di un indice normalizzato che varia tra 0 e 1:

→

- R = 0 equidistribuzione (minima concentrazione)

→

- R = 1 massima concentrazione

- Assume valori crescenti all’aumentare della concentrazione

−1

La somma delle Fi è definibile anche così 2 12

Concentrazione e variabilità

Più risulta elevata la concentrazione del carattere, tanto più elevata risulta la sua variabilità. In

condizione di equidistribuzione, infatti, sia la variabilità che

la concentrazione sono nulle.

Spezzata di concentrazione (Curva di Lorenz)

La curva di Lorenz si costruisce ponendo come ascissa in

valori di Fi e in ordinata i valori Qi. Si considerano le coppie di tali valori di ogni unità statistica.

Ogni unità viene rappresentata da un punto, poi congiunti con dei segmenti. La forma del grafico

ottenuto cambia a seconda del livello di concentrazione del carattere; in equidistribuzione, ad

esempio, coincide con la bisettrice I/III quadrante. Può essere usata come misura della

concentrazione.

Distribuzione congiunta di due caratteri

Generalmente nella ricerca ciò che interessa davvero studiare è la relazione (associazione) tra più

caratteri rilevati sullo stesso collettivo.

Per misurare la relazione tra due diversi caratteri esistono vari tipi di indici applicabili a seconda

della tipologia dei caratteri che si desidera studiare.

I caratteri rilevati possono essere organizzati sotto forma di distribuzione unitaria semplice o

tabella a doppia entrata.

Graficamente viene rappresentata con un grafico a dispersione in cui la coppia di modalità relative

ad ogni unità statistica viene rappresentata come un punto. Il grafico facilita l’identificazione di

una relazione tra i due caratteri.

In una tabella doppia entrata vengono inserite le frequenze congiunte n , ovvero le frequenze

assolute delle unità che rappresentano contemporaneamente ciascuna modalità dei due caratteri.

La parte centrale della tabella rappresenta la distribuzione congiunta;

I bordi della tabella rappresentano le distribuzioni marginali (una sola variabile).

Considerando una solo riga o una sola colonna si hanno le distribuzioni condizionate

(condizionarsi significa considerare solo una modalità di uno dei due

caratteri.

Esempio CLASSEꟾSALVATAGGIO*, “classe” resta fisso mentre

“salvataggio” scorre. Se si hanno dati quantitativi occorre sommare le

unità statistiche appartenenti alla variabile considerata e moltiplicarle

per il valore (medio, se a intervalli) delle classi di appartenenza). 13

Si possono calcolare le frequenze relative congiunte

ℎ

= ∀ℎ,

ℎ

∑ ∑ = 1

ℎ

ℎ=1 =1

Frequenze relative condizionate XꟾY calcolate sul totale della variabile che rimane fissa

(es. se blocco la classe calcolo sul totale dei membri della classe).

Sulle distribuzioni condizionate (o marginali) è possibile calcolare tutti gli indicatori tradizionali

(media aritmetica, mediana, varianza, ecc.).

Dipendenza e indipendenza in distribuzione

In una distribuzione di frequenza è possibile calcolare indicatori della dipendenza tra le variabili

che la compongono. In generale, tale dipendenza non ha un verso a livello di calcolo statistico, si

definisce un concetto simmetrico (solo la conoscenza del fenomeno ci porta a pensare quale sia la

variabile dipendente dall’altra).

I caratteri di una distribuzione sono tra loro connessi; dalla forza di tale connessione è possibile

stabilire il livello di dipendenza tra le variabili. Il calcolo si base sul confronto dei dati realmente

osservati con un modello teorico di assoluta indipendenza.

→

Assoluta indipendenza le frequenze relative condizionate sono tutte uguali tra loro e uguali alla

marginale. Più i dati reali si avvicinano a questo modello, più la loro connessione è debole; più essi

si allontanano da questo modello, più la loro connessione è forte.

Sotto l’ipotesi di totale indipendenza le frequenze relative si costruiscono tramite una formula:

∗

ℎ· ·

′ =

ℎ

(Totale della riga * totale della colonna)/n

Indici di associazione

Basati sulle contingenze, differenze tra le frequenze teoriche e quelle reali.

= − ′

ℎ ℎ ℎ

Indice x2 (chi-quadrato) di Pearson

Si tratta di una misura di contingenza normalizzata (privata del segno).

ℎ

2 =∑∑

′ ℎ

ℎ=1 =1

- È sempre non negativo

- Assume valore 0 in caso di indipendenza

- Assume valori crescenti all’aumentare di n

- Non varia tra 0 e 1

Indice di contingenza quadratica media (phi quadrato)

Φ=

- Assume valore 0 in caso di indipendenza

- Ha valore massimo pari a 1 solo se H=K=2, altrimenti maggiore di 1 14

Indice V di Cramer 2

=√ min[( 1)],

− [( − 1)]

- Vale 0 se vi è assoluta indipendenza

- Vale 1 se vi è perfetta dipendenza

- Varia tra 0 e 1 in tutti i casi intermedi

Dipendenza e indipendenza in media

Calcolabile se almeno uno dei due caratteri è quantitativo.

In caso di indipendenza in media, tutte le medie condizionate sono uguali tra loro e uguali alla

media marginale.

In questo indice è necessario individuare una variabile dipendente e una indipendente.

Nel calcolo di questo indice bisogna sempre considerare che vi potrebbero essere altri fattori che

influenzano il fenomeno in esame che non stiamo considerando e che altererebbero i risultati. La

ricerca di informazioni non è mai definitiva.

Rapporto di correlazione

- Assume valore = in caso di assenza di dipendenza

- Assume valore 1 quando le medie sono tra loro diverse ed è nulla la devianza entro

La regressione lineare

Il modello di regressione lineare sfrutta una funzione matematica per esprimere la relazione tra

due caratteri che devono essere entrambi quantitativi.

→

La relazione lineare è del tipo: Y=f(x) (variabile dipendente) = f(variabile indipendente).

Per costruire il modello occorre stimare i parametri che compongono la funzione di riferimento.

Tale funzione non rappresenta mai una relazione perfetta tra le due variabili considerate a causa di:

- Scelta del modello sbagliato: potrebbe accadere che funzioni di grado molto elevato siano

capaci di rappresentare perfettamente la relazione; esse sarebbero però troppo complesse

per essere studiate e usate per fare previsioni;

- Influenza di altre variabili non considerate;

- Errore di misurazione dei dati (con compensazione tra eccessi e difetti).

È, infatti, necessario verificare anche l’attendibilità del modello costruito.

Ipotesi di relazione lineare = +

La relazione lineare si esprime così: 0 1

→

intercetta

0 →

coefficiente angolare

Si tratta però di un modello troppo rigido, costruito come relazione perfetta tra le due variabili.

Di solito di utilizza, invece, il seguente modello:

= + +

0 1

Y è la variabile dipendente;

X è la variabile indipendente (o regressore, o esplicativa, o covariata);

sono i parametri del modello.

0 1

La componente erratica esprime l’imperfezione della relazione tra le due variabili. 15

In realtà, anche modelli di base non lineari vengono spesso ricondotti a modelli lineari tramite un

processo di linearizzazione. Il modello lineare è il più semplice da studiare.

Stima dei parametri

I parametri non possono essere individuati con precisione; devono essere stimati.

̂ ̂

rappresentano la stima di tali parametri. La stima si effettua cercando di far sì che il

0 1

modello fornisca un buon adattamento dei dati reali ottenuti.

I minimi quadrati

Il metodo più usato è quello di minimizzare questa funzione:

∑(

( , ) = − − )

Questa funzione rappresenta la somma delle diffe

Anteprima

Vedrai una selezione di 6 pagine su 25

Anteprima di 6 pagg. su 25.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 6 pagg. su 25.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 6 pagg. su 25.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 6 pagg. su 25.
Scarica il documento per vederlo tutto.

Scarica

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher sofdf23 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Bologna o del prof Trivisano Carlo.

Appunti correlati

Invia appunti e guadagna

Recensioni

Ti è piaciuto questo appunto?

Statistica - Appunti completi

(X)

(X)

Recensioni

Domande e risposte

I migliori insegnanti di Matematica

Salvatore F.

Daniele P.

Matteo S.