Anteprima
Vedrai una selezione di 19 pagine su 87
Appunti di Statistica Pag. 1 Appunti di Statistica Pag. 2
Anteprima di 19 pagg. su 87.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 6
Anteprima di 19 pagg. su 87.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 11
Anteprima di 19 pagg. su 87.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 16
Anteprima di 19 pagg. su 87.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 21
Anteprima di 19 pagg. su 87.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 26
Anteprima di 19 pagg. su 87.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 31
Anteprima di 19 pagg. su 87.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 36
Anteprima di 19 pagg. su 87.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 41
Anteprima di 19 pagg. su 87.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 46
Anteprima di 19 pagg. su 87.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 51
Anteprima di 19 pagg. su 87.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 56
Anteprima di 19 pagg. su 87.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 61
Anteprima di 19 pagg. su 87.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 66
Anteprima di 19 pagg. su 87.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 71
Anteprima di 19 pagg. su 87.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 76
Anteprima di 19 pagg. su 87.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 81
Anteprima di 19 pagg. su 87.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 86
1 su 87
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

H K H K

∑ ∑ ∑ ∑

= =

n= n n n

ij i . . j

i=1 j=1 i=1 j=1

32

Rappresentazione grafica della distribuzione di 2 caratteri

La rappresentazione grafica di una distribuzione doppia (unitaria o di frequenza) è uno

strumento che può essere utile per capire il comportamento congiunto di 2 variabili statistiche

e può essere presentato in aggiunta o in alternativa alla tabella di frequenza a doppia entrata;

i grafici saranno diversi a seconda del tipo di variabili statistiche considerate nell’analisi, in

particolare verranno presentati: scatter plot)

distribuzione di frequenza unitaria: grafico a dispersione (o per una

 coppia di variabili statistiche entrambe continue, oppure una discreta e una continua; in

questo grafico le coppie di modalità di 2 caratteri quantitativi osservate per ogni unità

del collettivo, vengono rappresentate come punti di un piano cartesiano i cui assi

ortogonali corrispondono ai 2 caratteri.

L’esame del diagramma a dispersione ci aiuta a capire se esiste una relazione tra le

due variabili che stiamo studiando:

si dice che tra due variabili statistiche c’è una relazione positiva (o diretta)

o quando ad elevati valori di X corrispondono tendenzialmente elevati valori di Y e

a bassi valori di X corrispondono tendenzialmente bassi valori di Y; se X cresce

tendenzialmente anche Y cresce e viceversa

si dice che tra due variabili statistiche c’è una relazione negativa (o inversa)

o quando ad elevati valori di X corrispondono tendenzialmente bassi valori di Y e a

bassi valori di X corrispondono tendenzialmente elevati valori di Y; se X cresce

tendenzialmente Y decresce e viceversa

si dice che tra due variabili statistiche non c’è una relazione quando a bassi o

o elevati valori di X non corrispondono né valori bassi né valori alti di Y

distribuzione di frequenza congiunta:

 mosaic plot)

grafico a mosaico (o per una coppia di variabili qualitative

o (sconnesse e/o ordinali); questo mosaico rappresenta le frequenze di una tabella

doppia tramite dei parallelepipedi di altezza proporzionale alla frequenza

congiunta in uno spazio tridimensionale

bubble plot)

grafico a bolle (o e grafico a bastoncini tridimensionale per

o una coppia di variabili quantitative discrete

33 istogramma tridimensionale (o stereogramma) per una coppia di variabili

o quantitative continue con distribuzione per classi

distribuzione di frequenza condizionata:

 grafico a barre suddivise quando entrambe le variabili statistiche sono

o qualitative (sconnesse e/o ordinali)

grafici già visti nel caso unidimensionale se la variabile condizionata è

o quantitativa mentre quella che condiziona è qualitativa

Medie e Varianze Condizionate

Data la distribuzione congiunta della variabile statistica doppia (X, Y) e le l distribuzioni delle

variabili statistiche condizionate Y|X = x , se Y è quantitativa si possono definire

i

le I medie condizionate di Y|X = x

 i

J J

1 ∑ ∑

= =

y y n y f ,i=1,2, … , I

i j ij j j i

n j=1 j=1

i .

le I varianze condizionate di Y|X = x

 i

34 J J

1 ∑ ∑

2 2 2

( ) ( )

= =

σ y − y n y − y f , i=1,2 , … , I

i j i ij j i j i

n j=1 j=1

i .

Formula per il calcolo [ ]

[ ]

J J

1 ∑ ∑

2 2 2 2 2

= =

σ y n − y y f − y

∨i

i j ij i j j i

n j=1 j=1

i .

Si noti che le varianze condizionate misurano la variabilità delle distribuzioni di Y condizionate

dalle I modalità di X.

Analisi dell’associazione statistica

Si parla di dipendenza logica tra 2 o più caratteri quando tra questi sono note a priori

relazioni di causa ed effetto; in contrapposizione alla dipendenza logica, si può considerare

l’indipendenza logica: si parla di indipendenza logica tra 2 o più caratteri quando si

suppone a priori che tra questi non possa sussistere alcuna relazione di causa effetto.

Mediante l’analisi statistica non si pretende di individuare le “leggi” che definiscono i legami

tra i fenomeni, ma più semplicemente di verificare l’esistenza o meno di regolarità

nell’associazione tra le modalità dei caratteri osservati; si possono utilizzare 2 approcci:

l’analisi della dipendenza, in cui si studia come le modalità di un carattere

 “dipendono” da quelle di un altro carattere secondo un legame unidirezionale

l’analisi dell’interdipendenza, in cui si assume che i caratteri abbiano tutti lo stesso

 ruolo e che i legami tra essi siano bidirezionali.

Per entrambi gli approcci sono stati proposti alcuni indici che forniscono una misura dell’entità

dell’associazione.

Qualunque sia l’approccio scelto, l’indipendenza statistica, cioè l’assenza di un legame tra i 2

caratteri, può essere definita in modo semplice e univoco: tra 2 caratteri sussiste

indipendenza statistica quando la conoscenza della modalità di uno dei 2 caratteri non

migliora la “previsione” della modalità dell’altro.

Studio dell’associazione tra 2 caratteri in una tabella doppia di frequenze

La tabella doppia di frequenze è lo strumento più idoneo per indagare sulle relazioni esistenti

tra le modalità di 2 caratteri qualitativi o quantitativi suddivisi in classi. Considereremo la

tabella delle frequenze relative ai caratteri X e Y: il carattere X si dirà indipendente da Y se,

qualunque sia la modalità con cui si manifesta il carattere Y, la distribuzione relativa

condizionata di X non cambia; d’altra parte se X è indipendente da Y si può dimostrare che

anche Y è indipendente da X.

Quindi in definitiva abbiamo la definizione che segue: 2 caratteri, X e Y, si diranno

indipendenti se le distribuzioni relative condizionate di un carattere rispetto alle modalità

dell’altro sono tra loro uguali.

Ogni volta che in una tabella doppia di frequenze non si osserva indipendenza statistica, si

dirà che esiste dipendenza o interdipendenza tra i caratteri; come conseguenza si deve

avere che in corrispondenza di alcune modalità di un carattere si presentano più

frequentemente alcune modalità dell’altro carattere. La tabella di frequenze a doppia entrata

relativa a 2 caratteri indipendenti deve presentare la seguente proprietà: se 2 caratteri sono

indipendenti, la generica frequenza assoluta corrispondente all’i-esima modalità di X e alla

j-esima modalità di Y deve essere uguale a:

n n

i . . j

=

n i=1,2 , … , I j=1,2, … , J

ij n

35

Le frequenze assolute di una tabella doppia ottenute nell’ipotesi di indipendenza tramite

questa formula saranno dette frequenze teoriche di indipendenza e per distinguerle da

'

quelle osservate le indicheremo con n ij

Se 2 caratteri non sono statisticamente indipendenti ci si attende che tra di essi sussiste

qualche tipo di relazione, ma, in molti casi, tra 2 caratteri logicamente indipendenti si può

osservare un’associazione statistica, cosicché le relazione osservate sono solo apparenti; in

tali casi si parla di associazione spuria: l’associazione spuria è un legame statistico empirico

che si verifica tra 2 caratteri logicamente indipendenti. Si noti che, talvolta, l’associazione

spuria tra 2 caratteri può essere dovuta alla presenza di uno o più caratteri non osservati che

influenzano entrambi i caratteri osservati.

Introduciamo poi la nozione di associazione perfetta che si distingue in:

dipendenza perfetta: un carattere Y dipende perfettamente da X quando a ogni

 modalità di X è associata una sola modalità di Y, cioè quando in una tabella doppia per

n ≠ 0

ogni i c’è un solo j per il quale ij

Si noti che tale relazione è unidirezionale, in quanto dalla conoscenza della modalità

di un carattere è possibile prevedere la modalità dell’altro ma non il contrario

interdipendenza perfetta: tra 2 caratteri sussiste tale relazione se a ogni modalità di

 uno dei 2 caratteri corrisponde una e una sola modalità dell’altro carattere e viceversa;

si noti che, considerando una tabella doppia, e assumendo che le frequenze marginali

siano tutte non nulle, la condizione di interdipendenza perfetta può valere solo nel caso

in cui la tabella è quadrata, ovvero quando per ogni riga e per ogni colonna della

tabella si ha una sola cella con frequenza non nulla

Misura dell’associazione per caratteri qualitativi sconnessi

La misura dell’associazione tra 2 caratteri qualitativi sconnessi avviene analizzando la

distribuzione congiunta delle frequenze dei 2 caratteri. Per valutare l’interdipendenza si

utilizzano indici basati su un approccio simmetrico rispetto al modo di trattare i 2 caratteri

e calcolati direttamente sulla distribuzione doppia dei 2 caratteri; per la dipendenza si utilizza

invece un approccio asimmetrico e gli indici si calcolano sulla distribuzione condizionata di

un carattere dato l’altro.

Massima associazione

Una situazione opposta a quella di indipendenza statistica è quella di massima (o perfetta)

associazione: se

I = J, cioè quando la tabella è quadrata, si dice che c’è massima associazione quando

 esiste una corrispondenza biunivoca fra X e Y: a una modalità di X corrisponde una e

una sola modalità di Y

I ≠ J, cioè quando la tabella non è quadrata, si dice che c’è massima associazione

 quando esiste una corrispondenza univoca fra X e Y ad esempio, se I > J allora ad ogni

modalità di X deve essere associata una sola modalità di Y

Si noti che un confronto cella per cella delle frequenze osservate e teoriche di indipendenza

può rivelare la natura dell’associazione: se in una cella la contingenza è positiva, allora in

quella cella la frequenza osservata è superiore a quella teorica di indipendenza, mentre se in

una cella la contingenza è negativa, allora in quella cella la frequenza osservata è inferiore a

quella teorica di indipendenza.

Si noti che se ❑ ❑

f ≠ f ≠ n ≠ n per qualche i e j

ij ij ij ij

si dice che le variabili statistiche X e Y non sono statisticamente indipendenti oppure che le

variabili X e Y sono associate o connesse.

36

Consideriamo ora degli indici generali di associazione; questi si basano sulle differenze tra le

n n

' i . . j

=

frequenze osservate n e quelle teoriche di indipendenza che corrispondono alle

n

ij ij n

frequenze che avremmo dovuto avere se, date le distribuzion

Dettagli
Publisher
A.A. 2022-2023
87 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Beione di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Udine o del prof Pani Laura.