Questa è un'anteprima a titolo informativo.
vuoi
o PayPal
tutte le volte che vuoi
La misura normalizzata (rapporto rispetto al massimo) che si ricava dal calcolo di quest'indicatore rappresenta il grado di connessione tra i caratteri rispetto alla massima connessione raggiungibile.
Il massimo del chi-quadrato è pari a: χ = -2n * min(u, v) / max
Dove u e v sono rispettivamente il numero delle modalità di Y e di X e min(u,v) indica il minimo tra i due valori.
Si calcola innanzitutto la distribuzione teorica mediante la formula n = ∑i hi0 * h0i / n
Da cui deriva la tavola a doppia entrata che segue (ipotesi di perfetta indipendenza):
Nord | Centro | Sud | totale | |
---|---|---|---|---|
sopra media | 2,1 | 1,8 | 2,1 | 6 |
sotto media | 4,9 | 4,2 | 4,9 | 14 |
totale | 7 | 6 | 7 | 20 |
Nota a titolo esemplificativo: il valore 2,1 all'incrocio "Nord-sopra media" è calcolato mediante il rapporto tra il prodotto dei corrispondenti valori marginali e la numerosità totale del collettivo, ossia (6*7)/20=2,1. In modo analogo sono calcolati gli altri cinque valori all'interno.
della tabella.A questo punto si hanno tutti gli elementi per il calcolo del chi-quadrato: 2 2 2 2 2 2 2*u v n n 4 2,1 2 1,8 0 2,1 3 4,9 4 4, 2 7 4,9 2 ih ih* 2,1 1,8 2,1 4,9 4, 2 4,9n i h1 1 ih 1, 72 0, 02 2,1 0, 74 0, 01 0,9 5, 48 3maggiore sensibilità della misura di connessione è conveniente rapportare il valore del chi-Per avere unaquadrato al proprio massimo (normalizzazione), che è: 2 n * min(u , v ) 1 20 * ( 2 1) 20max 2Quindi, l’indice di connessione normalizzato (con valori compresi tra 0 e 1, estremi inclusi: 0 ≤ ≤ 1) è 2maxpari a 2 5, 48 0, 27 27 % 2 20maxLa connessione che si verifica tra la ripartizione territoriale e il livello di sfratti è pari al 27% della massimaconnessione raggiungibile. 4
Tab. 2 – Superficie e
valore di un campione di appartamenti
Superficie (mq) | Valore ('000 euro) |
---|---|
102 | 160 |
103 | 130 |
112 | 180 |
114 | 180 |
116 | 200 |
Esercizio 2
Argomento: Concordanza
Dati di riferimento: Tab. 2
Calcolare la covarianza tra la superficie e il valore degli appartamenti e discutere il risultato.
Soluzione σ) rappresenta la misura di base per stabilire la presenza di legame tra caratteri
La covarianza (xy) quantitativi e, eventualmente, la direzione (segno positivo o negativo) di tale legame. E' una misura sintetica di concordanza, espressa come media aritmetica dei prodotti degli scarti delle due variabili dalle rispettive medie aritmetiche. Si presenta di seguito la formula definitoria e i relativi passaggi algebrici per giungere alla formula calcolatoria (si sfruttano le proprietà della media aritmetica):
n _ _1 ∑σ = = - - = Covar(X, Y) (xx)(yy)xy i in =1i
∑n n n n_ _ _ _1 ∑ ∑ ∑ ∑= - - + =
x y x y x y x yi i i i
n = = = =i 1 i 1 i 1 i
n⁄n ∑i=1 (xi - x̄)(yi - ȳ) = 1⁄n ∑i=1 (xi - x̄)(yi - ȳ) Si calcolano le medie aritmetiche per impiegarle successivamente nella formula della covarianza. Se X è la superficie degli appartamenti e Y il valore, si ha: n̄x = 1⁄n ∑i=1 xi = (102 + 103 + 112 + 114 + 116) / 5 = 109.4 n̄y = 1⁄n ∑i=1 yi = (160 + 130 + 180 + 180 + 200) / 5 = 170 Quindi: n⁄n ∑i=1 (xi - x̄)(yi - ȳ) = 1⁄n ∑i=1 (xi - x̄)(yi - ȳ) = 1⁄n ∑i=1 (102 * 160 + 103 * 130 + 112 * 180 + 114 * 180 + 116 * 200) - 109.4 * 170 = (93,590) - (18,598 * 18,718 * 18,598 * 1205) La covarianza è diversa da zero e ha segno positivo: vuol dire che all'aumentare di una variabileaumentaanche l'altra (attenzione: non vi è ancora nessuna ipotesi di dipendenza di Y da X o viceversa). Ciò fornisceuna prima indicazione sul comportamento congiunto delle due variabili.
N.B. Si ricorda che l'unità di misura della covarianza è data dal prodotto delle unità di misura delle variabili.
Nel caso di questo esercizio la covarianza è misurata in metri quadrati * migliaia di euro.
N. | Superficie(mq) | ('000 euro) |
---|---|---|
1 | 40 | 120 |
2 | 165 | 170 |
3 | 92 | 130 |
4 | 98 | 130 |
5 | 70 | 110 |
6 | 72 | 90 |
7 | 64 | 100 |
8 | 89 | 150 |
9 | 103 | 130 |
10 | 96 | 130 |
11 | 116 | 200 |
12 | 88 | 140 |
13 | 112 | 180 |
14 | 102 | 160 |
15 | 88 | 120 |
16 | 59 | 100 |
17 | 73 | 130 |
18 | 81 | 160 |
19 | 114 | 180 |
20 | 48 | 90 |
Esercizio 3
Argomento: Regressione lineare semplice
Dati di riferimento: Tab. 3
Definire l'equazione della retta di regressione del valore degli appartamenti in funzione della superficie.
Commentare i risultati.
Soluzione
La retta di regressione è data dalla
funzione lineare (quindi di 1° grado) che, secondo il metodo dei minimiquadrati, esprime la misura in cui un carattere (dipendente, solitamente indicato con Y) dipende da un altro carattere (indipendente, solitamente indicato con X).
Il metodo dei minimi quadrati fa in modo che la somma delle differenze al quadrato tra i valori osservati per la variabile dipendente e i relativi valori teorici - indicati dalla retta di regressione - sia minima rispetto a qualsiasi altro metodo. In simboli:
n∑(yi - yi)2 = min
Sostituendo nella (1) l'equazione della generica retta:
y = a + bx
e risolvendo per a e b, resta identificata, fra le infinite possibili, la retta che identifica le condizioni poste. I parametri che identificano la retta sono definiti come segue:
n∑(xi - x)(yi - y) / n∑(xi - x)2
Codiv X Y = ∑(xi - x)(yi - y) / ∑(xi - x)2
20∑xy = 40 * 120 + 165 * 170 + 92 * 130 + ...81 * 160 114 * 180 48 * 90i ii 1 4.800 28.050 11.960 ... 12.960 20.520 4.320 253.100n 2 2 2 2 2 2 2x 40 165 92 ... 81 114 48i1i 1 . 600 27 . 225 8 . 464 ... 6 . 561 12 . 996 2 . 304 171 . 382A questo punto non resta altro che risolvere le formule calcolatorie dei parametri con i valori calcolati sopra:n _ _ x y n x y i iCodev X Y( , ) 253 . 100 20 * 88,5 * 136 12. 380 i 1b 0,84_nDev X( ) 171 . 382 20 * 88,5 14. 737 2 2x n xii 1_ _ a y b x 136 0,84*88,5 61,65Quindi, l’equazione della retta di regressione è y 61, 65 0,84 xTale equazione ci dice ad una variazione unitaria positiva (cioè per ogni metro quadrato in più) il valoredell’appartamento aumenta in media di 0,84 migliaia di euro (840 euro).250200euro) 150 y = 0,8401x + 61,654('000 2 = 0,5567R100Valore 500 20 40 60 80 100 120 140
160 180Superficie (mq)
Nota importante. Il modello di regressione per essere valido deve verificare alcune ipotesi come, ad esempio, la normalità distributiva dei residui (ossia si deve testare se i residui, che sono le differenze tra i valori osservati e quelli teorici indicati appunto dalla regressione, si distribuiscono come una "normale" o "gaussiana"). La verifica di tali ipotesi richiede l'utilizzo di strumenti inferenziali. In conclusione, bisogna verificare sempre se il modello stimato rispetta tutte le ipotesi su cui si basa e, in un secondo momento, sondarne anche la robustezza.
8Esercizio 4
Argomento: Indice di determinazione lineare
Dati di riferimento: Tab. 3 . Commentare i risultati.
Calcolare l'indice di determinazione lineare R 2
Soluzione
L'indice di determinazione lineare offre una misura di quanta parte della variabilità della variabile dipendente è spiegata dal suo dipendere lineare