Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
DISTRIBUZIONE MARGINALE DI X (univariata)
La colonna del totale è la distribuzione semplice del carattere X
Il generico termine n indica la frequenza assoluta delle unità della modalità x .i j
DISTRIBUZIONE MARGINALE DI Y (univariata)
La riga del totale indica la distribuzione semplice del carattere Y.
Il generico termine n indica la frequenza assoluta delle unità della modalità y .j j
DISTRIBUZIONI CONDIZIONATE
Le righe e le colonne interne della tabella a doppia entrata identificano le distribuzioni condizionate.
Distribuzione condizionata per X.
Si individuano 3 distribuzioni condizionate per il carattere X = punti geografici-> un numero pari alle modalità del carattere Y= paesi del mondo
Distribuzione condizionata per Y.
Si individuano 3 distribuzioni condizionate per il carattere Y = paesi del mondo-> un numero pari alle modalità del carattere X = punti geografici 11
FREQUENZA
La moda della variabile età vale <40 -> Maggior
frequenza.La moda della variabile "risposta" vale ContrarioFREQUENZA CONGIUNTAPercentuale del numero di persone <40 che non sa rispondere:FREQUENZA CONDIZIONATAPercentuale di persone che non sa rispondere <40.DISTRIBUZIONI RELATIVECome nelle distribuzioni semplici, possiamo parlare di distribuzioni doppie di frequenze relative epercentuali. Il generico elemento interno alla tabella è espresso da:Distribuzione marginale di X Distribuzione marginale di YDistribuzione condizionata di X/Y Distribuzione condizionata di Y/XDISTRIBUZIONI PERCENTUALI 12CONNESSIONI TRA DUE VARIABILI1) Indipendenza logica, quando si suppone a priori che tra questi non possa sussistere alcunarelazione di causa ed effettoEs: non c'è relazione tra l'importazione annuale di banane e il numero annuale di incidenti.2) Dipendenza logica tra due o più caratteri quando tra questi sono note a priori relazioni dicausa ed effetto. Quando (x -> y)3) Interdipendenza: sipresuppone che tra i due caratteri non vi sia un legame unidirezionale(uno dipende dall'altro) ma bidirezionale -> i due caratteri hanno lo stesso "ruolo" nell'analisi.
Quando: (x -> y) & (y -> x)
Associazione spuria: quando due caratteri risultano dipendenti anche senza senso logico.
Due approcci di analisi statistica:
- Analisi della dipendenza (come le modalità "dipendano" da quelle di un altro carattere) -> legame unidirezionale = regressione
- Analisi dell'interdipendenza (come i caratteri abbiano tutti lo stesso ruolo) -> legami bidirezionali = correlazione
- INDIPENDENZA
Due caratteri X, Y si dicono indipendenti se le distribuzioni relative condizionate di un carattere rispetto alle modalità dell'altro sono tra loro uguali.
Distribuzione condizionata della X rispetto a Y
Distribuzione condizionata della Y rispetto a X
Vedi Freq.Condizionata 13
L'indipendenza può essere:
- in generale (o in
(distribuzione)- in media
INDIPENDENZA IN GENERALE [o in distribuzione]
L'indipendenza in generale si ha quando al variare delle modalità di un carattere restano invariate le frequenze relative della modalità dell'altro carattere.
ESEMPIO [Frequenza condizionata]
Al variare di una modalità di x (<40) restano invariate le frequenze relative dell'altro carattere (Y = parere favorevole)-> ciò deve valere per tutte le modalità di Y.
ESEMPIO [Frequenza congiunta]
CONNESSIONE
Connessione tra due caratteri di una distribuzione doppia-> l'allontanamento dall'indipendenza distributiva (indipendenza in generale).
Per misurare la connessione è necessario valutare la differenza tra- le frequenze effettive delle classi (frequenze osservate n )ij- le frequenze corrispondenti teoriche (frequenze attese n* )ij 14
CHI-QUADRATO
Sulla base delle differenze tra frequenze osservate e frequenze teoriche, si costruisce l'indicatore
diconnessione Chi-quadrato (χ2) che indica quando ci si allontana dalla situazione di indipendenza. Può essere calcolato sia per caratteri quantitativi, sia per caratteri qualitativi. È sempre positivo e tende ad aumentare al crescere del legame tra i due caratteri. Le differenze tra le frequenze osservate e quelle teoriche si dicono contingenze: c = n - n*ij ij ij
INDICE V DI CRAMÉR 2 È l’indicatore il rapporto di Chi e il suo massimo-> è un indice di connessione normalizzato, varia tra 0 (indipendenza) e 1 (massima connessione). È uguale a 1 se c’è dipendenza o interdipendenza perfetta. H -> il numero di righe (numero modalità di X) K -> numero di colonne (numero modalità di Y) min = il valore più piccolo tra (H - 1) e (K - 1)
ESERCIZIO ● Non c’è connessione ● Non c’è interdipendenza 2 N.B. Chi = 0 quando c’è interdipendenza. Calcolo delle indipendenze n* (vedi
prima)ij-> Tabella delle indipendenze n* Le marginali rimangono fisse!!ij Notiamo come i valori di n* sono diversi da nij ij-> non c’è interdipendenza.2Ora possiamo calcolare il Chi (vedi prima)-> la differenza tra le frequenze osservate (n ) e le frequenze teoriche (n* )ij ij 152)
DIPENDENZAUn carattere Y dipende perfettamente da X quando a ogni modalità di X è associata una solamodalità di Y-> quando in una tabella doppia per ogni i c’è un solo j per il quale n ≠ 0.ijIl carattere Y dipende perfettamente da X:ad ogni modalità di X corrisponde sempre unasola modalità di Y.N.B. Non vale viceversa-> alla modalità y corrispondono x e x .3 2 3Questo è un caso di relazione unidirezionale-> dalla conoscenza della modalità di un carattere è possibile prevedere la modalità dell’altroma non il contrario.3) INTERDIPENDENZASi dice interdipendenza perfetta se ad ogni
modalità di uno dei due caratteri corrisponde una e una sola modalità dell'altro carattere e viceversa.
Considerando una tabella doppia, la condizione di interdipendenza perfetta può valere solo nel caso in cui la tabella è quadrata (numero di righe uguale al numero di colonne).
ASSOCIAZIONE SPURIA: è un legame statistico empirico che si verifica tra due caratteri logicamente indipendenti.
ESEMPIO: collettivo di 90 famiglie. Le frequenze congiunte mostrano che i due caratteri sono dipendenti.
Si può concludere che il carattere- Frequenza al ristorante interagisce direttamente con- Numero di case possedute? -> Non sembra molto logico.
Se il legame associativo tra due caratteri non è spurio, se ne può affrontare lo studio secondo due ottiche: la dipendenza e l'interdipendenza.
REGRESSIONE: La regressione studia la dipendenza in media tra fenomeni cercando una funzione che esprime tale dipendenza in media.
Regressione lineare
osservati yx e i valori teorici y* calcolati dalla retta di regressione. In altre parole, cerca di trovare la retta che minimizza la distanza tra i punti osservati e i punti previsti dalla retta. Per calcolare la retta di regressione, utilizziamo la formula: y = B + OB * x Dove: - y è la variabile dipendente - x è la variabile indipendente - B è l'intercetta, ovvero il valore di y quando x è uguale a 0 - OB è il coefficiente angolare, che rappresenta la variazione media di y quando x aumenta di un'unità Nel grafico, la linea gialla rappresenta il grafico di dispersione dei dati, mentre la linea rossa rappresenta la retta di regressione, che rappresenta in media la dipendenza di y da x. Utilizzando il metodo dei minimi quadrati, calcoliamo i valori teorici y* e li confrontiamo con i valori osservati yx per trovare la retta che meglio si adatta ai dati. Questo metodo è chiamato "minimi quadrati" perché cerca di minimizzare la somma dei quadrati delle differenze tra i valori osservati e i valori previsti dalla retta. In conclusione, lo studio della dipendenza tra le variabili dipendenti e indipendenti viene effettuato attraverso la regressione lineare, che utilizza il metodo dei minimi quadrati per calcolare la retta di regressione.teoricisulla retta di regressione. Le distanze D, per rappresentare la retta di regressione, sono state minimizzate= tracciando una qualunque retta nel grafico si otterranno delle distanze tra i valori osservati e i punti sulla retta sempre maggiori rispetto alle distanze D. La retta di regressione deve esprimere al meglio la dipendenza in media di y da x, e quindi deve essere il più vicina possibile ai valori osservati. 17CORRELAZIONE Nella scorsa lezione abbiamo analizzato il caso in cui le variabili sono indipendenti l'una dall'altra e abbiamo studiato la possibile dipendenza di y da x attraverso la regressione. Interdipendenza tra due variabili -> quando due variabili dipendono l'una dall'altra (x -> y) (y -> x) La correlazione studia l'interdipendenza tra due fenomeni quantitativi. Non sapendo quale variabile dipende da quale, consideriamo i due coeff. di regressione e ne facciamo la media geometrica: b = quanto varia in media y al variare di xunità di x;1● b = quanto varia in media x al variare di un'unità di y.
2COEFFICIENTE DI BRAVAIS-PEARSON
r = -1 Relazione inversa; massima discordanza➔ xy
r = 0 Incorrelazione➔ xy
r = +1 Relazione diretta; massima concordanza➔ xy
CONCORDANZA e DISCORDANZA
1) Al valore più piccolo di x corrisponde il valore più piccolo di y, e viceversa.
2) Al valore più piccolo di x corrisponde il valore più grande di y, e viceversa.
18ESERCIZIO Me = 72,5x
Me = 62,75y
C'è una concordanza elevata tra i punti in classifica e i gol fatti (logico!).
COVARIANZA e CODEVIANZA
*Di per sé, la Devianza è una codevianza della x per se stessa.
CASO SEMPLICE [...]
b = 1.1 y = risparmio annuo famiglie (mila €)
a = 2.5 x = n°componenti famiglia
a = 1.1 In una famiglia senza componenti (x = 0) si risparmiano 2500€-> non ha senso a fini pratici
b = 2.5 Dal campione osservato risulta che all'aumentare di un componente, unafamigliarisparmia in media 110€ in più all’anno.
19BONTÀ D’ADATTAMENTOOra verifichiamo la bontà di adattamento di questa retta di regressione-> se e quanto è utile a rappresentare il fenomeno osservato.
Dev. Totale 2DEV (y) = ∑ (y - y)i 2=DEV (R) = ∑ (y * - y)i 2+DEV (E) = ∑ (y - y *)iDEV(y) = DEV(R) + DEV (E)Valutiamo la bontà dell’adattamento del modello di regressione ai dati osservati attraverso l’indice dideterminazione.2● R = 0 -> il