Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Relazioni tra caratteri in una tabella a doppia entrata
La varianza within è uguale a zero quando la varianza between è uguale a zero, quando tutte le varianze condizionate sono uguali a zero e le medie sono uguali, ovvero quando la variabile è degenere. La varianza between rappresenta la variabilità fra le medie.
È importante notare che dalle variabili statistiche marginali non è possibile, tranne nel caso speciale di indipendenza, ricostruire la tabella a doppia entrata delle frequenze congiunte. Al contrario, dalle variabili statistiche condizionate è possibile ricavare la tabella a doppia entrata delle frequenze congiunte se si conoscono le frequenze marginali.
Come abbiamo potuto vedere con questo esempio, si può ricreare la tabella tramite le variabili statistiche condizionate.
Pag. 17 a 21
Indipendenza tra caratteri
L'assenza di talirelazioni denota una "indipendenza" tra caratteri. In statistica si studiano vari tipi di "indipendenza":
- Indipendenza stocastica
- Indipendenza in media
- Incorrelazione
Indipendenza stocastica
Possiamo vedere i cambiamenti delle distribuzioni condizionate relative e assolute e constatare che le distribuzioni condizionate relative sono uguali, ovvero non dipendono dalla variabile condizionante. X e Y si dicono in questo caso "stocasticamente indipendenti": tutte le frequenze condizionate relative sono uguali tra loro e uguali alle frequenze relative marginali.
Tabella delle frequenze teoriche
La tabella delle frequenze teoriche è un criterio matematico per stabilire se una tabella sia formata da due caratteri indipendenti o meno. Il criterio su cui si basa ciò è basato sulla costruzione di una tabella teorica che si calcola a partire delle frequenze marginali.
Esempio di costruzione di una tabella teorica (in nero)
verranno segnati i valori pre-esistenti e in rosso quelli che successivamente utilizzeremo per il calcolo della tabella tramite le formule viste prima):Pag. 18 a 21
Come possiamo vedere la tabella teorica non è uguale alla tabella iniziale ma alcuni valori cambiano; per di più presentano numeri con la virgola nonostante ci siano frequenze assolute. Questo non accade nel caso di variabili stocastimante indipendenti.
Teorema di fattorizzazione: condizione necessaria e sufficiente affinché X e Y siano indipendenti stocasticamente è che le frequenza osservate coincidano con le frequenze teoriche (le due tabelle devono essere uguali).
Questo è l'eccezione alla regola citata prima: dalle variabili statistiche marginali non è possibile, tranne nel caso speciale di indipendenza, ricostruire la tabella a doppia entrata delle frequenze congiunte.
Osservazioni importanti per svolgere gli esercizi sulla indipendenza stocastica:
1. Condizione simmetrica: X
indipendente stocasticamente a Y ↔ Y indip. stoca. a X2. Frequenze teoriche assolute non sono sempre valori interi3. Presenza di zeri nella tabella le due variabili non sono indipendenti (sono dipendenti)4. Proporzionalità delle frequenze assolute: c’è indipendenza stocastica se siamo in presenza di una tabellacon una relazione proporzionale tra righe e/o colonne (come nell’esempio fatto all’inizio dove la secondariga era il triplo della prima, e la terza il doppio della seconda).
Massima dipendenza funzionale
La massima dipendenza funzionale è la situazione opposta alla indipendenza; quindi possiamo avere 2 estremi inrelazione ad una tabella a doppia entrata:
- Condizione di massima dipendenza funzionale se: la distanza tra tabella iniziale e teorica è massima
- Condizione di indipendenza stocastica se: la distanza tra tabella iniziale e teorica è minima (= 0)
Un carattere Y è dipendente funzionalmente da X ; y = g(x)
Ad ogni x corrisponde un solo y: ovvero ad ogni riga deve corrispondere un solo valore di Y (come nella tabella qui a fianco)
K ≤ h: in questa tabella ad esempio si dice che Y è dipendente funzionalmente da X (K < h) ma non si può dire che X è dipendente funzionalmente da Y (h non è ≤ k ma è >); non è invertibile.
Graficamente quando non si ha alcuna linea verticale: nel caso di linea verticale non si avrà una funzione e dunque non è possibile la dipendenza funzionale.
In questo secondo esempio possiamo vedere che X è dipendente funzionalmente da Y; x = f(y)
Ad ogni y corrisponde un solo x: per ogni colonna abbiamo una sola x
h ≤ k:
Gli esempi sopra riportati sono esempi nei quali la dipendenza funzionale è univoca e ovviamente è possibile avere una dipendenza funzionale per entrambe le variabili. La dipendenza in questo caso verrà chiamata biunivoca.
quando la tabella è quadrata e y= g(x) e x= g (y): Ad ogni x corrisponde un solo y e viceversa ad ogni y corrisponde un solo x ij j i h = k Dunque, all'interno della tabella avremo una frequenza diversa da 0 per ogni riga e per ogni colonna, anche se non necessariamente sulla diagonale. Pag. 19 a 21 Studio della dipendenza Una volta definiti i concetti limite di indipendenza e massima dipendenza si vogliono studiare le situazioni intermedie. La dipendenza tra caratteri si può studiare tramite: Connessione (principalmente per caratteri qualitativi) Modelli di regressione (solo per caratteri quantitativi) per descrivere analiticamente un carattere in funzione dell'altro. Connessione e sue misure La connessione equivale alla non indipendenza stocastica ovvero, la mutabile/variabile statistica doppia (X , Y) è caratterizzata da condizionate non uguali. Lo studio della connessione serve principalmente a capire quanto siamo vicini o lontani allaindipendenza stocastica o dipendenza funzionale. Gli indici di connessione possono essere definiti in 2 modi distinti:
- Misura della variabilità fra distribuzioni
- Misura della distanza dalla indipendenza (quella che faremo noi)
Per calcolare la misura della distanza tra le due tabelle andrò a crearmi una terza tabella che prenderà il nome di “tabella di contingenza” i cui valori al suo interno vengono calcolati tramite la differenza dei valori all’interno delle due tabelle messe a confronto (tabella iniziale e tabella teorica). L'indice, che noi utilizzeremo per analizzare la distanza, sarà basato sulle contingenze al quadrato (c): se notiamo le contingenze sono come degli scarti e elevare al quadrato uno scarto, come abbiamo già visto in precedenza, lo facciamo per trovare delle informazioni.
Indice chi-quadrato di Pearson: Come abbiamo anticipato un attimo fa, esiste un indice (indice assoluto) basato sui valori delle contingenze e
alle frequenze teoriche. Riprendendo ora l'esempio di prima e ritrascrivendo le tabelle che andremo a prendere in considerazione, avremo:Pag. 20 a 21
Una volta che abbiamo trovato l'indice assoluto o anche chiamato Chi-quadrato (calcolato quindi la distanza tra tabella teorica e osservata) dobbiamo capire se questo è numero alto o basso, ovvero: sono vicino o lontano alla dipendenza?
Per rispondere a questa domanda andremo a calcolare la connessione tramite l'indice normalizzato di Pearson, ovvero con la formula riportata qui di fianco a sinistra. Nel nostro caso abbiamo trovato 0,2079 ma è basso o alto?
Per capirlo bisogna calcolare la dipendenza massima che si ha trovando il numero dei dati per il valore minimo tra il numero delle varie modalità - 1; in questo caso ad esempio avevamo che il minimo era 3 dunque, il massimo di dipendenza era (dipendenza funzionale) 3 - 1 = 2 x 30 = 60.
Svolgendo poi i calcoli abbiamo trovato 0,2079 che si avvicina alle frequenze teoriche.
molto di più a 0 che ad 1 e quindi è a bassa connessione/dipendenza. Pag. 21 a 21 Statistica – Parziale 2 Modelli di regressione: la dipendenza in media Abbiamo visto nello scorso parziale come la connessione è lo strumento che ci aiuta a studiare la relazione soprattutto tra 2 variabili qualitative numeriche. La regressione è un problema asimmetrico (X dipende da Y o Y dipende da X) e, a differenza della connessione, si può calcolare solo per caratteri quantitativi. La regressione è uno studio di una funzione e spiega nel modo migliore la relazione tra 2 variabili numeriche. Dati questi valori della tabella, possiamo fare una rappresentazione grafica ma per farlo andiamo ad aggiungerci dei colori diversi per ogni modalità e dei colori differenti in base alla grandezza delle distribuzioni di quest'ultima: più grande è il cerchio, più grande sarà il valore all'interno della tabella. A questo grafico oraaggiungiamo una linea tratteggiata che andrà a rappresentare la media marginale di y (M(Y)), come viene mostrato nel grafico di sopra. Però possiamo vedere che la media marginale di Y non è un indice appropriato per tutte le modalità perché ad esempio per la modalità 1 non serve a nulla. Un indice di posizione che potrebbe sintetizzare meglio la relazione tra X e Y sono invece le media condizionate, che andremo a rappresentare con un rombo all'interno del grafico (guardare a destra). Unendo tutti quanti i rombi (medie condizionate) andremo ad avere una linea spezzata che verrà chiamata "spezzata di Regressione": essa mi rappresenta come varia la domanda (Y) al variare del prezzo (X); la loro relazione. La domanda ora è: come si fa a calcolare tutto ciò teoricamente? La spiegazione sarà riportata qui di seguito.
Medie e varianza marginali e condizionate
Data una v.s. doppia possiamo definire le seguenti variabili
univariate e gli indici che possiamo ricavare da essi:
- 2 v.s. marginali 2 medie marginali e 2 varianze marginali
- (h+k) v.s. condizionate (X I y o Y I x ) 2 v.s. medie condizionatej ie 2 v.s. varianze condizionate.
Con l'esempio di prima (dalla tabella) possiamo ad esempio calcolare gli indici marginali; dunque avremo:
Le v.s. medie condizionate sono v.s. aventi come:
- Modalità: le medie condizionate (o di YIx o di XIy)
- Frequenza: le frequenze marginali della v.s. condizionante
Pag. 1 a 14
Dunque, se andiamo a cercare quali siano gli indici con queste v.s. medie condizionate, avremo:
Notiamo che, per la proprietà di minimo della media " u (x ) " è quel valore che minimizza il costo quadratico medioY idi Y nel gruppo identificato da x :i dove con g ho indicato un qualsiasi centro di