Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Problemi nel software e nelle stime
T Tb X X X= y-> il software da errore. Le stime non esistono perché il rango dellamatrice X non è pieno (perché le covariate sono dipendenti) e laformula non sta in piedi perché X non è invertibile.
Un altro problema forte (per cui non abbiamo strumenti e quindi non affrontiamo) è il fattoche gli errori siano correlati con le covariate -> noi assumeremo sempre che sianoincorrelate, altrimenti l’effetto del predittore omesso finisce negli errori che quindi sonocorrelati alle covariate inserite. Queste situazioni accadono quando abbiamo variabilidifficili da controllare (risultati a scuola: resilienza e perseveranza di una persona).
Il primo strumento che noi proporremo per diagnosticare i possibili problemi è unavalutazione grafica. Questi plot sono: residui vs fittati, se l’interpolante è piatta la linearitàè rispettata; residui std vs fittati, per vedere se ho omoschedasticità, guardando
semprese l'interpolante è piatta; plot per la normalità dei residui (abbastanza inutile tanto non perdiamo proprietà); residui vs leva per vedere la presenza di outliers. La presenza di outlier è un sotto-caso della situazione di variabilità di residui non constate (residuo di un outliers è molto elevato). Inoltre, un outlier elevato comporta anche la non linearità.
Quando, invece, gli errori hanno varianza diversa rispetto alla teoria ma costante, le altre proprietà degli stimatori vengono rispettate perché la media degli stimatori rimane attorno al vero parametro: quindi mantengono la correttezza e interverremo solo sullo standard error.
Costruzione di un modello robusto
- Controllare i valori mancanti;
- Multicollinearità;
- Outlier e la loro influenza;
- Linearità;
- Scelta delle covariate e model selection.
Valori mancanti
Sono un problema piuttosto consistente per gli analisti perché non
c'è stato un accordo per trattarli. A partire dagli anni '80, due autori hanno organizzato un po' la teoria, le definizioni e le soluzioni per trattarli. I dati mancanti sono un problema sulle covariate e NON sulla variabile target. I dati mancanti sono di vari tipi:
- Dato mancante completamente a random (MCAR): il valore non dipende da variabili osservate nel nostro dataset (esempio in un'analisi di laboratorio, non c'è una misurazione perché lo strumento è rotto). È la situazione migliore perché questo dato mancante non inficia la stima. Questa situazione non capita quasi mai;
- Dato mancante a random (MAR): la mancanza del dato dipende dalle nostre covariate (nell'esempio del laboratorio, manca la pressione di alcuni pazienti con una malattia). Si conoscono le covariate per cui è più probabile che si presenti un dato mancante;
- Dato mancante non a random (MNAR): la mancanza del dato dipende da...
variabili nonosservabili nel nostro dataset (misurando il livello di alcol a libera scelta, la mancanza del dato può dipendere dal fatto che chi sa di aver bevuto molto non si presenta; oppure, nel caso del reddito, i dati mancano per omissione di risposta). Diciamo che il dato mancante dipende dal livello della variabile che sto misurando.
Possiamo intervenire andando a ipotizzare che il dato mancante sia di tipo MAR. Ovviamente non esistono dei test per dirci che tipo di dati random abbiamo. Per riempire i buchi parliamo di imputazione di dati (solo nel caso random). Prima di andare a parlare di imputazioni di dato dobbiamo andare a vedere la struttura dei dati mancanti. Se non c'è un particolare motivo per cui i soggetti non rispondono alla domanda (dati sensibili), allora potremmo ipotizzare che ci troviamo nel tipo MCAR e quindi eliminare le righe con i dati mancanti.
Ci sono diversi modi per imputare i dati random:
- Metodi naïve: sostituire il dato mancante con
degli indici di sintesi (media, mediana…). Il limite di questo approccio è ridurre artificialmente la variabilità dellacovariata (sostituisco un valore mancante con uno centrale) e mi dovrei occupare diuna variabile alla volta in un sistema multivariato, non sfruttando quella che è lastruttura di covarianza tra le variabili;
Metodi non-naïve: metodi di imputazione multivariata. Abbiamo due strade:
- Usando i modelli: la variabile che ha più valori mancanti viene utilizzata comedipendente e le atre covariate come indipendenti, costruiamo un modello e irisultati vengono inseriti nella covariata con più dati mancanti. In questo metodonon viene considerata la variabile target;
- Fully conditional method (FCS): è una generalizzazione del metodo precedenteche viene fatto più volte. Il dato mancante viene riempito con la sintesi dei valoritrovati da k modelli, dove k è scelto a caso. I k modelli vengo fittati su k
campionidiversi del nostro dataset (uno per modello) per poi farne una sintesi (che di solito è la media ma non è molto robusta). Se k = 1 ricado nel metodo precedente. Il pacchetto di R che si occupa di questa analisi è MICE. Il pacchetto MICE usa il metodo pmm per fare una sintesi: per ogni valore mancante xj, prende 10 valori presenti nel dataset che sono più vicini (in termini di distanza euclidea) alla previsione xj^ (fatta dal modello) e sceglie a caso uno di questi 10 per sostituire il valore mancante xj. L'analisi e l'imputazione dei dati mancanti è il primo passo da svolgere per qualsiasi progetto. Le variabili che hanno più di 25% di dati mancanti vanno droppate.
Settimana 2
Lezione 4 – 11/10- Pacchetto Utile in R
Il pacchetto dplyr ci aiuta a manipolare in modo più facile i dataset. Abbiamo 4 operazioni principali: filter, per filtrare delle righe utilizzando i soliti comandi logici; select, ci consente di selezionare
colonne; mutate, per creare nuove variabili; arrange, per ordinare. Altri comandi importanti sono summarise, per le statistiche descrittive, e group by permette di svolgere report, raggruppando le righe per categorie di group by. Il risultato di queste operazioni è un tibble, versione ottimizzata dal punto di vista della visualizzazione di un data frame.
Altre due funzioni moto utili, quando abbiamo dati longitudinali, sono spread (da un dataset long otteniamo diverse colonne andando a disgregare le linee appaiate) e gather (fonde i dati in diverse colonne in un unico data frame). Usare il formato long al posto di quello wide è utile a software perché sa che gli id delle righe si ripetono e quindi c'è una correlazione tra osservazioni.
- Appendice dati mancanti
Abbiamo visto le soluzioni per i dati mancanti MCAR e MAR. Abbiamo detto che i metodi naïve non sono molto adatti ad imputare i dati mancanti. La debolezza di questo metodo cade qualora ci troviamo
davanti a dati MCAR. Nell'altro caso, invece, i metodi naïve non possono funzionare perché nella fase di imputazione dobbiamo tenere conto quelle che sono le relazioni tra le osservazioni. Guardare ed imputare i dati mancanti del dataset è la prima cosa da fare. Una volta che abbiamo guardato i dati mancanti, dobbiamo decidere se imputarli (per non perdere le righe) oppure rischiare di costruire un modello solo su alcune righe. Non esistono dei veri test che ci dicono se i missing sono di tipo MCAR o MAR. Però si possono fare dei modelli logistici in cui vediamo se una covariata spiega la mancanza dei valori: se il modello logistico spiega bene i dati, allora vuol dire che la covariata influenza sulla mancanza dei dati e quindi non ci troviamo nel caso MCAR. - Collinearità - La multicollinearità è uno dei problemi più gravi nella parte di stima del modello perché, se portata a livelli estremi, le stime non esistono. Le stime nonesistono perché si basano sul rango pieno della matrice che, in caso di correlazione tra covariate non c’è. Il problema di collinearità emerge anche negli standard error perché la matrice di varianze e covarianze contiene il termine t(X)X, ciò porta i nostri stimatori a non essere efficienti. La collinearità gonfia in modo spropositato gli standard error. Ad esempio, se prendiamo la formula con due variabili esplicative (esempio più evidente), se r tende ad 1 (perfetta correlazione), il denominatore tende a 0 e lo standard error tende a infinito. Quali sono gli warnings che dimostrano collinearità?- Gli standard error sono grandissimi;
- Abbiamo degli R quadro grandi ma nessuna variabile è significativa;
- Guardare la matrice di correlazione e vedere se presenta valori particolarmente alti.
è solo bivariata (se x1 non è correlata a x2, non èdetto che non sia correlata anche con x2+x3).
Diagnostica: per diagnosticare la multicollinearità regrediamo ogni xj sulle altre variabili e calcoliamo la tolleranza (1-R quadro) che speriamo sia alta. Se è sotto lo 0.3 la variabile va eliminata, unica soluzione per eliminare questo problema. Un altro indicatore usato è il VIF (reciproco della tolleranza).
Come gestisce R le variabili collineari? Se nell’output del modello trovo diversi NA di fianco ad una variabile, vuol dire che l’ha trovata collineare alle altre e quindi la elimina direttamente. Il pacchetto che consente di verificare queste condizioni è la libreria mctest.
Ovviamente possiamo parlare di collinearità anche tra variabili qualitative -> si parla di associazione. Per vedere se c’è associazione usiamo il chi-quadrato: se il chi-quadrato normalizzato è maggiore di 0.8-0.9 si toglie una
delle due variabili. Solo unaraccomandazione: quando vediamo un problema di collinearità non eliminiamo tutteinsieme le variabili con dei problemi, ma una alla volta. Lezione 5 – 12/10- Eteroschedasticità - Sebbene la distribuzione di y dato x sia lineare (la retta specifica bene le medie di y|x)abbiamo una diversa varianza delle osservazioni. Quali sono le conseguenze del fatto che gli errori non siano a varianza costante? Gli stimatori NON sono efficienti -> lestime rimangono corrette, le formule per ilcalcolo degli standard error sono sbagliatee quindi lo standard error è calcolato inmodo erroneo e l’inferenza è da buttare: gliintervalli di confidenza e le ipotesi dei testbasati sugli standard error sono sbagliati. Alla fine del corso andremo a vedere un modo per andare a calcolare gli standard errorsenza fidarci delle stime. Le stime degli standard error sono sbagliate perché nel caso di eteroschedasticità, il