Anteprima
Vedrai una selezione di 6 pagine su 23
Statistica - studio statistico sulla determinazione dei livelli di betacarotene nel sangue Pag. 1 Statistica - studio statistico sulla determinazione dei livelli di betacarotene nel sangue Pag. 2
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Statistica - studio statistico sulla determinazione dei livelli di betacarotene nel sangue Pag. 6
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Statistica - studio statistico sulla determinazione dei livelli di betacarotene nel sangue Pag. 11
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Statistica - studio statistico sulla determinazione dei livelli di betacarotene nel sangue Pag. 16
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Statistica - studio statistico sulla determinazione dei livelli di betacarotene nel sangue Pag. 21
1 su 23
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

CHOLESTEROL

BETADIET 0.016997 0.007430 2.287 0.022851 *

RETDIET -0.008198 0.018465 -0.444 0.657358←

Residual standard error: 168 on 305 degrees of freedom

Multiple R-squared: 0.1813, Adjusted R-squared: 0.1571

F-statistic: 7.504 on 9 and 305 DF, p-value: 6.31e-10

• si elimina retdiet:

> summary(regBeta2)

Call:

lm(formula = BETAPLASMA ~ AGE + SMOKSTAT + VITUSE + QUETELET +

FAT + FIBER + CHOLESTEROL + BETADIET, data = betaplasma)

Residuals:

Min 1Q Median 3Q Max

-250.16 -88. 76 -27.35 30.85 1072.54

Coefficients: Estimate Std. Error t value Pr(>|t|)

(Intercept) 319.666329 65.157734 4.906 1.51e-06 ***

AGE 0.416562 0.669769 0.622 0.534438←

SMOKSTAT1 -46.235525 28.867224 -1.602 0.110262

VITUSE1 -59.147128 19.787757 -2.989 0.003025 **

QUETELET -5.991973 1.614331 -3.712 0.000244 ***

FAT -0.363444 0.414705 -0.876 0.381505

FIBER 5.223895 2.136579 2.445 0.015050 *

CHOLESTEROL -0.115497 0.102853 -1.123 0.262346

BETADIET 0.017303 0.007389 2.342 0.019833 *

11

Federico Baratelli 712725 Progetto d’anno (2009/2010) Statistica

Residual standard error: 167.8 on 306 degrees of freedom

Multiple R-squared: 0.1808, Adjusted R-squared: 0.1593

F-statistic: 8.44 on 8 and 306 DF, p-value: 2.262e-10

• si elimina age:

summary(regBeta3)

Call:

lm(formula = BETAPLASMA ~ SMOKSTAT + VITUSE + QUETELET + FAT +

FIBER + CHOLESTEROL + BETADIET, data = betaplasma)

Residuals:

Min 1Q Median 3Q Max

-254.08 -88. 77 -28.34 35.28 1067.22

Coefficients: Estimate Std. Error t value Pr(>|t|)

(Intercept) 342.913597 53.317173 6.432 4.83e-10 ***

SMOKSTAT1 -48.341302 28.639338 -1.688 0.092440 .

VITUSE1 -59.828612 19.737656 -3.031 0.002643 **

QUETELET -6.005717 1.612567 -3.724 0.000233 ***

FAT -0.398482 0.410450 -0.971 0.332391←

FIBER 5.271974 2.133047 2.472 0.013994 *

CHOLESTEROL -0.114286 0.102731 -1.112 0.266806

BETADIET 0.017530 0.007372 2.378 0.018026 *

Residual standard error: 167.6 on 307 degrees of freedom

Multiple R-squared: 0.1797, Adjusted R-squared: 0.161

F-statistic: 9.61 on 7 and 307 DF, p-value: 8.264e-11

• si elimina fat:

summary(regBeta4)

Call:

lm(formula = BETAPLASMA ~ SMOKSTAT + VITUSE + QUETELET + FIBER +

BETADIET + CHOLESTEROL, data = betaplasma)

Residuals:

Min 1Q Median 3Q Max

-255.97 -85.35 -30.80 34.62 1072.56

Coefficients: Estimate Std. Error t value Pr(>|t|)

(Intercept) 334.991201 52.684077 6.358 7.34e-10 ***

SMOKSTAT1 -50.311125 28.564710 -1.761 0.07918 .

VITUSE1 -60.287445 19.730156 -3.056 0.00244 **

QUETELET -5.992177 1.612356 -3.716 0.00024 ***

FIBER 4.790594 2.074423 2.309 0.02158 *

BETADIET 0.017700 0.007369 2.402 0.01690 *

CHOLESTEROL -0.183554 0.073906 -2.484 0.01354 *

12

Federico Baratelli 712725 Progetto d’anno (2009/2010) Statistica

Residual standard error: 167.6 on 308 degrees of freedom

Multiple R-squared: 0.1772, Adjusted R-squared: 0.1612

F-statistic: 11.06 on 6 and 308 DF, p-value: 3.629e-11

ANALISI DEI RESIDUI

Prima analisi (variabile e residui non ancora trasformati)

Grafico di dispersione dei residui Normal Q-Q Plot

1000 1000

800 800

residui

600 600

dei

Residui osservati

400 400

200 200

Quantili

0 0

-200 -200

0 100 200 300 400 -3 -2 -1 0 1 2 3

Dati Quantili teorici

Histogram of residuals(regBeta4) > shapiro.test(residuals(regBeta4))#

Shapiro-Wilk test

0.004 Shapiro-Wilk normality test

data: residuals(regBeta4)

0.003 W = 0.7237, p-value < 2.2e-16

Densità 0.002

0.001

0.000 -200 0 200 400 600 800 1000

Residui 13

Federico Baratelli 712725 Progetto d’anno (2009/2010) Statistica

Trasformazione della risposta betaplasma:

BETAPLASMAlog=log(BETAPLASMA)

hist(BETAPLASMAlog,prob=T)

curve(dnorm(x,mean=5,sd=0.65),xlim=c(-2,10),type="l",add=T,col=2)

Histogram of BETAPLASMAlog

0.5

0.4

Density 0.3

0.2

0.1

0.0 3 4 5 6 7

BETAPLASMAlog

Trasformazione logaritmica della variabile: risultati della regressione

> summary(regBetalog)

Call:

lm(formula = BETAPLASMAlog ~ VITUSE + QUETELET + FIBER + SMOKSTAT +

CHOLESTEROL + BETADIET, data = betaplasma)

Residuals:

Min 1Q Median 3Q Max

-1.94714 -0.37266 -0.02515 0.40785 2.00141

Coefficients: Estimate Std. Error t value Pr(>|t|)

(Intercept) 5.756e+00 2.122e-01 27.130 < 2e-16 ***

VITUSE1 -1.931e-01 7.964e-02 -2.425 0.01588 *

QUETELET -3.138e-02 6.484e-03 -4.840 2.06e-06 ***

FIBER 2.171e-02 8.341e-03 2.602 0.00970 **

SMOKSTAT1 -3.008e-01 1.150e-01 -2.616 0.00935 **

CHOLESTEROL -8.840e-04 3.106e-04 -2.846 0.00472 **

BETADIET 5.411e-05 2.974e-05 1.819 0.06983 .

Residual standard error: 0.6739 on 307 degrees of freedom

Multiple R-squared: 0.2032, Adjusted R-squared: 0.1876

F-statistic: 13.05 on 6 and 307 DF, p-value: 3.74e-13

14

Federico Baratelli 712725 Progetto d’anno (2009/2010) Statistica

Analisi dei residui della variabile trasformata:

Dispersione dei residui della variabile logaritmica Normal Q-Q Plot

logaritmica

2 2

variabile

1 1

della

Residui residui

0 0

dei

osservati

-1 -1

Quantili

-2 -2

4.0 4.5 5.0 5.5 -3 -2 -1 0 1 2 3

Dati Quantili teorici

Histogram of residuals(regBetalog)

0.7

0.6 > shapiro.test(residuals(regBetalog))

Shapiro-Wilk normality test

0.5 data: residuals(regBetalog)

0.4

Densità W = 0.9887, p-value = 0.01559

0.3

0.2

0.1

0.0 -2 -1 0 1 2

Residui della variabile logaritmica 15

Federico Baratelli 712725 Progetto d’anno (2009/2010) Statistica

Analisi delle variabili indipendenti considerate singolarmente

Consumo di vitamine:

Correlazione tra consumo di vitamine e livello di betacarotene

7

betacarotene) 6

5

di

log(ivello 4

3 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0

Uso di vitamine: 0=SI 1=NO

Indice di massa corporea:

Correlazione tra indice di massa corporea e livello di betacarotene

7

betacarotene) 6

5

di

log(livello 4

3 15 20 25 30 35 40 45 50

Indice di massa corporea

16

Federico Baratelli 712725 Progetto d’anno (2009/2010) Statistica

Consumo di fibre:

Correlazione tra consumo di fibre e livello di betacarotene

7

betacarotene) 6

5

di

log(livello 4

3 5 10 15 20 25 30 35

Consumo di fibre

Fumatore o meno:

Correlazione tra esser fumatore o meno e livello di betacarotene

7

betacarotene) 6

5

di

log(livello 4

3 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0

Fumatori: 1=NO O HA SMESSO 2=SI

17

Federico Baratelli 712725 Progetto d’anno (2009/2010) Statistica

Colesterolo:

Correlazione tra tasso di colesterolo e livello di betacarotene

7

betacarotene) 6

5

di

log(livello 4

3 200 400 600 800

Colesterolo assunto

Microgrammi di betacarotene assunto giornalmente:

Correlazione tra mg betacarotene assunto e livello di betacarotene

7

betacarotene) 6

5

di

log(livello 4

3 0 2000 4000 6000 8000 10000

Microgrammi di betacarotene assunto giornalmente

18

Federico Baratelli 712725 Progetto d’anno (2009/2010) Statistica

Script utilizzato

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~#

# Importazione dati #

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~#

plasmaretinol=read.table("dati forniti.txt",sep="\t",header=T)

names(plasmaretinol)

head(plasmaretinol) # mostra le prime sei righe del dataframe

str(plasmaretinol) # struttura del dataframe

attach(plasmaretinol) #tutte le variabili contenute nel dataframe sono

accessibili direttamente

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~#

# Trasformazione delle variabili categoriali #

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~#

plasmaretinol$SEX=factor(plasmaretinol$SEX)

plasmaretinol$SMOKSTAT=factor(plasmaretinol$SMOKSTAT)

plasmaretinol$VITUSE=factor(plasmaretinol$VITUSE)

str(plasmaretinol)

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~#

# Influenza delle variabili categoriali sul betaplasma #

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~#

# sesso:

sex <- lm(BETAPLASMA ~ SEX, plasmaretinol)

summary(sex)

anova(sex)

TukeyHSD(aov(BETAPLASMA~SEX,data=plasmaretinol))

# fumatore o meno:

fumo <- lm(BETAPLASMA ~ SMOKSTAT, plasmaretinol)

summary(fumo)

anova(fumo)

TukeyHSD(aov(BETAPLASMA~SMOKSTAT,data=plasmaretinol))

# assunzione di vitamine:

vit <- lm(BETAPLASMA ~ VITUSE, plasmaretinol)

summary(vit)

anova(vit)

TukeyHSD(aov(BETAPLASMA~VITUSE,data=plasmaretinol))

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~#

# Analisi della varianza a più fattori (interazioni) #

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~#

ginter <- lm(formula = BETAPLASMA ~ SEX + SMOKSTAT + VITUSE + SEX * SMOKSTAT +

SEX * VITUSE + SMOKSTAT * VITUSE, data = plasmaretinol)

summary(ginter)

anova(ginter)

## ora che si sa quali variabili categoriali influenzano la variabile ##

## dipendente di interesse si procede con la regressione considerando ##

## tale fatto, e preparando il dataframe in modo opportuno ##

19

Federico Baratelli 712725 Progetto d’anno (2009/2010) Statistica

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~#

# Multicollinearità #

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~#

pairs(plasmaretinol) # grafico che evidenzia la multicollinearità

cor(plasmaretinol)

multi=lm(BETAPLASMA~.-SEX -SMOKSTAT -VITUSE-RETPLASMA,data=plasmaretinol)

summary(multi)

X<-model.matrix(multi)[,-1] # matrice di covarianza

head(X)

# (installazione della libreria "faraway"):

#install.packages("faraway")

library(faraway)

vif(X) # variance inflaction factor

## si conclude che è possibile eliminare la variabile ##

## calories perchè è collineare con fat ##

# si verifica che l'R2 non cali:

multi2=lm(BETAPLASMA~.-SEX -SMOKSTAT -VITUSE-RETPLASMA-

CALORIES,data=plasmaretinol)

summary(multi2)

## effettivamente non è calato, quindi è lecito ##

## eliminare la variabile calories ##

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~#

# Regressione lineare multipla sul betaplasma #

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~#

betaplasma=read.table("datiBetaplasma.txt",sep="\t",header=T)

names(betaplasma)

head(betaplasma)

str(betaplasma)

attach(betaplasma)

##### - Trasformazione delle variabili categoriali - #####

betaplasma$SEX=factor(betaplasma$SEX)

betaplasma$SMOKSTAT=factor(betaplasma$SMOKSTAT)

betaplasma$VITUSE=factor(betaplasma$VITUSE)

str(betaplasma)

## Dall'analisi anova si è visto che è possibile eliminare la ##

## variabile categoriale sex, perchè nopn influenza il betaplasma ##

Dettagli
Publisher
A.A. 2009-2010
23 pagine
3 download
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Federico88 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Politecnico di Milano o del prof Guglielmi Alessandra.