Anteprima
Vedrai una selezione di 4 pagine su 14
Appunti, esercitazioni e spiegazione dell'esame Pag. 1 Appunti, esercitazioni e spiegazione dell'esame Pag. 2
Anteprima di 4 pagg. su 14.
Scarica il documento per vederlo tutto.
Appunti, esercitazioni e spiegazione dell'esame Pag. 6
Anteprima di 4 pagg. su 14.
Scarica il documento per vederlo tutto.
Appunti, esercitazioni e spiegazione dell'esame Pag. 11
1 su 14
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Inserisco c(una serie di valori) (per esempio, c(34,58,87,43)) e premo invio e mi

compaiono tutti i numeri inseriti nelle parentesi.

Si inserisce variabile = c(una serie di valori) (per esempio, età=c(34,58,87,43)) e

premendo invio, nell’environment comparirà il numero totale di numeri inseriti e

sotto ad età la x (cioè la variabile). In questo modo si possono utilizzare quei

valori, per esempio per calcolare la media facendo mean(variabile): mean e

seleziono il comando e inserisco <<età>> tra le parentesi e premo invio. Oppure per

calcolare la deviazione standard: sd(variabile) e premo invio.

Trasferire dati da Calc a RStudio:

Scrivere su Calc i dati e salvare come testo CSV con un nome semplice e breve e

accettare per il salvataggio.

Su RStudio cliccare su Import Dataset e cliccare la prima opzione. Si seleziona il

file di Calc creato precedentemente ed esce una finestra. Si cambia da Period a

Comma (dal punto del formato inglese, alla virgola). Si clicca su Import e compare

la tabella in alto.

Fare la media del Dataset:

mean(p$)

p = nome del dataset, che è anche nell’environment in alto a destra

$ = variabili e si sceglie la variabile di cui si vuole la media

mean(nome del file $ variabile di cui si vuole fare la media) (per esempio,

mean(p$età)) e invio

Fare la deviazione standard del Dataset:

freccia in alto della tastiera per richiamare l’operazione fatta sopra per la media e

sostituire a mean, sd

Fare la tabella della frequenza assoluta di una variabile categorica, preso un file

da Calc dove sia già stata calcolata la Fr. assoluta:

Immettere table(nome del file $ variabile di cui di vuole fare la tabella) (per

esempio, table(p$sesso)) e invio

Fare la tabella della frequenza relativa di una variabile categorica, preso un file

da Calc dove sia già stata calcolata la Fr. relativa:

freccia in alto per l’operazione fatta precedentemente e si inserisce prop.table prima

della prima parentesi di table(p$variabile di cui di vuole fare la tabella), che è uguale

a prop.table(table(nome del file $ variabile di cui di vuole fare la tabella)) (per

esempio, prop.table(table(p$sesso)) ), e invio;

per trasformare in percentuale inserire *100, dopo aver digitato la freccia in alto

sulla tastiera, e invio.

Installare programmi per lavorare con gli intervalli di confidenza, per cui serve un

pacchetto aggiuntivo:

Package e premere install; digitare <<asbio>>, <<binom>> e <<multinomialCI>> e

cliccare su install.

Intervallo di confidenza = intervallo in cui cade il valore vero della popolazione,

con una ragionevole probabilità di errore o di ragionevolezza; per vedere quanto si

è approssimato il valore vero della popolazione con il risultato dello studio.

Per stimare quanto si è approssimato il valore vero della popolazione si fa calcolare al

software gli intervalli di confidenza, come se la media campionaria fosse una media

di popolazione.

Per abilitare (attivare) un programma cliccare sul quadratino a fianco a sinistra del

programma.

Calcolare la media campionaria (mean), l’intervallo di confidenza (lower e

upper, due valori percentuali di asbio; con una certa probabilità il valore medio

si trova tra i due valori percentuali) e i rispettivi numeri decimali (nella riga

sottostante):

ci.mu.t(nome del file $ variabile) (per esempio, ci.mu.t(p$età)) e invio.

La tabella di frequenza permette di descrivere le variabili categoriche. Se si tratta di

una v. binomiale si usa il pacchetto binom e per una v. multimodale,

multinomialCI.

Calcolare la media campionaria (mean) e l’intervallo di confidenza (lower e

upper) per proporzioni:

- di una v. dicotomica: binom.extract(numero di soggetti su cui calcolare la

proporzione, numero totale di soggetti) per ogni modalità della variabile. Per

esempio, binom.extract(5,24).

- di una v. multimodale: multinomialCI(table(nome del file $ variabile),

alpha = 0.05), dove alpha è l’errore.

Variabile numerica continua >> media, non mediana

Quando i dati sono variabili categoriche ordinali, quindi non può essere fatta la

media dei valori (perché una variabile qualitativa non può essere misurata con una

misura di tendenza centrale), si farà la mediana come misura di tendenza centrale:

median(nome del file $ modalità con cui si esprime la variabile). Dove viene

calcolata la mediana campionaria (estimate) e l’intervallo di confidenza (indicato

dai due valori limite espressi in percentuale).

RStudio (statistica inferenziale)

I possibili test di statistica inferenziale sono:

Test parametrico >> v. numerica distribuita normalmente, secondo la teoria della

curva a campana di Gauss, dove la variabile è continua, e perciò numerica e non

categorica. Per verificare che la v. è distribuita normalmente si fa il test di

Shapiro.

Test non parametrico >> v. non continue, tutti gli altri casi.

Teorema limite centrale: Se si ha un campione composto da più di 30 soggetti o

osservazioni e la variabile è continua, si può fare direttamente il test

parametrico.Test per studiare il p-value:

- Un campione rispetto ad un valore = valore medio dei valori del campione

rispetto ad un valore soglia (sempre rispetto alla generalizzabilità alla

popolazione); T-test per due campioni (test parametrico) o Wilcoxon (test

non parametrico)

- Tra due campioni indipendenti = confronto di due valori di due gruppi

distinti, indipendenti; valore medio dei valori del campione in un gruppo

rispetto ad un valore soglia (sempre rispetto alla generalizzabilità alla

popolazione) e valore medio dei valori del campione di un secondo gruppo

rispetto ad un valore soglia (sempre rispetto alla generalizzabilità alla

popolazione); T-test per due campioni (test parametrico) o Wilcoxon (test

non parametrico)

- Tra due campioni appaiati = confronto di due valori di due gruppi appaiati

o dello stesso gruppo in due momenti diversi; T-test per due campioni (test

parametrico) o Wilcoxon (test non parametrico)

- A causa di un fattore = confronto di valori di più di due gruppi

indipendenti o divisi in base ad una variabile o fattore; ANOVA ad una

dimensione (test parametrico) o Test di Kruskal-Wallis (test non

parametrico)

- A causa di più di un fattore = confronto di valori di più di due gruppi

indipendenti o divisi in base a più di una variabile o un fattore; ANOVA

fattoriale.

Trovare il p-value (significatività statistica) per campioni indipendenti e v. non

continue – Wilcoxon:

Calcolare la mediana per tutte le variabili: median(nome del file $ prima

modalità [nome del file $ seconda modalità == “variabile”]). Poi, calcolare il p-

value: wilcox.test(nome del file $ prima modalità [nome del file $ seconda

modalità == “prima variabile”], nome del file $ prima modalità [nome del file $

seconda modalità == “seconda variabile”]).

p-value = probabilità di non generalizzabilità dei risultati dello studio campionario

all’intera popolazione.

p<0,05 risultato è generalizzabile

p>0,05 risultato non è generalizzabile

Trovare il p-value (significatività statistica) per campioni appaiati e v. non

continue – Wilcoxon:

Calcolare la mediana di tutte le variabili: median(nome del file $ variabile). Poi,

calcolare il p-value: wilcox.test(nome del file $ prima modalità, nome del file $

seconda modalità, paired=TRUE), l’ultimo comando nella parentesi dopo

l’ultima virgola serve per dire che i due campioni sono appaiati.

Ex. numero 5 del sito di Vittorini “3-Statistica con R”:

median(), inserendo es5$ e cliccare sul calvo tra quelli proposti e premere invio.

Calcolare anche median(es5$capelluto).

Questo esperimento ricade nella categoria di due campioni (calvi e capelluti)

appaiati (perché vengono misurati in due momenti diversi). Bisognerebbe quindi

utilizzare un test non parametrico, perché si tratta di una variabile categorica che

non può essere descritta dalla curva a campana di Gauss.

wilcox e si inserisce .test() tra i comandi proposti e si immettono i dati dei calvi e dei

capelluti tra le parentesi: (es5$calvo, es5$capelluto, paired = TRUE). Ciò che esce

premendo invio riguarda la statistica di elaborazione dei dati; ma quello che interessa

è il p-value.

Ex. numero 6 del sito di Vittorini “3-Statistica con R”:

Si inserisce median(es6$calvo) e median(es6$capelluto) e poi wilcox.test(es6$calvo,

es6$capelluto). Si ha il 10% di significatività statistica, quindi si dice marginalmente

significativo, cioè poco significativo. Aumentando il campione è possibile ridurre il

bias che ha determinato la significatività a limite.

Immettendo i dati nel formato wild (<<largo>>) sono presenti due colonne per

l’appartenenza ai due gruppi; immettendo i dati nel formato long (perché più

<<lungo>>) sono presenti due colonne, una per la posizione e un’altra per

l’appartenenza al gruppo.

Indicare i dati contenuti nel gruppo in base alla posizione delle caselle con il

formato long:

Se si immette nome del file $ posizione del dato (per esempio, es6a$posizione) e si

premere invio, ne viene fuori l’elenco della colonnina.

Se si vuole prendere una sola casella si inserisce nome del file $ posizione del dato

[numero della posizione della casella] (per esempio, es6a$posizione[5]) e si preme

invio.

Se si inserisce nome del file $ posizione del dato[c(numeri delle posizioni delle

caselle)] (per esempio, es6a$posizione [c(1,2,3,4,5)]), dove c sta per collezione, e si

preme invio, ne esce l’elenco dei valori corrispondenti alle caselle indicate

(1,2,3,4,5). La parentesi quadra permette di scegliere più indici o dati della colonna e

restituisce i valori delle corrispondenti caselle.

Per indicare le caselle di chi esprime una certa modalità:

Inserire nome del file $ nome del gruppo posizione del dato[nome del file $ nome

del gruppo del dato== "modalità"]. Inviando escono le posizioni che appartengono

a quel gruppo.

= assegnazione di un valore ad una variabile

== confronto tra due valori

Ex.:

Immettendo es6a$posizione[es6a$gruppo == "calvo"] dice chi è calvo e chi non è

calvo della distribuzione e immettendo es6a$posizione[es6a$gruppo == "capelluto"]

dice chi è capelluto e chi non è capelluto della distribuzione.

Immettendo median(es6a$posizione[es6a$gruppo == "calvo"]) e

median(es6a$posizione[es6a$gruppo == "capelluto"]), ne escono i valori della

posizione mediana delle distribuzioni dei calvi e dei capelluti, rispettivamente.

Immettendo wilco

Dettagli
Publisher
A.A. 2017-2018
14 pagine
1 download
SSD Ingegneria industriale e dell'informazione ING-INF/05 Sistemi di elaborazione delle informazioni

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher LMSNT01 di informazioni apprese con la frequenza delle lezioni di Sistema di elaborazione delle informazioni e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di L'Aquila o del prof Vittorini Pierpaolo.