vuoi
o PayPal
tutte le volte che vuoi
Inserisco c(una serie di valori) (per esempio, c(34,58,87,43)) e premo invio e mi
compaiono tutti i numeri inseriti nelle parentesi.
Si inserisce variabile = c(una serie di valori) (per esempio, età=c(34,58,87,43)) e
premendo invio, nell’environment comparirà il numero totale di numeri inseriti e
sotto ad età la x (cioè la variabile). In questo modo si possono utilizzare quei
valori, per esempio per calcolare la media facendo mean(variabile): mean e
seleziono il comando e inserisco <<età>> tra le parentesi e premo invio. Oppure per
calcolare la deviazione standard: sd(variabile) e premo invio.
Trasferire dati da Calc a RStudio:
Scrivere su Calc i dati e salvare come testo CSV con un nome semplice e breve e
accettare per il salvataggio.
Su RStudio cliccare su Import Dataset e cliccare la prima opzione. Si seleziona il
file di Calc creato precedentemente ed esce una finestra. Si cambia da Period a
Comma (dal punto del formato inglese, alla virgola). Si clicca su Import e compare
la tabella in alto.
Fare la media del Dataset:
mean(p$)
p = nome del dataset, che è anche nell’environment in alto a destra
$ = variabili e si sceglie la variabile di cui si vuole la media
mean(nome del file $ variabile di cui si vuole fare la media) (per esempio,
mean(p$età)) e invio
Fare la deviazione standard del Dataset:
freccia in alto della tastiera per richiamare l’operazione fatta sopra per la media e
sostituire a mean, sd
Fare la tabella della frequenza assoluta di una variabile categorica, preso un file
da Calc dove sia già stata calcolata la Fr. assoluta:
Immettere table(nome del file $ variabile di cui di vuole fare la tabella) (per
esempio, table(p$sesso)) e invio
Fare la tabella della frequenza relativa di una variabile categorica, preso un file
da Calc dove sia già stata calcolata la Fr. relativa:
freccia in alto per l’operazione fatta precedentemente e si inserisce prop.table prima
della prima parentesi di table(p$variabile di cui di vuole fare la tabella), che è uguale
a prop.table(table(nome del file $ variabile di cui di vuole fare la tabella)) (per
esempio, prop.table(table(p$sesso)) ), e invio;
per trasformare in percentuale inserire *100, dopo aver digitato la freccia in alto
sulla tastiera, e invio.
Installare programmi per lavorare con gli intervalli di confidenza, per cui serve un
pacchetto aggiuntivo:
Package e premere install; digitare <<asbio>>, <<binom>> e <<multinomialCI>> e
cliccare su install.
Intervallo di confidenza = intervallo in cui cade il valore vero della popolazione,
con una ragionevole probabilità di errore o di ragionevolezza; per vedere quanto si
è approssimato il valore vero della popolazione con il risultato dello studio.
Per stimare quanto si è approssimato il valore vero della popolazione si fa calcolare al
software gli intervalli di confidenza, come se la media campionaria fosse una media
di popolazione.
Per abilitare (attivare) un programma cliccare sul quadratino a fianco a sinistra del
programma.
Calcolare la media campionaria (mean), l’intervallo di confidenza (lower e
upper, due valori percentuali di asbio; con una certa probabilità il valore medio
si trova tra i due valori percentuali) e i rispettivi numeri decimali (nella riga
sottostante):
ci.mu.t(nome del file $ variabile) (per esempio, ci.mu.t(p$età)) e invio.
La tabella di frequenza permette di descrivere le variabili categoriche. Se si tratta di
una v. binomiale si usa il pacchetto binom e per una v. multimodale,
multinomialCI.
Calcolare la media campionaria (mean) e l’intervallo di confidenza (lower e
upper) per proporzioni:
- di una v. dicotomica: binom.extract(numero di soggetti su cui calcolare la
proporzione, numero totale di soggetti) per ogni modalità della variabile. Per
esempio, binom.extract(5,24).
- di una v. multimodale: multinomialCI(table(nome del file $ variabile),
alpha = 0.05), dove alpha è l’errore.
Variabile numerica continua >> media, non mediana
Quando i dati sono variabili categoriche ordinali, quindi non può essere fatta la
media dei valori (perché una variabile qualitativa non può essere misurata con una
misura di tendenza centrale), si farà la mediana come misura di tendenza centrale:
median(nome del file $ modalità con cui si esprime la variabile). Dove viene
calcolata la mediana campionaria (estimate) e l’intervallo di confidenza (indicato
dai due valori limite espressi in percentuale).
RStudio (statistica inferenziale)
I possibili test di statistica inferenziale sono:
Test parametrico >> v. numerica distribuita normalmente, secondo la teoria della
curva a campana di Gauss, dove la variabile è continua, e perciò numerica e non
categorica. Per verificare che la v. è distribuita normalmente si fa il test di
Shapiro.
Test non parametrico >> v. non continue, tutti gli altri casi.
Teorema limite centrale: Se si ha un campione composto da più di 30 soggetti o
osservazioni e la variabile è continua, si può fare direttamente il test
parametrico.Test per studiare il p-value:
- Un campione rispetto ad un valore = valore medio dei valori del campione
rispetto ad un valore soglia (sempre rispetto alla generalizzabilità alla
popolazione); T-test per due campioni (test parametrico) o Wilcoxon (test
non parametrico)
- Tra due campioni indipendenti = confronto di due valori di due gruppi
distinti, indipendenti; valore medio dei valori del campione in un gruppo
rispetto ad un valore soglia (sempre rispetto alla generalizzabilità alla
popolazione) e valore medio dei valori del campione di un secondo gruppo
rispetto ad un valore soglia (sempre rispetto alla generalizzabilità alla
popolazione); T-test per due campioni (test parametrico) o Wilcoxon (test
non parametrico)
- Tra due campioni appaiati = confronto di due valori di due gruppi appaiati
o dello stesso gruppo in due momenti diversi; T-test per due campioni (test
parametrico) o Wilcoxon (test non parametrico)
- A causa di un fattore = confronto di valori di più di due gruppi
indipendenti o divisi in base ad una variabile o fattore; ANOVA ad una
dimensione (test parametrico) o Test di Kruskal-Wallis (test non
parametrico)
- A causa di più di un fattore = confronto di valori di più di due gruppi
indipendenti o divisi in base a più di una variabile o un fattore; ANOVA
fattoriale.
Trovare il p-value (significatività statistica) per campioni indipendenti e v. non
continue – Wilcoxon:
Calcolare la mediana per tutte le variabili: median(nome del file $ prima
modalità [nome del file $ seconda modalità == “variabile”]). Poi, calcolare il p-
value: wilcox.test(nome del file $ prima modalità [nome del file $ seconda
modalità == “prima variabile”], nome del file $ prima modalità [nome del file $
seconda modalità == “seconda variabile”]).
p-value = probabilità di non generalizzabilità dei risultati dello studio campionario
all’intera popolazione.
p<0,05 risultato è generalizzabile
p>0,05 risultato non è generalizzabile
Trovare il p-value (significatività statistica) per campioni appaiati e v. non
continue – Wilcoxon:
Calcolare la mediana di tutte le variabili: median(nome del file $ variabile). Poi,
calcolare il p-value: wilcox.test(nome del file $ prima modalità, nome del file $
seconda modalità, paired=TRUE), l’ultimo comando nella parentesi dopo
l’ultima virgola serve per dire che i due campioni sono appaiati.
Ex. numero 5 del sito di Vittorini “3-Statistica con R”:
median(), inserendo es5$ e cliccare sul calvo tra quelli proposti e premere invio.
Calcolare anche median(es5$capelluto).
Questo esperimento ricade nella categoria di due campioni (calvi e capelluti)
appaiati (perché vengono misurati in due momenti diversi). Bisognerebbe quindi
utilizzare un test non parametrico, perché si tratta di una variabile categorica che
non può essere descritta dalla curva a campana di Gauss.
wilcox e si inserisce .test() tra i comandi proposti e si immettono i dati dei calvi e dei
capelluti tra le parentesi: (es5$calvo, es5$capelluto, paired = TRUE). Ciò che esce
premendo invio riguarda la statistica di elaborazione dei dati; ma quello che interessa
è il p-value.
Ex. numero 6 del sito di Vittorini “3-Statistica con R”:
Si inserisce median(es6$calvo) e median(es6$capelluto) e poi wilcox.test(es6$calvo,
es6$capelluto). Si ha il 10% di significatività statistica, quindi si dice marginalmente
significativo, cioè poco significativo. Aumentando il campione è possibile ridurre il
bias che ha determinato la significatività a limite.
Immettendo i dati nel formato wild (<<largo>>) sono presenti due colonne per
l’appartenenza ai due gruppi; immettendo i dati nel formato long (perché più
<<lungo>>) sono presenti due colonne, una per la posizione e un’altra per
l’appartenenza al gruppo.
Indicare i dati contenuti nel gruppo in base alla posizione delle caselle con il
formato long:
Se si immette nome del file $ posizione del dato (per esempio, es6a$posizione) e si
premere invio, ne viene fuori l’elenco della colonnina.
Se si vuole prendere una sola casella si inserisce nome del file $ posizione del dato
[numero della posizione della casella] (per esempio, es6a$posizione[5]) e si preme
invio.
Se si inserisce nome del file $ posizione del dato[c(numeri delle posizioni delle
caselle)] (per esempio, es6a$posizione [c(1,2,3,4,5)]), dove c sta per collezione, e si
preme invio, ne esce l’elenco dei valori corrispondenti alle caselle indicate
(1,2,3,4,5). La parentesi quadra permette di scegliere più indici o dati della colonna e
restituisce i valori delle corrispondenti caselle.
Per indicare le caselle di chi esprime una certa modalità:
Inserire nome del file $ nome del gruppo posizione del dato[nome del file $ nome
del gruppo del dato== "modalità"]. Inviando escono le posizioni che appartengono
a quel gruppo.
= assegnazione di un valore ad una variabile
== confronto tra due valori
Ex.:
Immettendo es6a$posizione[es6a$gruppo == "calvo"] dice chi è calvo e chi non è
calvo della distribuzione e immettendo es6a$posizione[es6a$gruppo == "capelluto"]
dice chi è capelluto e chi non è capelluto della distribuzione.
Immettendo median(es6a$posizione[es6a$gruppo == "calvo"]) e
median(es6a$posizione[es6a$gruppo == "capelluto"]), ne escono i valori della
posizione mediana delle distribuzioni dei calvi e dei capelluti, rispettivamente.
Immettendo wilco