vuoi
o PayPal
tutte le volte che vuoi
ESEMPI:
• matrice[1,2] = seleziona l’elemento in prima riga e seconda colonna;
• matrice[1:3,2:4] = seleziona i dati delle righe 1,2,3 e le colonne 2,3,4;
• matrice[,1] = seleziona tutti gli elementi della prima colonna;
• matrice[1,] = seleziona tutti gli elementi della prima riga.
Lezione 4: lavorare con i data frame:
variabili di diverso tipo (colonne) e osservazioni (righe).
Un data frame è un data set che ha Ogni
variabile deve avere valori dello stesso tipo.
Un data frame si compone di due parti:
parte dati;
• parte descrittiva.
• Come visualizzare una porzione del data frame: head() prime osservazioni
1) la funzione visualizza le
tail() str()
ultime osservazioni.
di un data frame mentre la funzione visualizza le Infine la funzione mostra
parte descrittiva
la del data frame.
Creare un data frame: data.frame().
2) utilizzare la funzione
variabili del data frame vengono passate come vettori.
NB: le
ESEMPIO: creare un data frame che contenga nome, tipo e diametro dei pianeti del sistema solare:
# Creazione dei vettori
nome <- c("Mercury", "Venus", "Earth", "Mars", "Jupiter", "Saturn",
"Uranus", "Neptune")
tipo <- c("T", "T", "T", "T", "G", "G", "G", "G")
diametro <- c(0.382, 0.949, 1, 0.532, 11.209, 9.449, 4.007, 3.883)
# Creazione del data frame
pianeti <- data.frame(nome, tipo, diametro)
Visualizzare le dimensione di un data frame: dim() ; nrow() ; ncol().
3) utilizzare le funzioni:
Aggiungere elementi al data frame: cbind().
4) usare la funzione
ESEMPIO: aggiungere il vettore “ring” al data frame “pianeti”:
# Creazione del vettore “ring”
ring <- c(FALSE, FALSE, FALSE, FALSE,TRUE,TRUE,TRUE,TRUE)
# Unione del vettore al data frame
pianeti_def <- cbind(pianeti, ring)
Visualizzare una COLONNA: del data frame$nome della colonna”.
5) usare la notazione “nome
ES: pianeti_def$diameter modificare i valori
NB: posso usare la stessa notazione per di una colonna (pianeti_def$diameter <-
calcolare statistiche
pianeti_def$diameter + 0.0001) e (mean(pianeti_def$diameter)).
Selezionare elementi di un data frame: parentesi quadre [ ]
6) usare le con le stesse regole che
valgono per le matrici.
utilizzare il nome delle variabili
NB: possiamo anche per selezionare le colonne.
ES:
# Selezioniamo le prime tre righe della colonna “type”:
• pianeti_def[1:3,2] oppure
• pianeti_def[1:3,"type"]
Selezionare le righe di un data frame in base ad una condizione: subset().
7) utilizzare la funzione
ES: pianeti_subset <- subset(pianeti_def, diameter < 1)
Modificare gli elementi di un data frame: edit().
8) usare la funzione funzione
ES: pianeti_mod <-edit(pianeti_subset).
Lezione 5: importare dati su R:
Importare file su R:
1) convertiti automaticamente in data frame.
E’ possibile importare su R file di dati che vengono
Questi file possono essere di due tipi:
file con separatori (csv);
• file a colonne fisse (txt).
• read.table
NB: la funzione funziona per TUTTI E DUE i tipi di file se si specificano le caratteristiche
opportune.
Mantenere colonne:
2) se a seguito di una importazione, vogliamo mantenere SOLO ALCUNE
colonne nel data frame:
• si crea un vettore con gli indici delle colonne da mantenere;
• si selezionano le colonne di interesse tramite il vettore.
Importare file da Excel: convertire il file excel da file.xls in formato CSV;
3) prima bisogna poi usare
la stessa procedura di lettura dei file CSV.
Lezione 6: strumenti di manipolazione dei data base:
Manipolare le colonne con le funzioni:
1) le funzioni dividono in tre principali categorie:
numeriche;
• alfanumeriche;
• statistiche.
• Mantenere una variabile:
2) es: mantenere le variabili 1, 2, 3:
• creo un vettore che contenga le variabili da mantenere: keep <- c(1, 2, 3);
• creo un nuovo database che sia composto dal vecchio database con il vettore che contiene le sole
newdata <- mydata[keep].
variabili da mantenere:
Eliminare variabili:
3) es: escludere la terza e la quinta variabile:
drop <- c(-3,-5)
• creo il vettore
• creo il nuovo database newdata <- mydata[drop]. SEGNO MENO.
NB: per eliminare una variabile anziché mantenerla quando creo il vettore utilizzo il
Selezionare variabili:
4) posso selezionare in due modi:
newdata <- mydata[1:5,]:
1. SENZA condizione: seleziono le variabili delle prime 5 righe e tutte le
colonne; newdata <- subset(mydata, condizione).
2. CON CONDIZIONE:
NB: prima devo aver specificare come è composto il data base “mydata”.
Lezione 7: unione e concatenazione:
L’unione è una combinazione orizzontale la concatenazione è una
di data base mentre
combinazione verticale.
UNIONE: funzione merge, specificando la/le chiavi di unione.
1) utilizzare la
ESEMPIO:
# Uniamo due data frame con chiave ID
total <- merge(data frameA, data frameB, by="ID")
# Uniamo due data frame con chiavi ID e Country
total <- merge(data frameA, data frameB, by=c("ID","Country"))
CONCATENAZIONE: funzione rbind. stesse variabili.
2) utilizzare la I due data frame devono avere le
ESEMPIO:
total <- rbind(data frameA, data frameB) sintetizzare gli aspetti essenziali di un fenomeno
Il primo passo per analizzare un fenomeno consiste nel
mediante indicatori statistici di sintesi.
Di questi i più rilevanti sono due:
indici di posizione;
• indici di variabilità.
• INDICI DI POSIZIONE:
3) i principali indici di
posizione sono conosciuti con la denominazione di
medie:
medie analitiche;
• medie lasche.
• INDICI DI VARIABILITÀ:
4) I principali indici di
variabilità sono:
range:
• fornisce i valori del
minimo e del massimo, ossia
gli estremi del campo di
variazione.
varianza;
• deviazione standard.
• LA FUNZIONE SUMMARY: summary() principali indicatori di posizione,
5) funzione fornisce i
relativamente a tutte le variabili numeriche presenti in un data frame.
ES: summary(mydata)
LE DISTRIBUZIONI DI FREQUENZA: table();
6) si utilizza la funzione possono essere di tre tipo:
• a una via;
• a due vie;
• a tre vie.