Anteprima
Vedrai una selezione di 3 pagine su 8
Appunti su R Pag. 1 Appunti su R Pag. 2
Anteprima di 3 pagg. su 8.
Scarica il documento per vederlo tutto.
Appunti su R Pag. 6
1 su 8
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Formattazione del testo

Posso calcolare la media, la mediana, il minimo e il massimo e selezionare gli elementi come sulle matrici subset() per selezionare le righe di un data frame in base ad una condizione edit() per modificare i valori di un data frame in modo interattivo

LEZIONE 5 – IMPORTAZIONE DATI

Ci sono due tipologie di file di testo: file con separatori (csv) e file a colonne fisse (txt).

read.csv() per importare il file in formato csv su R

read.delim() per importare il file in formato txt su R

Per importare in R dei dati salvati su un foglio Excel dobbiamo: salvare il file.xls in formato CSV e poi importare il file in R usando la funzione read.csv()

names (def) <- c("ANNO", "VENDITE", "COSTI", "PROFITTI") per mettere i nomi del data frame in maiuscolo

LEZIONE 6 – IMPORTAZIONE DATI

read.csv() per importare il file in formato csv su R

tabella$colonna <- espressione per manipolare le singole variabili (es. aumentare di 10)

diminuire)tabella$nuova_colonna <- espressione per creare nuove variabili

Uno dei principali strumenti di manipolazione delle colonne sono le funzioni. Si dividono in tre principali categorie: numeriche, alfanumeriche e statistiche.

FUNZIONI NUMERICHE

FUNZIONI ALFANUMERICHE

FUNZIONI STATISTICHE

keep <- c(1, 2, 3) per mantenere le variabili

newdata <- mydata[keep]

drop <- c(-3,-5) per escludere delle variabili

newdata <- mydata[drop]

newdata <- mydata[1:5,] per selezionare delle osservazioni

newdata <- subset(mydata, condizione) per selezionare le informazioni in base ad una condizione

LEZIONE 7 – PREPARAZIONE DATI E STATISTICA DESCRITTIVA

merge() per unire due data frame orizzontalmente, bisogna utilizzare una variabile come chiave di unione che va inserita tra apici merge(variabile1, variabile2, by=“chiavediunione”)

rbind() per unire due data frame verticalmente

Il primo passo per analizzare un fenomeno consiste nel sintetizzare gli aspetti essenziali di un

fenomeno mediante indicatori statistici di sintesi: indici di posizione (media, mediana, moda, quantili) e indici di variabilità (range, varianza, deviazione standard). Utilizzare i seguenti tag HTML per formattare il testo: - `` per evidenziare i termini importanti: fenomeno mediante indicatori statistici di sintesi: indici di posizione (media, mediana, moda, quantili) e indici di variabilità (range, varianza, deviazione standard). - `` per formattare i nomi delle funzioni: mean(), median(), quantile(), var(), sd(), range(), summary(), table(). - `` per formattare gli esempi di utilizzo delle funzioni: table(nometabella$nomevar1, dnn=c('xxx')) a una via (considerando un' unica variabile di classificazione), table(nometabella$nomevar1, nometabella$nomevar2, dnn=c('xxx','yyy')) a due vie (considerando due variabili di classificazione), table(nometabella$nomevar1, nometabella$nomevar2, nometabella$nomevar3, dnn=c('xxx','yyy','zzz')) a tre vie (considerando tre variabili di classificazione). Ecco il testo formattato: fenomeno mediante indicatori statistici di sintesi: indici di posizione (media, mediana, moda, quantili) e indici di variabilità (range, varianza, deviazione standard). Utilizzare le seguenti funzioni per calcolare gli indicatori statistici: - mean() per calcolare la media - median() per calcolare la mediana - quantile() per calcolare i quantili - var() per calcolare la varianza - sd() per calcolare la deviazione standard - range() per calcolare il range - summary() per fornire i principali indicatori di posizione, relativamente a tutte le variabili numeriche presenti in un data frame - table() per calcolare le distribuzioni di frequenza: Esempi di utilizzo della funzione table(): - table(nometabella$nomevar1, dnn=c('xxx')) a una via (considerando un' unica variabile di classificazione) - table(nometabella$nomevar1, nometabella$nomevar2, dnn=c('xxx','yyy')) a due vie (considerando due variabili di classificazione) - table(nometabella$nomevar1, nometabella$nomevar2, nometabella$nomevar3, dnn=c('xxx','yyy','zzz')) a tre vie (considerando tre variabili di classificazione).

tre variabili di classificazione)LEZIONE 8 – REPORTING GRAFICO

Principali tipologie di grafici:

  • istogrammi
  • grafici a barre
  • grafici a dispersione
  • grafici boxplots

hist(variabile) per creare un istogramma relativo alla variabile di cui vogliamo visualizzare le frequenze

breaks= per controllare il numero di bins

col= permette di specificare il colore delle barre

hist(variabile, breaks=12, col="green")

main="TITOLO" per personalizzare il titolo del grafico

windows() per aprire una nuova finestra grafica cioè per vedere i grafici separati in due finestre diverse

Dettagli
Publisher
A.A. 2022-2023
8 pagine
SSD Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher GioiaCancian di informazioni apprese con la frequenza delle lezioni di Informatica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università "Carlo Cattaneo" (LIUC) o del prof Caggia Antonio.