Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Operazioni con le matrici e le liste in R
RIGA.X<-matrix(c(1,-4,5,6,2), 2,3) → Per selezionare il 2 è necessario scrivere X[2,3]
RIMUOVERE - righe o colonne nella matrice è simile alla selezione, basta porre un meno → prima (usiamo la stessa matrice inserita sopra) es. X[,-2] - per eliminare la riga oppure X[-3,] per eliminare la colonna
AGGIUNGERE - righe o colonne nella matrice. Prima di tutto creiamo il vettore che vogliamo inserire, che sia un vettore riga o colonna e poi utilizziamo le due funzioni:
- Rbind() per aggiungere delle righe alla matrice
- Cbind() per aggiungere delle colonne
X<-cbind(z,vet) Esempio
TRASPOSIZIONE - la trasposizione è il capovolgimento della matrice, cioè le righe diventano le colonne e le colonne in righe. Il comando è t()
Altri comandi utili con le matrici, come la somma, la sottrazione, sono:
LE LISTE - sono dei contenitori di oggetti, in cui possiamo inserire qualunque tipo di oggetto, indipendentemente dal tipo di
proprietà list()-per avere accesso ai vari elementi all'interno della lista abbiamo l'operatore $ che serve per richiamare i vari elementi, nelle liste di cui dobbiamo conoscere i nomi, per cui utilizziamo: names(nome della lista) e poi selezioniamo con >nome della lista$oggetto
COME SETTARE IL PROPRIA DIREZIONE DI LAVORO (Set Work Direction)
per poter settare il proprio ambiente di lavoro si utilizza setwd() - per poterlo utilizzare, possiamo anche andare in session - set work direction - choose direction e selezionare la cartella da cui vogliamo prendere file e oggetti.
Per sapere cosa abbiamo nel nostro environment è necessario usare ls() come funzione, mentre per LIBERARE LO SPAZIO DI LAVORO SI USA -> rm(list=ls()) Rimuovo tutti gli eventuali oggetti
24.03.2021 - Davide Massidda a cosa serve R e come lavorarci
07.04 - I data frame
Gli oggetti privilegiati di R sono i data.frame (matrice di dati non con numeri ma con dati rilevanti)
<pre>mydata.rda)#e caricato così se già salvato
load("mydata.rda")
tutte le variabili categoriali devono essere inserite con la funzione factor (c())
Se il file è in formato testo può essere usata la funzione read.table()
Se il file è in formato .csv (valori separati dalla virgola) possiamo usare read.csv()
Se il file è in exel possiamo salvarlo in file .txt e usare le funzioni elencate (+ pacchettogdata) oltre che a poter utilizzare file SPSS etc. c’è anche l’opzione importa dataset in file nella barra superiore di R.
COSTRUIRE UN DATA SET – usare la funzione data.frame costruiamo prima gli oggetti.
Per prima cosa creiamo il nostro id, che comprende le varie colonne della nostra analisi
Id<- (1:5) – cinque sono gli elementi che inseriremo e vedremo tutti in orizzontale
#Costruiamo le variabili qualitative – no factor
Eta<- c(28,32,28,34,45)
Ptest<- c(100,80,120,95,78)
#Costruiamo le variabili</pre>
CATEGORIALIGenere <- factor(c("F","M","F","M","M"))
Reddito <- factor(c(2,2,1,3,3)) --- utilizziamo tre valori (basso, medio e alto reddito)
Es. test <- data.frame(id, ptest, genere, eta, reddito)Una volta creato il nostro data.frame abbiamo diverse funzioni da poter usare
Str() verifica il tipo di oggetto creato
Summary() visualizzare tutto ciò che c'è nel data.frame
Salvare il data.frame save(nome dataset, file="mydata.rda"
Ripulire la directory rm(list=ls())# Carichiamo il data.frame con la funzione load()
load("mydata.rda")ls() # Controlliamo l'esito dell'operazione
Per avere accesso ad una singola variabile nel data frame usiamo "$" in modo da selezionare ciò che ci interessa es. mydata[mydata$reddito]
Possiamo anche utilizzare gli indici di colonna e di riga in base alle diverse linee, così come nella matrice comemydata[,c(1,2)] → Per selezionare solo alcuni valori di un oggetto nel data frame basta utilizzare l'operatore == ad esempio mydata[mydata$genere == "F",]
Attenzione quando importiamo un dataset e mettiamo ogni cosa al suo posto, come le variabili al loro posto con un nome e non far inserire il nome come variabile categoriale all'interno di V1 come oggetto → PER L'ESAME
I grafici in R
In R ci sono molti pacchetti grafici che ci permettono di creare delle rappresentazioni grafiche dei nostri dati, dei grafici ben fatti ci permettono di osservare diversamente i dati così da far risaltare eventuali relazioni.
Lista di comandi per i grafici
- Hist – l'istogramma NON È UN DIAGRAMMA A BARRE – può essere usato per rappresentare una variabile del nostro data.frame
- Boxplot
- Barplot – diagramma a barre
- Plot – grafico a dispersione
13.04.2021
Un data.frame può essere visto come una lista in modo da avere
più elementi. Comerichiamare gli oggetti? Con il dollaro $, con il nome dell’oggetto. Per le domande servesapere quale comando richiama questo e cosa dovremmo fare per delle funzioni – quindi èmeglio fare un formulario in modo da non avere troppi dubbi per R.
A cosa serve la statistica descrittiva? A scattare una foto dei dati raccolti, che ci aiuta a capirequal è la situazione attuale. Senza una buona analisi descrittiva non possiamo fare una buonaanalisi dei dati. Esplorare i dati ci permette di capire quali sono le dinamiche che nonpossiamo vedere con una sempliceosservazione. Quando abbiamo due variabilicategoriali vediamo la frequenza di accordo,abbiamo una tavola di contingenza, in tabellasono ripostati i relativi gradi di accordo.Variabili categoriali, una nominale e unaordinale. Abbiamo quattro modalità (da 0 a 3– per la variabile categoriale ordinale – gradodi accordo) e abbiamo una totalità di n=16unità.
modalità e la numerosità totale delle unità statistiche. Si calcola dividendo la frequenza assoluta semplice di una modalità per la numerosità totale delle unità statistiche. La frequenza relativa semplice è espressa come un numero compreso tra 0 e 1. Per calcolare la frequenza relativa cumulata di una modalità, si sommano le frequenze relative semplici delle modalità precedenti alla modalità data, più la frequenza relativa semplice della modalità data. La somma di tutte le frequenze relative cumulate è sempre uguale a 1. In R, per calcolare le frequenze relative si utilizza la formula freq_rel = freq_assoluta / numerosità_totale. Per calcolare le frequenze relative cumulate si utilizza la formula freq_rel_cum = cumsum(freq_rel).modalità e il numero totale di unità statistiche osservate. VARIA SEMPRE TRA 0 E 1Es. – p2= 4/16 = 0.25. Dove quattro è il numero di modalità di poco d’accordo e sedici è laquantità di unità statistiche raccolte.
Su R si usa table(oggetto)/ nDEFFrequenza relativa cumulata è la somma delle frequenze relative semplici di quellamodalità e delle modalità precedenti alla modalità data + la frequenza relativa semplice dellamodalità data VARIA SEMPRE TRA 0 E 1Es. p2= (2/16) + (4/16) = 0.375 dove abbiamo la frequenza relativa del per niented’accordo (0) sommata alla frequenza relativa del poco d’accordo (1)LA SOMMA DI TUTTE LE FREQUENZE RELATIVE CUMULATA è SEMPRE 1
Su R si usa cumsum(table(oggetto)) / nTRASFORMARE UN OGGETTO – variabile categoriale ordinale - in un fattore#Creiamo il nostro vettoreAccordo<-
c(0,2,3,2,3,1,3,1,1,1,2,2,3,2,2,0) Trasformiamolo in FATTORE> accordo <- factor (accordo,+ levels=c(0,1,2,3),+ labels=c("per niente","poco","abbastanza","molto")) Per conoscere la numerosità campionaria è necessario usare length() INDICI DI TENDENZA CENTRALE DEFIIZIONI Un indice di tendenza centrale è un valore che descrive e riassume il centro di una distribuzione di dati A. La moda di una distribuzione di dati rilevati sulla variabile X, è la modalità che si presenta con la massima frequenza. (da quanti viene presentato un risultato/scelta). Può accadere che data una distribuzione di dati, esista più di una modalità a cui è associata la massima frequenza. In questi casi non esiste un'unica Moda, e si parlerà a seconda del caso di distribuzione bi-modale (con due mode), tri-modale (con tremode) e così via. la modalità con la massima frequenza B. La mediana(Mdn) di una distribuzione di dati ordinati rilevati sulla variabile X, è il dato che occupa la posizione centrale rispetto alla distribuzione dei dati. La mediana è poco influenzata (al contrario della media) da valori estremamente grandi o piccoli presenti nella distribuzione dei dati. Per questo viene detta stimatore robusto. Se n è dispari il valore centrale della serie ordinata dei dati è la mediana. Ad esempio, se abbiamo 5 modalità sarà = (5+1)/2 = 3 - la modalità che occupa la terza posizione sarà la nostra mediana. Se n è pari non esiste un valore della serie di dati che possa essere definito centrale, ma ne avremo due, uno inferiore = n/2 e uno superiore (n/2)+1. La media aritmetica di una distribuzione di dati rilevati sulla variabile X, è data dalla