vuoi
o PayPal
tutte le volte che vuoi
In questo modo associo agli oggetti indicati dalla freccia il valore ottenuto dalle
formule alla base della freccia.
> data( ) ci mostra tutti i dataset presenti all’interno di RStudio che possiamo
utilizzare
> seq(1,100, 0.5) in questo modo ordiniamo al software di mostrarci una sequenza
di numeri che va da 1 a 100 ma ad intervalli di 0.5 in 0.5.
> rm( ) questo comando serve per rimuovere dall’ambiente specifici oggetti.
Analisi Univariate
Caso 1 == > Variabili Categoriche
Dopo aver inserito un nuovo dataset (alumni) possiamo creare un oggetto che
contenga la colonna che più ci interessa, per poterci lavorare in modo più pratico:
> marstat <- alumni [, 3] in questo modo abbiamo creato l’oggetto marstat, che
contiene tutte le righe (siccome il primo valore della parentesi non l’abbiamo inserito)
della terza colonna del dataset alumni.
Possiamo fare la stessa cosa ma in un altro modo: > marstat <- alumni$marital_status
(richiamando l’oggetto dal dataset senza contare in che colonna si trova.
> table(marstat) ci creerà una tabella contenente un resoconto dei valori di questo
oggetto. (Marital Status: single, sposati, vedovi e divorziati)
Poi per calcolare le frequenze assolute e le frequenze condizionali creiamo due
nuovi oggetti:
>ms_tab <- table(marstat) che conterrà le frequenze assolute
>ms_tab_rel <- prop.table(x=marstat) con il comando prop.table andiamo a
calcolare le frequenze condizionali
Possiamo rappresentare le variabili categoriche per mezzo di un grafico a torta:
>pie ( oggetto, labels= c( “Divorziati”, “Sposati”, “Single”, “Vedovi”) in questo modo
creiamo il grafico a torta, che ci mostrerà i valori della table in modo “visual” e
(scrivendo le variabili nell’ordine in cui sono contenute nel dataset tra le virgolette
otteniamo anche le etichette per ogni fetta).
Possiamo inoltre rappresentare la frequenza di ciascuna etichetta attraverso un
Grafico a Barre, o bar plot.
> barplot (oggetto=cy_tab, xlab=”Anno di diploma”, ylab=”Frequenze assolute”)
con le X/Ylab indichiamo l’etichetta che vogliamo associare al rispettivo asse.
Caso 2 == > Variabili Numeriche
Possiamo rappresentare le variabili numeriche per mezzo di un istogramma.
> hist(alumni$TotGiving, breaks=50) : in questo modo gli stiamo dicendo di
rappresentare la variabile TotGiving (totale donazioni) all’interno dell’istogramma
dividendo le frequenze in 50 classi.
Per capire meglio la distribuzione delle frequenze all’interno dell’istogramma possiamo
usare il comando rug, il quale farà comparire una barra al di sotto delle colonne per
rappresentare tale distribuzione.
>rug(alumni$TotGiving) e troviamo:
Se volessimo invece studiare la distribuzione dei cinque principali indicatori di una
minimo, primo quartile, mediana, secondo quartile,
distribuzione numerica, ovvero:
massimo; dobbiamo utilizzare un boxplot.
>boxplot(alumni$TotGiving, horizontal=TRUE, ylim=c(0,10000)) :dobbiamo
specificare orizzontale per vederlo con il layout cui siamo abituati.
Possiamo poi confrontare diversi boxplot tra loro, scrivendo > boxplot (JJ$trim.1,
JJ$trim.2, JJ$trim.3, JJ$trim.4, ylab=”Guadagni Trimestrali”)
Per creare una nuova colonna all’interno del dataset: > alumni$TotGiving <-
rowSums(alumni[, 6:10]) : così abbiamo sommato le colonne delle donazioni nei
quattro anni considerati, che sono contenute nelle colonne da sei a dieci. Per fare la
somma utilizziamo il comando rowSums.
Se volessimo affiancare due grafici potremmo creare un’area di lavoro in cui poi
andremo ad inserirli: >par(mfrow = c(2 ,1)) in cui indichiamo un area composta da
due righe e una colonna (quindi vedremo i grafici impilati).
Introduciamo un istogramma: >hist(alumni$TotGiving, breaks=50) creiamo un
boxplot: >boxplot(alumni$TotGiving, horizontal=TRUE)
Gli indici di sintesi che possiamo utilizzare sono:
- Indici di tendenza centrale:
Somma: >sum(JJ$trim.1)
o Media: >mean(JJ$trim.3)
o Mediana: >median(alumni$TotGiving)
o
Rappresenta il valore centrale della distribuzione e non è influenzato dagli outlier.
Confrontandolo con la media possiamo capire se la distribuzione è asimmetrica verso
destra o verso sinistra.
Se volessimo calcolare la media su tutte le colonne, meno la prima, del dataset
potremmo creare il comando nel seguente modo: >media <- apply(JJ[-1],2,mean) poi
per farlo “partire” dobbiamo riscrivere media ed eseguirlo. scritto [-1]
abbiamo
siccome abbiamo applicato il comando a tutte le colonne MENO la PRIMA.
- Indici di forma:
Quartili: > quantile (alumni[, “TotGiving”], probs= seq( .05, 1 by=0.5))
o
- Indici di variabilità
Range: se applico il range come comando di RStudio non ottengo la
o differenza tra i valori, ma il valore del minimo e del massimo. Se volessi il
risultato dovrei creare il comando nel seguente modo: >Ra <- funtion(x)
max(x)-min(x) dopo di che possiamo applicare > Ra (JJ$trim.2)
Se dovessimo applicare > range (JJ$trim.3) otterremmo i due valori richiesti per
il calcolo.
Deviazione standard: > sd (alumni[, “TotGiving”]
o Covarianza: > cv (alumni[, “TotGiving”]
o
- Sommario che indica i cinque indicatori principali: > summary
(alumni$TotGiving)
Possiamo inoltre creare dei Subset di dati, che comprendono solo i dati che rispondono
a determinate caratteristiche: >alumni_sub <- subset (alumni, TotGiving>0 &
TotGiving<=1000) Analisi Bivariate
Le analisi bivariate possono comprendere diversi strumenti a seconda del tipo di
variabile considerata:
Scenario Uno: Variabile Y Numerica e X Categorica
Con i boxplot affiancati possiamo confrontare la distribuzione dei dati:
o >boxplot(TotGiving ~ MaritalStatus, data=alumni, ylim=c(0,2000)).