Anteprima
Vedrai una selezione di 3 pagine su 7
Formulario di Business Data Science - LM Innovazione e Imprenditorialità Digitale Pag. 1 Formulario di Business Data Science - LM Innovazione e Imprenditorialità Digitale Pag. 2
Anteprima di 3 pagg. su 7.
Scarica il documento per vederlo tutto.
Formulario di Business Data Science - LM Innovazione e Imprenditorialità Digitale Pag. 6
1 su 7
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

In questo modo associo agli oggetti indicati dalla freccia il valore ottenuto dalle

formule alla base della freccia.

> data( ) ci mostra tutti i dataset presenti all’interno di RStudio che possiamo

utilizzare

> seq(1,100, 0.5) in questo modo ordiniamo al software di mostrarci una sequenza

di numeri che va da 1 a 100 ma ad intervalli di 0.5 in 0.5.

> rm( ) questo comando serve per rimuovere dall’ambiente specifici oggetti.

Analisi Univariate

Caso 1 == > Variabili Categoriche

Dopo aver inserito un nuovo dataset (alumni) possiamo creare un oggetto che

contenga la colonna che più ci interessa, per poterci lavorare in modo più pratico:

> marstat <- alumni [, 3] in questo modo abbiamo creato l’oggetto marstat, che

contiene tutte le righe (siccome il primo valore della parentesi non l’abbiamo inserito)

della terza colonna del dataset alumni.

Possiamo fare la stessa cosa ma in un altro modo: > marstat <- alumni$marital_status

(richiamando l’oggetto dal dataset senza contare in che colonna si trova.

> table(marstat) ci creerà una tabella contenente un resoconto dei valori di questo

oggetto. (Marital Status: single, sposati, vedovi e divorziati)

Poi per calcolare le frequenze assolute e le frequenze condizionali creiamo due

nuovi oggetti:

>ms_tab <- table(marstat) che conterrà le frequenze assolute

>ms_tab_rel <- prop.table(x=marstat) con il comando prop.table andiamo a

calcolare le frequenze condizionali

Possiamo rappresentare le variabili categoriche per mezzo di un grafico a torta:

>pie ( oggetto, labels= c( “Divorziati”, “Sposati”, “Single”, “Vedovi”) in questo modo

creiamo il grafico a torta, che ci mostrerà i valori della table in modo “visual” e

(scrivendo le variabili nell’ordine in cui sono contenute nel dataset tra le virgolette

otteniamo anche le etichette per ogni fetta).

Possiamo inoltre rappresentare la frequenza di ciascuna etichetta attraverso un

Grafico a Barre, o bar plot.

> barplot (oggetto=cy_tab, xlab=”Anno di diploma”, ylab=”Frequenze assolute”)

con le X/Ylab indichiamo l’etichetta che vogliamo associare al rispettivo asse.

Caso 2 == > Variabili Numeriche

Possiamo rappresentare le variabili numeriche per mezzo di un istogramma.

> hist(alumni$TotGiving, breaks=50) : in questo modo gli stiamo dicendo di

rappresentare la variabile TotGiving (totale donazioni) all’interno dell’istogramma

dividendo le frequenze in 50 classi.

Per capire meglio la distribuzione delle frequenze all’interno dell’istogramma possiamo

usare il comando rug, il quale farà comparire una barra al di sotto delle colonne per

rappresentare tale distribuzione.

>rug(alumni$TotGiving) e troviamo:

Se volessimo invece studiare la distribuzione dei cinque principali indicatori di una

minimo, primo quartile, mediana, secondo quartile,

distribuzione numerica, ovvero:

massimo; dobbiamo utilizzare un boxplot.

>boxplot(alumni$TotGiving, horizontal=TRUE, ylim=c(0,10000)) :dobbiamo

specificare orizzontale per vederlo con il layout cui siamo abituati.

Possiamo poi confrontare diversi boxplot tra loro, scrivendo > boxplot (JJ$trim.1,

JJ$trim.2, JJ$trim.3, JJ$trim.4, ylab=”Guadagni Trimestrali”)

Per creare una nuova colonna all’interno del dataset: > alumni$TotGiving <-

rowSums(alumni[, 6:10]) : così abbiamo sommato le colonne delle donazioni nei

quattro anni considerati, che sono contenute nelle colonne da sei a dieci. Per fare la

somma utilizziamo il comando rowSums.

Se volessimo affiancare due grafici potremmo creare un’area di lavoro in cui poi

andremo ad inserirli: >par(mfrow = c(2 ,1)) in cui indichiamo un area composta da

due righe e una colonna (quindi vedremo i grafici impilati).

Introduciamo un istogramma: >hist(alumni$TotGiving, breaks=50) creiamo un

boxplot: >boxplot(alumni$TotGiving, horizontal=TRUE)

Gli indici di sintesi che possiamo utilizzare sono:

- Indici di tendenza centrale:

Somma: >sum(JJ$trim.1)

o Media: >mean(JJ$trim.3)

o Mediana: >median(alumni$TotGiving)

o

Rappresenta il valore centrale della distribuzione e non è influenzato dagli outlier.

Confrontandolo con la media possiamo capire se la distribuzione è asimmetrica verso

destra o verso sinistra.

Se volessimo calcolare la media su tutte le colonne, meno la prima, del dataset

potremmo creare il comando nel seguente modo: >media <- apply(JJ[-1],2,mean) poi

per farlo “partire” dobbiamo riscrivere media ed eseguirlo. scritto [-1]

abbiamo

siccome abbiamo applicato il comando a tutte le colonne MENO la PRIMA.

- Indici di forma:

Quartili: > quantile (alumni[, “TotGiving”], probs= seq( .05, 1 by=0.5))

o

- Indici di variabilità

Range: se applico il range come comando di RStudio non ottengo la

o differenza tra i valori, ma il valore del minimo e del massimo. Se volessi il

risultato dovrei creare il comando nel seguente modo: >Ra <- funtion(x)

max(x)-min(x) dopo di che possiamo applicare > Ra (JJ$trim.2)

Se dovessimo applicare > range (JJ$trim.3) otterremmo i due valori richiesti per

il calcolo.

Deviazione standard: > sd (alumni[, “TotGiving”]

o Covarianza: > cv (alumni[, “TotGiving”]

o

- Sommario che indica i cinque indicatori principali: > summary

(alumni$TotGiving)

Possiamo inoltre creare dei Subset di dati, che comprendono solo i dati che rispondono

a determinate caratteristiche: >alumni_sub <- subset (alumni, TotGiving>0 &

TotGiving<=1000) Analisi Bivariate

Le analisi bivariate possono comprendere diversi strumenti a seconda del tipo di

variabile considerata:

Scenario Uno: Variabile Y Numerica e X Categorica

 Con i boxplot affiancati possiamo confrontare la distribuzione dei dati:

o >boxplot(TotGiving ~ MaritalStatus, data=alumni, ylim=c(0,2000)).

Dettagli
Publisher
A.A. 2023-2024
7 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher MatildeMineri di informazioni apprese con la frequenza delle lezioni di Business data science e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Cattolica del "Sacro Cuore" o del prof Venturini Sergio.