Anteprima
Vedrai una selezione di 5 pagine su 20
Appunti Laboratorio R Pag. 1 Appunti Laboratorio R Pag. 2
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
Appunti Laboratorio R Pag. 6
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
Appunti Laboratorio R Pag. 11
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
Appunti Laboratorio R Pag. 16
1 su 20
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Formattazione del testo con tag HTML

FALSENB: salvando la tabella in una variabile, è possibile accedere ai singoli attributi utilizzando il $ (come per i data.frame):

  • estremiclassi = istogramma$breaks
  • frequenzeassolute = istogramma$counts
  • totaleosservazioni = sum(frequenzeassolute), oppure length(dati$Classe(i))
  • density = istogramma$density
  • frequenzerelative = (frequenzeassolute) / totaleosservazioni, oppure density * diff(estremiclassi)

COSTRUIRE UN BOXPLOT

Strumento grafico molto utile per identificare eventuali asimmetrie della distribuzione e/o la presenza di eventuali valori estremi (outlier).

Per costruire manualmente un boxplot (verticale) si effettuano le seguenti operazioni:

  1. Tracciare un rettangolo con basi inferiore e superiore uguali, rispettivamente, al I e al III quartile e che quindi conterrà il 50% centrale delle osservazioni
  2. Tracciare una linea in corrispondenza della mediana del rettangolo
  3. Considerare il limite superiore pari a Q3 + 1.5*IQR e tracciare un baffo che collega la base
superiore del rettangolo all'osservazione più alta contenuta all'interno del limite superiore- Considerare il limite inferiore uguale a Q1 - 1.5*IQR e tracciare un baffo che collega la base inferiore del rettangolo all'osservazione più bassa contenuta all'interno del limite superiore- Segnare singolarmente con un cerchio sul grafico eventuali valori maggiori del limite superiore (outlier superiori) o minori di quello inferiore (outlier inferiori) Con R si ottiene tramite il comando boxplot(dati$Classe(i), main ='Boxplot della Classe(i)') OSS: Un boxplot può anche essere rappresentato in orizzontale, anche se meno comunemente. Per farlo si aggiunge l'argomento horizontal=TRUE (di default horizontal = FALSE): boxplot(dati$Classe(i), horizontal = TRUE, col = 'forestgreen' ) boxplot( studenti$Colesterolo, main = "Boxplot Classe(i)", ylab ="Classe (i)", ylim = c( a, b ), col= 'forestgreen' ) Introducendo
  • un ulteriore distinzione (ex. Sesso):
  • par(mfrow=c(1,2))
  • boxplot( femmine$classe2, col = 'pink',main = 'Boxplot Classe2femmine' )
  • boxplot( dati$Classe2[ dati$Sesso == 'M' ], col = 'royalblue',main= 'Boxplot classe2 maschi' )
  • Questo non va bene, poiché non è possibile confrontare grafici che hanno scale diverse! Utilizziamo, dunque, il seguente comando per la gestione grafica dei plot: boxplot( dati$Classe1 ~ dati$Classe2, col = c( 'pink','royalblue' ), names = c( 'A', 'B' ), main = 'Distinzione per Classe2')
  • Così sto confrontando i due boxplot sulla stessa scala!
  • Per uccidere tutti i device grafici e reimpostare il default si utilizza graphics.off()
  • Analisi bivariata di variabili quantitative
  • studenti = read.table( 'appendiceA.txt', header = T )
  • indici di posizione e di dispersione
  • Per calcolare gli indici di posizione e dispersione separatamente per ogni

sotto-campione è comodo utilizzare la funzione t-apply(primo argomento, secondo argomento, terzo argomento): essa applica una certa funzione (terzo argomento, da applicare per ottenere l'indice cercato) a ciascuno dei sottoinsiemi - non vuoti - di valori di una variabile (primo argomento) individuati da un fattore di raggruppamento (secondo argomento).

NB: attenzione alle funzioni a valori vettoriali (come range) o a più argomenti (come quantile)

range di una categoria: diff( tapply( I argomento, II argomento, range )$categoria )

mediana: tapply( I argomento, II argomento, median )

quartili: Q = tapply( I argomento, II argomento, quantile )

Q1 = c( Q$F[2], Q$M[2] ) # primo quartile [femmine, maschi]

Q3 = c( Q$F[4], Q$M[4] ) # terzo quartile [femmine, maschi]

Q3 - Q1 # IQR

Se la funzione ha ulteriori argomenti, si inseriscono come argomenti di tapply dopo la funzione (quarto, quinto, ... argomento). Per esempio, se volessi il quantile di ordine 0.9 dei due gruppi:

Q_90 = tapply(dati$Classe1,

Il testo formattato con i tag HTML è il seguente:

dati$Classe2, quantile, probs = 0.9 )NB: al comando tapply si può passare anche la funzione summary:tapply( studenti$Peso, studenti$Sesso, summary )Utile per formulare delle conclusioni sulla base dell’osservazione dei graficiottenuti.IstogrammaTracciare i due istogrammi uno sotto l'altro, in modo da poter effettuare piùfacilmente un confronto. A tal fine, è importante che essi abbiano la stessascala sulle ascisse e le stesse classi!Il confronto tra i due istogrammi affiancati è comunque difficoltoso: meglioconfrontare i boxplot.windows() oppure x11()par (mfrow = c( 2, 1 ) )hist(dati$Classe1[ dati$Classe1 == 'F' ], prob = TRUE, main ='Istogramma della classe1 delle femmine', xlab = Classe1 [udm]',ylab = 'Densita', col = 'pink', xlim = range( dati$Classe1 ), breaks= seq( min( dati$Classe1 ), max( dati$Classe1 ), length = a ) )hist(dati$Classe1[ dati$Classe1 == 'F' ], prob = TRUE, main

'Istogramma della classe1 dei maschi, xlab = Classe1 [udm]',ylab = 'Densita', col = 'royalblue', xlim = range( dati$Classe1 ),breaks = seq( min( dati$Classe1 ), max( dati$Classe1 ), length =a ) )dev.off()Per sovrapporli, occorre specificare l'opzione add = TRUE nei diversi graficitranne il primo!! NORMALITA' DEI DATICon R, esistono diversi metodi per verificare se la distribuzione dei dati èGaussiana:

  1. Istogramma normale gaussiano
    Un insieme di dati si dice (o ) se il rispettivo istogrammaha le seguenti proprietà:
    punto massimo in corrispondenza dell'intervallo centrale
    o forma a campana
    o simmetria rispetto all'intervallo centrale
    o
    NB: Se l'istogramma di un insieme di dati è vicino a essere un istogramma"normale", allora l'insieme dei dati è approssimativamente normale.
    A partire dall'istogramma di un insieme di dati, calcoliamo la griglia che serveal campionamento dalla normale
concentrazione intorno alla distribuzione normale. Se i punti deviano dalla linea rossa, potrebbe indicare una deviazione dalla normalità dei dati.

normalità. L'obbiettivo è dunque quello di evidenziare le eventuali deviazioni dalla linearossa (soprattutto alle code sn e dx dei dati).

3. TEST di Shapiro. È un test statistico con due ipotesi:

H0: dati campionati da una gaussiana

H1: dati campionati da una distribuzione diversa da quella gaussiana

In R, la funzione shapiro.test() ci aiuta a indagare la normalità di un campione di dati.

In particolare, dell'output ci interessa il numero "p-value = ...". Infatti:

se p-value > 0.05, i dati possono essere considerati normali (accetto H0)

se p-value < 0.05, i dati NON possono essere considerati normali (rifiuto H0)

In questo ultimo caso bisogna ricorrere ad altri metodi (ex. trasformazione dei dati).

4. Trasformazione dei dati

Se p-value < 0.05, ma siamo interessati alla normalità, possiamo indagare se i dati trasformati con una qualche funzione standard (i.e. esponenziale, log, ecc.) soddisfano questa richiesta.

Se otteniamo risultati

sono indipendenti tra loro. Per calcolare la covarianza campionaria tra due variabili, si utilizza la seguente formula: cov(X, Y) = Σ((Xi - X̄)(Yi - Ȳ)) / (n - 1) dove Xi e Yi sono i valori delle due variabili, X̄ e Ȳ sono le loro medie campionarie e n è la dimensione del campione. Coefficiente di correlazione di Pearson Il coefficiente di correlazione di Pearson è un indice che misura la forza e la direzione della relazione lineare tra due variabili. Il suo valore può variare tra -1 e 1. Per calcolare il coefficiente di correlazione di Pearson, si utilizza la seguente formula: r = cov(X, Y) / (σX * σY) dove cov(X, Y) è la covarianza tra le due variabili e σX e σY sono le deviazioni standard delle variabili X e Y. Il coefficiente di correlazione di Pearson può assumere i seguenti valori: -1: correlazione perfettamente negativa 0: assenza di correlazione lineare 1: correlazione perfettamente positiva Analisi di regressione L'analisi di regressione permette di studiare la relazione tra una variabile dipendente e una o più variabili indipendenti. L'obiettivo è trovare un modello matematico che descriva al meglio questa relazione. La regressione lineare è uno dei modelli più comuni utilizzati nell'analisi di regressione. La sua formula è: Y = β0 + β1X1 + β2X2 + ... + βnXn + ε dove Y è la variabile dipendente, X1, X2, ..., Xn sono le variabili indipendenti, β0, β1, β2, ..., βn sono i coefficienti di regressione e ε è l'errore residuo. Per stimare i coefficienti di regressione, si utilizza il metodo dei minimi quadrati. L'obiettivo è minimizzare la somma dei quadrati degli errori residui. L'analisi di regressione permette di fare previsioni sulla variabile dipendente in base ai valori delle variabili indipendenti. Tuttavia, è importante tenere conto delle limitazioni e delle assunzioni del modello di regressione utilizzato.

Sono scorrelate.

NB: la non correlazione non implica l'indipendenza!!! Infatti, la covarianza cattura solo i legami lineari: se due variabili hanno un rapporto quadratico, ad esempio, la loro covarianza è nulla, ma ciò non vuol dire che le variabili sono indipendenti!

Se dal grafico si osserva che l'andamento è approssimativamente lineare, le due variabili possono essere ipotizzate correlate fra loro.

OSS: c'è solo una situazione in cui la covarianza è nulla e le due variabili sono indipendenti, che è nel caso di distribuzione gaussiana!

cov(x,y) = sum( ( x_i-media.campionaria(x) ) * ( y_i- media.campionaria(y) ) ) / ( n - 1 ) (formula teorica);

cov(x, y) (comando in R);

Cov(X,Y)=Cov(Y,X) (proprietà di simmetria);

Cov(X,X) = Var(X) (caso particolare);

-∞

Correlazione lineare ρ

Non sempre sono note le distribuzioni esatte di X e Y, per cui risulta

Complicato applicare la formula teorica cov(x,y). Per questo si tende ad utilizzare l'indice di correlazione lineare ρ. L'interpretazione è la stessa, ma a differenza della covarianza, ha "significato universale": con ρ è possibile confrontare anche due variabili con ordini di grandezza molto diversi fra loro -1< ρ <1 sempre!

ρ = 1 se y = a + bx, con b (la relazione tra X e Y è lineare con pendenza positiva). ρ = -1 se y = a + bx, con b (la relazione tra X e Y è lineare con pendenza negativa).

Dettagli
A.A. 2022-2023
20 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher letiziavenagli di informazioni apprese con la frequenza delle lezioni di Fondamenti di statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Politecnico di Milano o del prof Verri Maurizio.