Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Confronto delle distribuzioni dei due campioni
Si possono confrontare le distribuzioni dei due campioni costruendo boxplot affiancati. Nel caso in cui vi siano due casi correlati all'interno dello stesso campione, quindi misurati sugli stessi soggetti, si intende studiare la relazione tra le due variabili nello stesso campione. Il campione è costituito da coppie di valori, uno per ognuna delle sue variabili per ogni soggetto. Si intende verificare se esista una correlazione tra le due variabili.
Scatterplot o diagramma a dispersione: è una rappresentazione grafica delle coppie di punti per ogni soggetto. In corrispondenza di ogni soggetto avremmo le coordinate per ogni soggetto che corrisponderanno ai valori di quel soggetto sull'asse x e su quello y in base alle variabili.
Costruzione di scatterplot:
Argomento d'esempio utilizzato -> pulsazioni.csv
Il primo argomento dev'essere un dataframe, la specifica del tipo di grafico che desidero utilizzare in ggplot è diverso e sarà accompagnato dal comando geom_...
Pl <- ggplot(dati, aes(x=Pulsazioni.al.minuto,...
y=Tempo.di.percorrenza))+geom_point(color="red")-> Comando per eseguire uno scatterplot assegnandolo ad un vettore N.B. -> header = T -> Parte di codice che permette di visualizzare i nomi di dataframe, che se disattivato verrebbero indicati con semplici lettere L'obiettivo è vedere se vi sia una correlazione lineare tra le due variabili. Creazione di uno scatterplot senza l'utilizzo di ggplot E' possibile creare uno scatterplot senza necessariamente utilizzare il pacchetto ggplot utilizzando il comando: ```htmlVariare nella stessa direzione o in direzione opposta. Quando cov(x,y) = 0 si dice che x e y sono non correlate o che non esiste una correlazione lineare tra loro. Non avremo mai 0, ma un valore molto piccolo.
Indice di correlazione lineare di Pearson
Dato che la covarianza può assumere valori su tutta la retta reale, è stato introdotto un coefficiente che divide la covarianza per le due deviazioni standard.
covarianza / Radice quadrata deviazione standard di X moltiplicata per radice quadrata di deviazione standard Y
Succede la stessa cosa che succedeva con il coefficiente di variazione, abbiamo diviso la deviazione standard per la media, in modo tale da avere un indice adimensionale confrontabile tra variabili diverse. Il coefficiente di correlazione di Pearson è adimensionale ed assume solo valori da -1 a 1, se il valore è 1 c'è una perfetta correlazione nella quale i valori della variabile crescono insieme; se è negativa e quindi assume valore di -1
è negativa e crescono insenso opposto.A differenza della covarianza non è influenzabile dall’unità di misura.Un indice di correlazione alto corrisponderà ad un andamento lineare dei punti sullaretta, mentre con un indice di correlazione basso, avremo i punti più “sparpagliati”lungo il grafico.
Covarianza in R
Cov(Pulsazioni.al.minuto, Tempo.di.percorrenza)-> Comando per calcolare la covarianza
Cor(Pulsazioni.al.minuto, Tempo.di.percorrenza)-> Permette di eseguire il calcolo del coefficiente di correlazione
Calcolo e distribuzioni di probabilità
Il calcolo della probabilità descrive tramite opportuni modelli matematici, fenomeni non deterministici o casuali. Per studiare un fenomeno casuale occorre innanzitutto modellizzarli tramite uno spazio di probabilità che contempli tutti i possibili esiti degli esperimenti casuali e le loro combinazioni, chiamati più opportunamente eventi.
Esito-> Possibili risultati
dell'esperimento casualeEventi->Sottoinsiemi dello spazio campionario, può realizzarsi con più esiti. Vedasi un dado appena lanciato, avremo come possibili esiti dei numeri interi da 1 a 6. Gli eventi sono combinazioni di esiti e si suddividono in: - Evento semplice-> Quando un evento coincide con un singolo esito - Evento complesso-> Quando si parla di una combinazione di possibili esiti Lo spazio degli eventi comprende tutti i possibili esiti dell'esperimento casuale ed è indicato con la lettera maiuscola greca omega Ω. Riprendendo l'esempio del dado si scriverebbe Ω=(1,2,3,4,5,6). Ad ogni evento corrisponde un sottoinsieme di Ω. La base nel calcolo delle probabilità è l'uso delle proprietà delle operazioni tra insiemi: - A,B in Ω - A∩B intersezione di A e B - AUB unione di due insiemi - Ᾱ non si verifica - Ø evento impossibile La probabilità è una funzione che a ognisottoinsieme di Ω dello spazio degli eventi può corrispondere un numero reale, con certe proprietà.
Esistono tre possibili definizioni del concetto di probabilità:
- Probabilità classica-> La probabilità di un evento è il rapporto tra il numero dei casi favorevoli ed il numero dei casi possibili. P = n eventi favorevoli / n eventi possibili
- Probabilità frequentista-> si definisce frequenza relativa di un evento in n prove effettuate nelle stesse condizioni, il rapporto fra il numero k delle prove nelle quali l'evento si è verificato ed il numero n delle prove effettuate.
- Probabilità soggettiva-> Nella probabilità soggettiva si stima la probabilità in base allo studio d'informazione. La probabilità P(E) di un evento E è la misura del grado di fiducia che un individuo attribuisce, in base alle sue informazioni e alle sue opinioni, al verificarsi dell'evento E.
Formula di Bayes:
Teorema fondamentale nel calcolo delle probabilità. È utile quando si hanno problemi di causa-effetto. Anziché calcolare la probabilità di C dato A (o B), si calcola la probabilità di Ai dato C. Questa probabilità si esprime come la probabilità di Ai (evento condizionante) moltiplicata per la probabilità di C dato Ai diviso la probabilità di C. Il denominatore può anche essere scritto utilizzando la legge delle probabilità totali. Le uguaglianze derivano dalla definizione di probabilità condizionata e dalla sua formula inversa. Il teorema di Bayes viene utilizzato in ambito biomedico quando si studiano le probabilità di contrarre una certa malattia data una certa attitudine di vita. Due eventi si dicono indipendenti quando il verificarsi di uno non influisce sul verificarsi dell'altro. Se A e B sono indipendenti significa che la probabilità congiunta, cioè che si verifichino contemporaneamente, è data.
Dal prodotto delle probabilità marginali P(A)*P(B).
Test in R: Per eseguire correttamente il t test bisogna prima di tutto capire se i due gruppi sono:
- Indipendenti (due differenti campioni, ad esempio diabetici e non diabetici)
- Appaiati (lo stesso campione misurato 2 volte, ad esempio lo stesso gruppo di soggetti prima e dopo una terapia)
Il p-value è la probabilità di commettere un errore di primo tipo, rifiutando l'ipotesi nulla, o la probabilità di osservare, sotto ipotesi nulla, un valore della statistica di test almeno estremo quanto quello ottenuto in base ai dati. Il p-value si confronta con il livello di significatività alfa, che è la probabilità massima di compiere un errore di primo tipo che si concede. Alfa è sempre uguale a 0.05. Se p<0.05 si rifiuta l'ipotesi nulla, se p>0.05 non si rifiuta l'ipotesi nulla.
Il livello di significatività per il calcolo dell'intervallo di confidenza è modificabile, di default è 95%, ma aggiungendo conf.level=
possiamo modificarlo. Per il test a due campioni, quindi quando si confrontano, si scrive t.test(X~Y) ovvero x diviso in base a y. Ipotesi di domanda per questo caso: consideriamo il dataset. È possibile stabilire che esista una differenza statisticamente significativa tra i livelli medi di PGR per ER=0 e ER=1? In caso il p-value risultasse inferiore a 0.05 Si rifiuta l'ipotesi che le medie siano uguali. Altro caso possibile -> Consideriamo il dataset. È possibile che esista una differenza statisticamente significativa tra i livelli medi di PGR e ESR2? Per confrontare le medie utilizzando due campioni indipendenti -> t.test(PGR,ESR2) in questo caso il p-value è <2.2e-16 quindi si rifiuta l'ipotesi che le due medie siano uguali perché minori di 0,05.
TEST WILCOXON PER UN CAMPIONE: Si utilizza quando non è possibile assumere la normalità della distribuzione e la taglia è <30. È un test non parametrico che utilizza i ranghi.
come ipotesi nulla che il valore della mediana abbia il valore specificato da μ il comando ->wilcox.test(campione,mu=) la risposta è fornita direttamente dal test ci sono ties quando vi sono uno o più valori ripetuti. Si possono eseguire test ad una coda con il comando alternative si può non usare la correzione di continuità di default con il comando correct=f TEST WILCOXON PER DUE CAMPIONI Si utilizza quando non si è certi del requisito di normalità per le due popolazioni e le taglie sono piccole. È passato, come il test per un campione sulla sostituzione dei valori campionari con i loro ranghi. L'ipotesi nulla è che le mediane delle due distribuzioni da cui sono estratti i campioni siano uguali. Il comando è il seguente ->wilcox.test(campione1~campione2) TEST PER CAMPIONI APPAIATI Quando i campioni sono appaiati, cioè ogni osservazione in un campione è associata ad un'osservazione nel secondo campione, si può utilizzare il test di Wilcoxon per campioni appaiati. L'ipotesi nulla è che non ci sia differenza tra le mediane dei due campioni. Il comando è il seguente ->wilcox.test(campione1, campione2, paired=TRUE)