Modulo di Statistica Elaborazione dei dati informatici

Appunti riassuntivi del modulo di statistica della professoressa Maria Teresa Giraudo, presso l'università di Torino.
Gli appunti vertono sulle videolezioni attuate nel corso del 2021.
I temi principali sono:
-Introduzione alla statistica
-Statistica descrittiva
-La legge della probabilità
-Statistica inferenziale
-Test statistici in R
-Verifica di ipotesi

Esame Statistica

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Giraudo Maria Teresa

Università Università degli studi di Torino

Publisher Alicelarentis

A.A. 2020-2021

22 pagine

Appunto

Vota

Scarica

Estratto del documento

Confronto delle distribuzioni dei due campioni

Si possono confrontare le distribuzioni dei due campioni costruendo boxplot affiancati. Nel caso in cui vi siano due casi correlati all'interno dello stesso campione, quindi misurati sugli stessi soggetti, si intende studiare la relazione tra le due variabili nello stesso campione. Il campione è costituito da coppie di valori, uno per ognuna delle sue variabili per ogni soggetto. Si intende verificare se esista una correlazione tra le due variabili.

Scatterplot o diagramma a dispersione: è una rappresentazione grafica delle coppie di punti per ogni soggetto. In corrispondenza di ogni soggetto avremmo le coordinate per ogni soggetto che corrisponderanno ai valori di quel soggetto sull'asse x e su quello y in base alle variabili.

Costruzione di scatterplot:

Argomento d'esempio utilizzato -> pulsazioni.csv

Il primo argomento dev'essere un dataframe, la specifica del tipo di grafico che desidero utilizzare in ggplot è diverso e sarà accompagnato dal comando geom_...

Pl <- ggplot(dati, aes(x=Pulsazioni.al.minuto,...

y=Tempo.di.percorrenza))+geom_point(color="red")-> Comando per eseguire uno scatterplot assegnandolo ad un vettore N.B. -> header = T -> Parte di codice che permette di visualizzare i nomi di dataframe, che se disattivato verrebbero indicati con semplici lettere L'obiettivo è vedere se vi sia una correlazione lineare tra le due variabili. Creazione di uno scatterplot senza l'utilizzo di ggplot E' possibile creare uno scatterplot senza necessariamente utilizzare il pacchetto ggplot utilizzando il comando: ```html ``` pch -> parte di comando che permette la personalizzazione del tipo di punto da inserire nel grafico, il numero 3 corrisponde a croci, il 6 a triangoli e via dicendo. ATTENZIONE a non scambiare la x e la y, il primo argomento a dover essere scritto è la x, successivamente la y. Anchequesto comando è totalmente modificabileLa covarianzaIndice legato alla teoria delle probabilità, che consente di verificare se fra due variabili statistiche esista un legame lineare.Ha come dimensioni il prodotto delle dimensioni delle singole variabili. Mostra come varia la x al variare di y.La covarianza non ha un limite può andare dal punto di vista dei valori che può assumere, varia -infinito a + infinito e la sua unità di misura dipende dall'unità di misura delle due variabili.La covarianza può essere:- Positiva-> Quando x e y variano tendenzialmente nella stessa direzione, cioè a crescere di x tende a crescere anche y; alla diminuzione x tende a diminuire anche y- Negativa-> Quando le due variabili variano tendenzialmente in direzione opposta, cioè quando al crescere di una variabile l'altra variabile tende a diminuire e viceversa- Nulla-> Quando non vi è alcuna tendenza delle due variabili a

Variare nella stessa direzione o in direzione opposta. Quando cov(x,y) = 0 si dice che x e y sono non correlate o che non esiste una correlazione lineare tra loro. Non avremo mai 0, ma un valore molto piccolo.

Indice di correlazione lineare di Pearson

Dato che la covarianza può assumere valori su tutta la retta reale, è stato introdotto un coefficiente che divide la covarianza per le due deviazioni standard.

covarianza / Radice quadrata deviazione standard di X moltiplicata per radice quadrata di deviazione standard Y

Succede la stessa cosa che succedeva con il coefficiente di variazione, abbiamo diviso la deviazione standard per la media, in modo tale da avere un indice adimensionale confrontabile tra variabili diverse. Il coefficiente di correlazione di Pearson è adimensionale ed assume solo valori da -1 a 1, se il valore è 1 c'è una perfetta correlazione nella quale i valori della variabile crescono insieme; se è negativa e quindi assume valore di -1

è negativa e crescono insenso opposto.A differenza della covarianza non è influenzabile dall’unità di misura.Un indice di correlazione alto corrisponderà ad un andamento lineare dei punti sullaretta, mentre con un indice di correlazione basso, avremo i punti più “sparpagliati”lungo il grafico.

Covarianza in R
Cov(Pulsazioni.al.minuto, Tempo.di.percorrenza)-> Comando per calcolare la covarianza
Cor(Pulsazioni.al.minuto, Tempo.di.percorrenza)-> Permette di eseguire il calcolo del coefficiente di correlazione

Calcolo e distribuzioni di probabilità
Il calcolo della probabilità descrive tramite opportuni modelli matematici, fenomeni non deterministici o casuali. Per studiare un fenomeno casuale occorre innanzitutto modellizzarli tramite uno spazio di probabilità che contempli tutti i possibili esiti degli esperimenti casuali e le loro combinazioni, chiamati più opportunamente eventi.

Esito-> Possibili risultati

dell'esperimento casualeEventi->Sottoinsiemi dello spazio campionario, può realizzarsi con più esiti. Vedasi un dado appena lanciato, avremo come possibili esiti dei numeri interi da 1 a 6. Gli eventi sono combinazioni di esiti e si suddividono in: - Evento semplice-> Quando un evento coincide con un singolo esito - Evento complesso-> Quando si parla di una combinazione di possibili esiti Lo spazio degli eventi comprende tutti i possibili esiti dell'esperimento casuale ed è indicato con la lettera maiuscola greca omega Ω. Riprendendo l'esempio del dado si scriverebbe Ω=(1,2,3,4,5,6). Ad ogni evento corrisponde un sottoinsieme di Ω. La base nel calcolo delle probabilità è l'uso delle proprietà delle operazioni tra insiemi: - A,B in Ω - A∩B intersezione di A e B - AUB unione di due insiemi - Ᾱ non si verifica - Ø evento impossibile La probabilità è una funzione che a ogni

sottoinsieme di Ω dello spazio degli eventi può corrispondere un numero reale, con certe proprietà.

Esistono tre possibili definizioni del concetto di probabilità:

Probabilità classica-> La probabilità di un evento è il rapporto tra il numero dei casi favorevoli ed il numero dei casi possibili. P = n eventi favorevoli / n eventi possibili
Probabilità frequentista-> si definisce frequenza relativa di un evento in n prove effettuate nelle stesse condizioni, il rapporto fra il numero k delle prove nelle quali l'evento si è verificato ed il numero n delle prove effettuate.
Probabilità soggettiva-> Nella probabilità soggettiva si stima la probabilità in base allo studio d'informazione. La probabilità P(E) di un evento E è la misura del grado di fiducia che un individuo attribuisce, in base alle sue informazioni e alle sue opinioni, al verificarsi dell'evento E.

Formula di Bayes:

Teorema fondamentale nel calcolo delle probabilità. È utile quando si hanno problemi di causa-effetto. Anziché calcolare la probabilità di C dato A (o B), si calcola la probabilità di Ai dato C. Questa probabilità si esprime come la probabilità di Ai (evento condizionante) moltiplicata per la probabilità di C dato Ai diviso la probabilità di C. Il denominatore può anche essere scritto utilizzando la legge delle probabilità totali. Le uguaglianze derivano dalla definizione di probabilità condizionata e dalla sua formula inversa. Il teorema di Bayes viene utilizzato in ambito biomedico quando si studiano le probabilità di contrarre una certa malattia data una certa attitudine di vita. Due eventi si dicono indipendenti quando il verificarsi di uno non influisce sul verificarsi dell'altro. Se A e B sono indipendenti significa che la probabilità congiunta, cioè che si verifichino contemporaneamente, è data.

Dal prodotto delle probabilità marginali P(A)*P(B).

Test in R: Per eseguire correttamente il t test bisogna prima di tutto capire se i due gruppi sono:

Indipendenti (due differenti campioni, ad esempio diabetici e non diabetici)
Appaiati (lo stesso campione misurato 2 volte, ad esempio lo stesso gruppo di soggetti prima e dopo una terapia)

Il p-value è la probabilità di commettere un errore di primo tipo, rifiutando l'ipotesi nulla, o la probabilità di osservare, sotto ipotesi nulla, un valore della statistica di test almeno estremo quanto quello ottenuto in base ai dati. Il p-value si confronta con il livello di significatività alfa, che è la probabilità massima di compiere un errore di primo tipo che si concede. Alfa è sempre uguale a 0.05. Se p<0.05 si rifiuta l'ipotesi nulla, se p>0.05 non si rifiuta l'ipotesi nulla.

Il livello di significatività per il calcolo dell'intervallo di confidenza è modificabile, di default è 95%, ma aggiungendo conf.level=

possiamo modificarlo. Per il test a due campioni, quindi quando si confrontano, si scrive t.test(X~Y) ovvero x diviso in base a y. Ipotesi di domanda per questo caso: consideriamo il dataset. È possibile stabilire che esista una differenza statisticamente significativa tra i livelli medi di PGR per ER=0 e ER=1? In caso il p-value risultasse inferiore a 0.05 Si rifiuta l'ipotesi che le medie siano uguali. Altro caso possibile -> Consideriamo il dataset. È possibile che esista una differenza statisticamente significativa tra i livelli medi di PGR e ESR2? Per confrontare le medie utilizzando due campioni indipendenti -> t.test(PGR,ESR2) in questo caso il p-value è <2.2e-16 quindi si rifiuta l'ipotesi che le due medie siano uguali perché minori di 0,05.

TEST WILCOXON PER UN CAMPIONE: Si utilizza quando non è possibile assumere la normalità della distribuzione e la taglia è <30. È un test non parametrico che utilizza i ranghi.

come ipotesi nulla che il valore della mediana abbia il valore specificato da μ il comando ->wilcox.test(campione,mu=) la risposta è fornita direttamente dal test ci sono ties quando vi sono uno o più valori ripetuti. Si possono eseguire test ad una coda con il comando alternative si può non usare la correzione di continuità di default con il comando correct=f TEST WILCOXON PER DUE CAMPIONI Si utilizza quando non si è certi del requisito di normalità per le due popolazioni e le taglie sono piccole. È passato, come il test per un campione sulla sostituzione dei valori campionari con i loro ranghi. L'ipotesi nulla è che le mediane delle due distribuzioni da cui sono estratti i campioni siano uguali. Il comando è il seguente ->wilcox.test(campione1~campione2) TEST PER CAMPIONI APPAIATI Quando i campioni sono appaiati, cioè ogni osservazione in un campione è associata ad un'osservazione nel secondo campione, si può utilizzare il test di Wilcoxon per campioni appaiati. L'ipotesi nulla è che non ci sia differenza tra le mediane dei due campioni. Il comando è il seguente ->wilcox.test(campione1, campione2, paired=TRUE)

Anteprima

Vedrai una selezione di 6 pagine su 22

Modulo di Statistica Elaborazione dei dati informatici Pag. 1

Modulo di Statistica Elaborazione dei dati informatici Pag. 2

Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.

Scarica

Modulo di Statistica Elaborazione dei dati informatici Pag. 6

Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.

Scarica

Modulo di Statistica Elaborazione dei dati informatici Pag. 11

Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.

Scarica

Modulo di Statistica Elaborazione dei dati informatici Pag. 16

Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.

Scarica

Modulo di Statistica Elaborazione dei dati informatici Pag. 21

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Alicelarentis di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Giraudo Maria Teresa.

Appunti correlati

Invia appunti e guadagna

Recensioni

Ti è piaciuto questo appunto?

Modulo di Statistica Elaborazione dei dati informatici

Confronto delle distribuzioni dei due campioni

Recensioni

Domande e risposte

I migliori insegnanti di Matematica

Giovanni C.

Salvatore F.

Matteo S.