Appunti completi e ottimi di analisi dei dati, R, RStudio e correlati con esempi e esercizi

Appunti di analisi dei dati e tecnologie informatiche basati su appunti personali del publisher presi alle lezioni del prof. Lombardi dell’università degli Studi di Trento - Unitn, …

Esame Analisi dei dati e tecnologie informatiche

Facoltà Scienze cognitive

Dal corso del Prof. Lombardi Luigi

Università Università degli Studi di Trento

Publisher 30elodee

A.A. 2017-2018

109 pagine

3 download

Appunto

Vota 4,0 / 5 (1)

Scarica

Estratto del documento

MODULO 4: ORA LAVORIAMO SULLA POPOLAZIONE

LA DISTRUBUZIONE NORMALE media=0 e sd=1

La distribuzione normale standardizzata ha due parametri con valori fissi: .

Funzione sequenza seq

Con seq( ) generiamo un vettore con valori che vanno da un minimo ad un massimo e incrementa

di un tot che decidiamo noi, tramite by=…

x<-seq(-3,3,by=0.001)

In questo modo: cioè un vettore molto grande perchè incrementa ‘piano’.

Funzione dnorm( )

norm sta ad indicare una distribuzione normale, e il prefisso d davanti serve per farmi capire che

tale funzione va ad estrarre un valore di densità che specifico io.

Perciò dnorm ( ) ha come primo argomento i valori di cui voglio calcolare i punti di densità.

Il secondo e terzo argomento sono dei parametri che indicano media e sd della popolazione.

Nel nostro esempio facciamo fx<-dnorm(x,0,1)

Poi vogliamo il grafico del vettore x che avevamo creato prima e fx che abbiamo creato adesso:

plot(x,fx,type=“l")

- type=“l” vuol dire, non mettermi trattini o punti, ma mettimi una linea tratteggiata continua che

collegano i punti.

- type=“p” è quello di default

- type=“both” mette entrambe le cose.

Nel nostro esercizio, ci esce così:

funzione di densità cumulata,

Ora vediamo la che sta ad indicare la probabilità di osservare

quell’evento, che la mia variabile causale X assuma valori minori o uguali del valore x, di cui voglio

calcolare il valore di funzione di densità cumulata.

quindi F(X=x) = Pr[X<=x]

X è la variabile casuale, x è un possibile valore che tale variabile può assumere. Pagina 4 di 5

Dunque F(X=0)=Pr[X<=0] ; calcolo il valore di probabilità che il valore x della variabile casuale

vada da —infinito a 0. Per calcolare tale probabilità, che la x ricada su valori da - inf a 0, vado a

L’integrale

integrare la funzione normale standardizzata, dal valore -inf fino al punto 0. che verrà

calcolato da -inf a 0 sarà l’area sottesa alla funzione che va appunto da -inf a 0.

Il risultato in questo caso è 0,5. Infatti…

—> Se vado a integrare l’area di una funzione normale standardizzata da -inf a +inf , tale integrale

deve essere = 1

—> Dato che la distribuzione normale è perfettamente simmetrica attorno alla media, l’area che

calcolo a sx(-inf,0) è uguale a quella dopo la media (0,+inf) e queste due aree integrano a 1, quindi

l’interale da -inf a 0 è =0,5.

Se avessi avuto x=-2 vuol dire che sarei stata interessata all’area che integra da -inf a -2.

La probabilità che x tende a -inf, vuol dire che prende in considerazione un intervallo molto

piccolo, che si restringe sempre di più. In questo caso la probabilità cumulata =0. tutto

Al contrario, la probabilità cumulata che tenda a +inf è =1 ,dato che tende a ricoprire lo

spazio, tutto l’intervallo

la funzione pnorm

Usiamo per calcolare queste cose senza dover stare li a farsi gli integrali.

pnorm ha la p che indica la probabilità di un intervallo di un certo tipo. Ha 3 arg.

Il primo argomento è il punto della variabile casuale di cui vogliamo calcolare il valore cumulato di

probabilità. Gli altri argomenti sono mean e sd (rispettivamente 0 e 1).

Mettiamo che x=0

Il valore critico ricordiamo che è 1.96.

NB: l’integrale parte sempre da -inf, da sinistra.

Pr[X>-1 & X<0.5]

Voglio calcolare la probabilità che dunque che x ricada in un intervallo

intermedio faccio così: pnorm(0.5,0,1)-pnorm(-1,0,1). Dunque faccio la probabilità che ricada fra

-inf e 0.5 meno la probabilità che ricada da -inf a -1. Pagina 5 di 5

13/11/17

M4: Principali distribuzioni di probabilità

DISTRIBUZIONI DI PROBABILITÀ DI TIPO CONTINUO

Definizioni generali

Indichiamo con X una variabile casuale di tipo continuo secondo la funzione di densità fx(x|0). E'

continua perchè i suoi valori numerici possono assumere valori dell’insieme dei numeri reali.

fx(x|θ) è una funzione che ha valore x condizionato a θ. ( “|” vuol dire condizionato)

Sia fx sia θ possono assumere significati particolari.

fx è una funzione di densità parametrica con parametri θ € Θ

Θ è lo spazio dei parametri, è l’insieme di tutti i valori che θ può assumere.

Nel caso della distribuzione normale, Θ è l’insieme di tutte le possibili assegnazioni che i 2

parametri della distribuzione normale possono assumere. I parametri sono media e varianza,

quindi Θ sarà dato dal prodotto cartesiano RxR+ (perchè la varianza è sempre positiva)

θ è il naturale valore di parametri.

Il dominio della funzione dei densità è R, che sarà il campo di esistenza della nostra variabile.

Il codomio è R+, dunque l’insieme dei numeri reali positivi.

I θ sono i parametri della distribuzione sono le info specifiche.

θ è il valore specifico mentre Θ è l’insieme dei valori che θ può assumere. E' l’insieme di tutte le

possibili assegnazioni.

La funzione di densità cumulata FX(x| θ) è definita come FX(x| θ)

f minuscolo esprime la funzione di densità mentre F il concetto di funzione di densità cumulata. F

e f hanno comunque lo stesso dominio, cioè quello specificato sopra del disegno.

Il codomio invece cambia, infatti quello di F è [0,1], quindi i valori sono definiti sulla sua che va da

0 a 1, che produce come esiti delle probabilità di un particolare evento, cioè che la nostra

variabile casuale X assuma valori <= x , che è l’argomento della funzione cumulata.

Tutte le funzioni di densità integrano a 1. Pagina 1 di 5

La funzione quantili

Θ θ

La funzione quantili è la funzione inversa della funzione cumulata, e vedi slide L’argomento della

funzione quantile non è un valore reale qualunque, ma un valore p (che indica probabilità)

condizionata al nostro modello θ. L’argomento sarà un valore di probabilità. Il codomio della

funzione quantile sarà un valore R; un esito della variabile causale X.

La funzione quantile ha argomento p e argomento θ è inversa della funzione cumulata X con

argomento p.

Se la funzione quantile è inversa alla funzione cumulata, allora anche viceversa. Sono invertibili,

infatti: qx(p| θ)=F alla -1 (p| θ)

La funzione di densità cumulata è collegata alla f di densità tramite il processo di integrazione e la

funzione di densità cumulata è collegata alla funzione quantile attraverso il processo di inversione

matematica.

La funzione normale standardizzata ha θ definito da media e sd . Con mean=0 e sd=1.

Nella funzione densità cumulata vediamo che ad ogni x corrisponde un y che esprime la

probabilità di osservare l’evento che x assuma valori <= al valore x che vogliamo calcolare.

Il grafico della funzione quantile ha come p valori da 0 a 1 , mentre ha come codomio tutto lo

spazio R. Vediamo appunto che è la funzione inversa fra un valore di probabilità e il valore del

quantile. Pagina 2 di 5

qnorm(p,mean,sd) p deve essere o uno scalare che continiene un numero fra 0 e 1; oppure può

essere un vettore che contiene un insieme di probabilità . Dunque un valore singolo di probabilità

o un insieme .

rnorm(n,mean,sd) genera numeri casuali estratti da una distribuzione normale. n è il numero di

osservazioni che vogliamo campionarie.

Esempio Questi pallini sono valori di densità, cioè sono i valori che

ottengo calcolando l’integrale da -inf a un tot, nel primo

caso dino a 3, poi fino a 8, ecc..

Se un valore sta sopra o sotto alla media, in questo caso

vediamo 8 e 12, il valore di densità è comunque positivo.

Questi due (8 e 12) hanno la stessa distanza assoluta

dalla media 10. E' infatti una distribuzione simmetrica.

In questo caso più il valore della variabile che ci interessa

cresce, più il valore di densità cumulata andrà a crescere.

Notare che il valore dei quantili sono i risultati dei rispettivi

punti in F.

NB: se voglio sapere il valore di f(8) avendo il risultato di f(12) basta fare 1- f(12). E viceversa,

infatti quei due punti sono simmetrici e hanno gli stessi punti di densità.

<=12.

f(12) calcola la probabilità che x assuma valori Dato che x è una variabile continua, lo

spazio campionario va da -inf a 12. Pagina 3 di 5

A sx ci sono 3 possibili funzioni di densità associate al modello della coppia di parametri m=0 ,

var=3 ; poi m=5 var=5 e poi m=8 var=10.

Ora usiamo R Studio.

Apriamo il file di dati scaricato “disegnoNormaleR”, dove gli ordini sono preimpostati.

Permette di visualizzare gli integrali associati alla funzione di densità cumulata. Dato il punto in

ascissa, 2, che è associato alla funzione quantile 2, ci mostra l’integrale associato al punto 2.

Se cambiamo con 10, cambia chiaramente il grafico.

Per calcolare il valore di tali integrali tratteggiati con R, nel nostro esempio possiamo fare

pnorm(2,Media,Ds). Inoltre vediamo la diﬀerenza dei grafici se usiamo pnorm(10,Media,Ds)

Pagina 4 di 5

Invece facendo partire entrambi i quantili 10 e 8 come si vede già sotto, ci esce:

Questa è un’area evento particolare. Qual è la probabilità che x assuma valori sull’intervallo 8-10?

Se devo calcolare l’intervallo da 8 a13 posso fare:

pnorm(13,10,5) — pnorm(8,10,5)

Se invece devo fare da 8 a 10, dove 10, il limite superiore, corrisponde la media, basta fare 0,5

(integrale da -inf alla media) — l’integrale che va fino a 8.

In definitiva basta fare pnorm dell’intervallo più ampio - quello che si trova nella parte inferiore, a

sx. Ricordiamo infatti che gli integrali partono da sinistra, da -inf. Pagina 5 di 5

14/11/17

Oggi vediamo la distribuzione t di student, la distribuzione del chi2 e altre

FUNZIONE t DI STUDENT

E' una distribuzione che caratterizza il comportamento di una variabile causale continua che ha D

in R e come la normale, anche la distribuzione t di student è simmetrica.

Nella normale i parametri governano tramite la media anche la posizione delle cose, invece la

distribuzione t student è sempre centrata attorno al valore 0. 0 è l’unico valore di media.

La t di student è caratterizzata anche dai gdl che dipendono dalla grandezza, numero del

campione di osservazioni (N).

L’unico argomento è quindi caratterizzato dai gdl (df) che sono valori sempre positivi che variano

Anteprima

Vedrai una selezione di 10 pagine su 109