Anteprima
Vedrai una selezione di 5 pagine su 17
Statistica di base con R Pag. 1 Statistica di base con R Pag. 2
Anteprima di 5 pagg. su 17.
Scarica il documento per vederlo tutto.
Statistica di base con R Pag. 6
Anteprima di 5 pagg. su 17.
Scarica il documento per vederlo tutto.
Statistica di base con R Pag. 11
Anteprima di 5 pagg. su 17.
Scarica il documento per vederlo tutto.
Statistica di base con R Pag. 16
1 su 17
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

(supporto della variabile) con certa probabilità Distribuzione di probabilità

(probability distribution function, pdf): assegno a ogni possibile valore della variabile

casuale una probabilità.

Lancio moneta 3 volte: 8 possibili risultati, {TTT,TTC,TCT,TCC,CTT,CTC,CCT,CCC}; X =

esce testa, essa assumerà valore 0 con P=1/8, 1 con P=3/8, 2 con P=3/8, 3 con P=1/8.

{ } x

→ valori possibili

0 1 2 3 di X

=

X 1 3 3 1 =x)

P( X

→ probabilità

8 8 8 8

Rappresentazione grafica con diagramma a bastoncini (in ascissa valori possibili, in

ordinata probabilità):

Possibile calcolare probabilità in vari casi: ottenere ALMENO 1 testa

( )=3 ( )=3

/8+3/8+1/8=7/8 >1 /8+ /8=1/2

P X ≥ 1 P X 1/ 8=4

; PIÙ di 1 testa ; NON PIÙ

( )=1 ( )=1/8+3

/8+ /8=7 /8 <2 / /8=1/2

P X ≤ 2 3/ 8+3 P X 8=4

di 2 teste ; MENO di 2 teste

.

Valore atteso E: indice di posizione/centralità distribuzione variabile aleatoria

(analogo di media, mediana in descrittiva) somma valori assunti da variabile,

moltiplicati per rispettiva probabilità (probabilità pesate):

( )= = )

E Y y∗P(Y y

Es lancio dado, se esce 6 vinco 10€, y = 10 con P = 1/6, se altro numero perdo 1€, y =

-1 con p = 5/6. Quanto posso vincere in media per lancio? E(Y) = 10*1/6 + (-1)*5/6 =

5/6 = 0,83.

Comandi R:

Valore atteso si può approssimare con una media aritmetica su esperimento con

tante replicazioni. Simulazione con R:

Deviazione standard SD: misura dispersione distribuzione variabile aleatoria

attorno a valore atteso (analoga deviazione standard in descrittiva) somma pesata

distanza al quadrato singoli valori rispetto valore atteso, sotto radice:

√ ∑ 2

( )

( )= ( ) ( )

∗P

SD X x−E X x= X

Es lancio 3 monete, X=numero teste:

(X )

In intervallo cioè 0,633-2,367 sono compresi 2 valori più

 E( X) ± SD

probabili X=1 e X=2, infatti probabilità che escano 1 o 2 teste P = 3/8 + 3/8 = 6/8 =

∼75%.

Modello per variabili aleatorie discrete Distribuzione binomiale

Modello teorico, applicabile a molte situazioni pratiche per stimare alcune caratteristiche

popolazione generale. Dato esperimento binario = due possibili esiti, per convenzione

denominati successo e insuccesso, la variabile binomiale conta numero di successi

in n replicazioni indipendenti dell’esperimento binario che ha probabilità

successo pari a p n e p detti parametri distribuzione binomiale.

 (n , p)

=numero

X successi X ¿

Es delfini: 16 ripetizioni esperimento, successo = Buzz preme pulsante giusto, Z =

(16 , p)

Z

quante volte preme giusto; p indefinito perché dovevamo determinarlo,

¿

0,5 (sceglie pulsante a caso) o maggiore (delfini comunicano), basandoci su risultati

esperimenti.

Esempi: influenza non binomiale perché non ho indipendenza delle prove, fratelli non

binomiale perché non è esperimento binario (variabile casuale conta n totale fratelli),

maschi e femmine binomiale (interpreto successo = essere femmina).

Calcolo probabilità binomiale funzione pbinomGC (tigerstats).

Es test 20 domande, ognuna con 4 risposte di cui una corretta, per passare test almeno

8 risposte corrette; successo = risposta corretta, probabilità scegliendo a caso = 1/4;

variabile X conta n risposte corrette, X∼binom(20,0.25). Calcolo probabilità di ottenere:

AL PIÙ 7 successi (fallire test), :

 P( X ≤ 7)

pbinomGC(7,size=20,prob=0.25,graph=TRUE), sottinteso region=”below”

comprende estremo;

ALMENO 8 successi (passare test), :

 P( X ≥ 8)

pbinomGC(7,size=20,prob=0.25,graph=TRUE, region=”above”) non

comprende estremo (X ≥ 8 → X > 7);

TRA 4 E 7 successi estremi compresi, :

 P(4 ≤ X ≤ 7)

pbinomGC(c(4,7),size=20,prob=0.25, graph=TRUE,region=”between”) 

comprende estremi;

ESATTAMENTE 8 successi, :

=8)

 P(X

pbinomGC(c(8,8),size=20,prob=0.25,graph=TRUE, region=”between”).

Rappresentazione grafica: istogramma, per ogni valore di X (x) barra con area pari a

probabilità che x assuma quel valore (in questo caso area = altezza perché base = 1);

area in azzurro probabilità che sto calcolando.

Comandi solo di R:

dbinom (d=density): probabilità ottenere singolo valore, es dbinom(8,20,0.25);

 pbinom: ottenere valore minore o uguale P ottenere tra 4 e 7 estremi

 

compresi: pbinom(7,20, 0.25) - pbinom(3,20,0.25) o

sum(dbinom(4:7,20,0.25));

rbinom: genera valori casuali associati a binomiale con parametri inseriti.

 (n , p)

X

Valore atteso e deviazione standard binomiale :

¿

( )=np ( )=

E X SD X np(1− p)

Se p molto vicino a 0 molto difficile avere successo, distribuzione spostata verso

numero basso successi asimmetrica a destra; viceversa se p molto vicino a 1

asimmetrica a sinistra; se p circa 0,5 distribuzione più o meno simmetrica (vedi

app BinomSkew).

All’aumentare di n asimmetria attenuata, curva più o meno a campana (vedi app

( )

BinomNorm) se e è valida l’Empirical Rule:

np ≥ 10 n 1− p ≥10

0.68 probabilità che X compresa in intervallo E(X) ± SD(X);

 0.95 probabilità che X compresa in intervallo E(X) ± 2 SD(X);

 0.997 probabilità che X compresa in intervallo E(X) ± 3 SD(X).

Variabili aleatorie continue

Assumono valori in un sottoinsieme continuo di numeri reali, intervallo valori 

troppi valori per poter associare a ognuno una probabilità, quindi si parla di densità di

probabilità: per valori compresi in intervallo A esiste funzione continua f(x) detta

funzione di densità (pdf). Probabilità che variabile stia nell’intervallo pari ad area

sotto la curva, calcolata tramite integrale:

( )= ( )

P X A f x dx

A −∞ +∞

f(x) deve essere integrabile e maggiore di 0; integrando densità tra e si

ottiene P = 1 (massa totale probabilità). Densità di probabilità già vista in statistica

2 , p-value calcolato integrando una densità.

χ

Distribuzione normale: modello teorico variabili aleatorie continue più importante,

valido in molte situazioni reali, spesso distribuzione dati statistici ha forma molto simile

Curva a campana, 2 parametri:

 , asse di simmetria (curva simmetrica rispetto a μ);

(X )

 μ=E , dispersione attorno a μ (quanto curva è schiacciata).

=SD ( )

 σ X

Normale standard: μ = 0, σ = 1.

Empirical rule applicabile, derivata infatti da una distribuzione normale:

)≈

 P(μ−σ ≤ X ≤ μ+σ 0.68

)≈

 P( μ−2σ ≤ X ≤ μ+ 2σ 0.95

+3 )≈

 P( μ−3 σ ≤ X ≤ μ σ 0.997

Teorema del limite centrale (vedi sotto): permette di approssimare distribuzioni non

conosciute, spesso date da somma di più distribuzioni, con quella normale (spesso dati

reali somma di tante variabili che non conosciamo).

Calcolo P normale con pnormGC. Es X = altezza studenti, μ = 72, σ = 3.1:

P(X > 70.9) pnormGC(70.9, region=”above”, mean=72, sd=3.1,

 

graph=TRUE);

P(X < 69) pnormGC(69, region=”below”, mean=72, sd=3.1, graph=TRUE);

 

P(69 < X < 72) pnormGC(c(69,72), region=”between”, mean=72, sd=3.1,

 

graph=TRUE);

P(X < 69.9 o X > 75.1) pnormGC(c(69.9,75.1), region=”outside”,

 

mean=72, sd=3.1, graph=TRUE).

Se non specifico mean e sd programma considera normale standard.

Area azzurra: probabilità che ci interessa.

( )=P( >

P X ≥ x X x)

NB per variabile aleatoria continua , includere o escludere estremo è

la stessa cosa; distribuzione spalma probabilità nell'intervallo così bene che

( )=0

P X=x , probabilità che variabile un singolo valore particolare è 0.

Percentili/quantili distribuzione normale: mediana, divide in due distribuzione,

coincide con media (valore atteso) perché distribuzione simmetrica, detta quantile

di livello 0.5 (o 50mo percentile); analogamente quantile livello 0.8 lascia a sinistra 0.8

di probabilità, a destra restante 0.2 comando qnormGC(0.8,

mean=,sd=,region=””): primo argomento livello quantile.

Comandi solo di R:

dnorm(n,mean=,sd=): densità normale in punto particolare (n), altezza curva in

 quel punto (necessaria solo per disegnare densità, no per fare conti);

pnorm(n,mean=,sd=): area (probabilità) a sinistra valore inserito (n);

 qnorm(livello,mean=,sd=): valore associato a livello quantile inserito (contrario di

 pnorm);

rnorm(n,mean=,sd=): genera n valori casuali (r=random) da distribuzione

 normale con media e sd inserite x<-rnorm(50), hist(x): ottengo distribuzione

simile a normale, aumentando n valori distrib ancora più simile.

Campionamento e probabilità

Definizioni:

Parametro: numero associato a popolazione, sua caratteristica che non

 conosciamo e vogliamo determinare studiando il campione; valore fisso, non

dipende da probabilità;

Statistica: numero calcolato dai dati di un campione; soggetta a variabilità,

 dipende da probabilità.

Statistiche utilizzate per stimare parametri corrispondenti dette stimatori; obiettivo

ricavare stimatore più vicino possibile a parametro; bontà stimatore in base a sua

distribuzione di probabilità. Esempi:

Parametro Stimatore

μ x́

Media popolazione Media campione

Deviazione standard Deviazione standard

σ s

popolazione campione

Mediana popolazione Mediana campione

Q1 e Q3 popolazione Q1 e Q3 campione

5 parametri più importanti e stimatori corrispondenti:

1) Media media campionaria : utilizzata per variabile quantitativa (es

μ x́

altezza media).

Campiono popolazione; stimatore variabile casuale distribuzione con valore

x́ 

atteso e deviazione standard:

σ

( )=μ ( )=

E x́ SD x́ √ n ^

2) Proporzione proporzione campionaria : osservazioni a cui siamo

p p

interessati/dimensione campione (percentuale, probabilità); variabile qualitativa (es %

maschi-femmine, fumatori-non fumatori).

√ ( )

p 1−p

^ ^

( )= ( )=

E p p SD p n −μ −x́

μ x́

3) Differenza tra due medie :

Dettagli
A.A. 2018-2019
17 pagine
1 download
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher brixen96@hotmail.com di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi Ca' Foscari di Venezia o del prof Giummolè Federica.