Statistica

Appunti completi di statistica, probabilità, verifica di ipotesi e regressione applicata in ambito biotecnologico basati su appunti personali del publisher presi alle lezioni della …

Esame Informatica

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Besozzi Daniela

Università Università degli Studi di Milano - Bicocca

Publisher Alicegi

A.A. 2016-2017

27 pagine

Appunto

Vota 5,0 / 5 (1)

Scarica

Estratto del documento

N

x x ..+ x x

+ + ∑

1 2 N i

µ= = è un parametro

�

N N

i=1

La media è molto sensibile a tutti i valori dell’insieme di dati, perciò un dato particolarmente diverso

da tutti gli altri può influenzare notevolmente il valore della media

Mediana

La mediana è una misura di centralità costituita dal valore centrale quando i dati vengono disposti

in ordine crescente. Si indica con

La mediana non viene influenzata dai valori estremi dell’insieme di dati

Moda

Dato un insieme di dati, si definisce moda il valore che ha frequenza più elevata. Se esistono due

diversi valori con stessa frequenza massima, si parla di distribuzione bimodale, se esistono più di

due diversi valori con stessa frequenza massima, si parla di distribuzione multimodale, se nessun

valore è ripetuto, si dice che non c’è moda

Midrange

Il midrange è una misura di centralità costituito dal valore che è posto a metà fra il valore massimo

e il valore minimo dell’insieme di dati

valore massimo−valore minimo

Midrange= E’ un valore molto sensibile ai valori estremi

dell’insieme di dati, quindi si usa di rado come misura di centralità

Asimmetria di una distribuzione

Il confronto fra i valori di media, mediana e moda aiuta a scoprire informazioni sulla asimmetria di

una distribuzione. Una distribuzione è detta simmetrica quando la metà sinistra del suo

istogramma è sostanzialmente speculare alla sua parte destra 6

Alice Giussani

Misure di dispersione

Sono misure che forniscono un’indicazione sulla variabilità o dispersione dei dati all’interno di un

campione o della popolazione

Range

Si definisce range di un insieme di dati la differenza fra il valore massimo e il valore minimo dei

dati.

A un range maggiore corrisponde una maggiore variabilità. È una misura non particolarmente

precisa perché dipende solo dai due valori massimo e minimo, e non da tutti i dati del campione

Deviazione standard

La deviazione standard di un campione fornisce una misura della variazione di tutti i dati rispetto

alla media (aritmetica). È una «media» delle differenze dei dati rispetto alla media del campione

– Risulta uguale a 0 solo se i dati sono tutti identici fra loro

– Maggiore è il suo valore, maggiore è la variazione dei dati del campione

– Il suo valore aumenta molto in presenza di uno o più outlier (valori estremi nei dati)

– Ha la stessa unità di misura dei dati del campione – –

Regola empirica

Se i dati hanno una distribuzione «a

campana», allora valgono le seguenti

proprietà:

• Circa il 68% dei dati cade entro 1

deviazione standard dalla media

• Circa il 95% dei dati cade entro 2

deviazioni standard dalla media

• Circa il 99.7% dei dati cade entro 3

deviazioni standard dalla media

Varianza

Dato un insieme di dati, la varianza è una misura di dispersione corrispondente al quadrato della

deviazione standard

– = varianza campionaria

– = varianza della popolazione 7

Alice Giussani 2 2

s σ

Si dice che la varianza campionaria è uno stimatore non distorto di , ovvero i valori

2 2

s σ

assunti da tendono a coincidere con

Misure di posizione

Le misure di posizione «dividono» un insieme di dati (ordinati in modo crescente) in diverse parti

Quartili (Q)

sono 3 misure di posizione che dividono i dati in quattro parti uguali

– Q1 (primo quartile): almeno il 25% dei dati è minore o uguale a Q1 e almeno il 75% dei dati è

maggiore o uguale a Q1

– Q2 (secondo quartile): 50% dei dati sono inferiori e 50% sono superiori a Q2 (come la

mediana)

– Q3 (terzo quartile): almeno il 75% dei dati è minore o uguale a Q3 e almeno il 25% dei dati è

maggiore o uguale a Q3 dividere i dati a

metà e ogni

metà

ulteriormente a

metà

Percentili

sono 99 misure di posizione (denotate con P1 , …, P99) che dividono i dati in 100 gruppi, ognuno

dei quali comprende l’1% dei valori

Considerato il valore in un insieme di dati ordinati, il

��

percentile corrispondente a è dato da

��

Il k-esimo percentile è quel valore per cui k per cento delle osservazioni cadono al di sotto o sono

uguali ad esso.

• Range interquartile: IQR = Q3 - Q1

È l’intervallo che contiene il 50% dei dati centrali

o Tanto più è variabile una distribuzione, tanto più alto sarà il valore di IQR

• Range semi-interquartile: (Q3 - Q1 )/2

• Midquartile: (Q3 + Q1 )/2

• Range percentile 10-90: P - P

90 8

Alice Giussani

Analisi esplorativa dei dati

Con analisi esplorativa dei dati si intende l’uso di tutte le tecniche utili a chiarire la struttura di un

insieme di dati.

Outlier

Un outlier è un dato che assume un valore molto diverso da tutti quelli del campione a cui

appartiene. Esso può essere causato da un errore nella misurazione/ registrazione del dato, può

essere anche un dato corretto.

Inoltre un outlier può avere influenza notevole su: Media – Deviazione standard – Scala con cui si

disegna l’istogramma (fuorviando l’interpretazione della natura della distribuzione)

Per identificare un outlier, ordinare i dati e verificare se sono presenti valori molto più bassi o molto

più alti di tutti gli altri Se l’outlier è frutto di un errore, bisogna correggerlo o eliminarlo dai dati Se

l’outlier è un dato del campione, conviene effettuare l’analisi statistica sia includendo che

escludendo il suo valore dal campione.

Boxplot

E’ un grafico che illustra il centro dei dati, la loro

variabilità e distribuzione, la presenza di outlier .

Per disegnarlo servono 5 misure: Valore minimo

e massimo dei dati, I tre quartili.

I boxplot sono utili per evidenziare la presenza di

outlier e permette di determinare l’asimmetria

della distribuzione.

Probabilità

Il concetto di probabilità è di basilare importanza per i metodi di statistica inferenziale poiché Ci

permette di valutare la verosimiglianza di un evento.

Si definisce evento una raccolta di esiti (cioè, di risultati) di un esperimento. L'evento si dice

elementare se non può essere scomposto in eventi più semplici e L'insieme di tutti gli eventi

elementari di un esperimento è detto spazio campionario inoltre Si definisce evento composto

un evento formato da due o più eventi semplici.

la probabilità di un evento è un numero compreso fra 0 e 1 (cioè, 0 ≤ P(A) ≤ 1) dove P(A)= 0 indica

un evento impossibile, mentre P(A)=1 indica un evento certo.

Legge degli eventi rari

Se si è verificato un certo evento e, sulla base di una certa ipotesi, la probabilità che quell'evento si

verifichi è molto bassa, allora l'ipotesi è probabilmente sbagliata.

Calcolare la probabilità di un evento

un primo metodo per calcolare la probabilità di un evento consiste nell’ approssimazione della

probabilità con la frequenza relativa:

numero di volte∈cui A si è verificato

P A

( )= numero diripetizioni dell ' esperimento 9

Alice Giussani

Con questo approccio, si ottiene un valore approssimato e non il valore esatto della probabilità.

Tanto più alto è il numero degli esperimenti, tanto migliore sarà il valore approssimato rispetto alla

probabilità vera di quell'evento (legge dei grandi numeri)

un secondo metodo per calcolare la probabilità di un evento consiste nell’ applicare la definizione

di probabilità classica, utilizzabile quando gli eventi

elementari sono equiprobabili

numero dimodi A può verificarsi

∈cui

P( A)= numero di eventi elementari diversi

Regola della somma

Serve per calcolare la probabilità che, in un singolo esito di un esperimento, si verifichi un evento A

oppure si verifichi un evento B oppure si verifichino entrambi (“o” inclusivo)

P(A o B) = P(A) + P(B) - P(A e B) dove P(A e B) denota la probabilità che A e B si

verifichino contemporaneamente come esito di una

singola ripetizione di un esperimento

Se A e B non possono verificarsi

contemporaneamente, si dicono disgiunti o

mutualmente esclusivi. In questo caso, P(A  B)=0

(cioè P(A e B)=0) e quindi P(A  B) = P(A) + P(B)

Eventi complementari ́

A

Dato un evento A, il suo complementare (denotato ) è costituito da tutti gli esiti in

corrispondenza dei quali A non si verifica ́

A

Dalla regola della somma segue che P( ) = 1 – P(A)

Regola del prodotto

Serve per calcolare la probabilità che un evento A e un evento B si verifichino in una singola prova

P(A e B) = P(A)P(B)

Probabilità condizionata

Se la probabilità che si verifichi un evento B deve tenere conto che un altro evento A si sia già

verificato, si parla di probabilità condizionata. Si denota P(B|A) e si legge «probabilità di B dato A».

Due eventi si dicono indipendenti se il fatto che uno si verifichi non ha nessun effetto sul

verificarsi dell’altro

P(B|A) = P(A e B)/P(A) Se A e B sono indipendenti, allora P(B|A) = P(B) 10

Alice Giussani

Teorema di Bayes

Il teorema di Bayes permette di correggere la probabilità di un evento sulla base di nuove

informazioni che emergono in tempi successivi.

Si definisce probabilità a priori la probabilità di un evento calcolata senza alcuna informazione

aggiuntiva, si definisce probabilità a posteriori la probabilità di un evento ricalcolata sulla base di

informazioni aggiuntive, ottenute successivamente

La probabilità di un evento A, dato che successivamente si è verificato l’evento B, è:

Variabili aleatorie

Si definisce variabile aleatoria una variabile (denotata con che assume un singolo valore

�)

numerico, determinato in base al caso, per ciascun esito di un esperimento. La variabile aleatoria

è discreta se può assumere un numero finito o numerabile di valori (cioè anche infiniti valori,

purché conteggiabili). La variabile aleatoria è continua se può assumere un numero infinito di

valori, a cui è possibile associare delle misure su una scala continua

Una distribuzione di probabilità è un grafico o una tabella o una formula che fornisce la

probabilità di ciascun valore della variabile aleatoria. Data una variabil

Anteprima

Vedrai una selezione di 7 pagine su 27