Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
N
x x ..+ x x
+ + ∑
1 2 N i
µ= = è un parametro
�
N N
i=1
La media è molto sensibile a tutti i valori dell’insieme di dati, perciò un dato particolarmente diverso
da tutti gli altri può influenzare notevolmente il valore della media
Mediana
La mediana è una misura di centralità costituita dal valore centrale quando i dati vengono disposti
x
̃
in ordine crescente. Si indica con
La mediana non viene influenzata dai valori estremi dell’insieme di dati
Moda
Dato un insieme di dati, si definisce moda il valore che ha frequenza più elevata. Se esistono due
diversi valori con stessa frequenza massima, si parla di distribuzione bimodale, se esistono più di
due diversi valori con stessa frequenza massima, si parla di distribuzione multimodale, se nessun
valore è ripetuto, si dice che non c’è moda
Midrange
Il midrange è una misura di centralità costituito dal valore che è posto a metà fra il valore massimo
e il valore minimo dell’insieme di dati
valore massimo−valore minimo
Midrange= E’ un valore molto sensibile ai valori estremi
2
dell’insieme di dati, quindi si usa di rado come misura di centralità
Asimmetria di una distribuzione
Il confronto fra i valori di media, mediana e moda aiuta a scoprire informazioni sulla asimmetria di
una distribuzione. Una distribuzione è detta simmetrica quando la metà sinistra del suo
istogramma è sostanzialmente speculare alla sua parte destra 6
Alice Giussani
Misure di dispersione
Sono misure che forniscono un’indicazione sulla variabilità o dispersione dei dati all’interno di un
campione o della popolazione
Range
Si definisce range di un insieme di dati la differenza fra il valore massimo e il valore minimo dei
dati.
A un range maggiore corrisponde una maggiore variabilità. È una misura non particolarmente
precisa perché dipende solo dai due valori massimo e minimo, e non da tutti i dati del campione
Deviazione standard
La deviazione standard di un campione fornisce una misura della variazione di tutti i dati rispetto
alla media (aritmetica). È una «media» delle differenze dei dati rispetto alla media del campione
– Risulta uguale a 0 solo se i dati sono tutti identici fra loro
– Maggiore è il suo valore, maggiore è la variazione dei dati del campione
– Il suo valore aumenta molto in presenza di uno o più outlier (valori estremi nei dati)
– Ha la stessa unità di misura dei dati del campione – –
Regola empirica
Se i dati hanno una distribuzione «a
campana», allora valgono le seguenti
proprietà:
• Circa il 68% dei dati cade entro 1
deviazione standard dalla media
• Circa il 95% dei dati cade entro 2
deviazioni standard dalla media
• Circa il 99.7% dei dati cade entro 3
deviazioni standard dalla media
Varianza
Dato un insieme di dati, la varianza è una misura di dispersione corrispondente al quadrato della
deviazione standard
2
s
– = varianza campionaria
2
σ
– = varianza della popolazione 7
Alice Giussani 2 2
s σ
Si dice che la varianza campionaria è uno stimatore non distorto di , ovvero i valori
2 2
s σ
assunti da tendono a coincidere con
Misure di posizione
Le misure di posizione «dividono» un insieme di dati (ordinati in modo crescente) in diverse parti
Quartili (Q)
sono 3 misure di posizione che dividono i dati in quattro parti uguali
– Q1 (primo quartile): almeno il 25% dei dati è minore o uguale a Q1 e almeno il 75% dei dati è
maggiore o uguale a Q1
– Q2 (secondo quartile): 50% dei dati sono inferiori e 50% sono superiori a Q2 (come la
mediana)
– Q3 (terzo quartile): almeno il 75% dei dati è minore o uguale a Q3 e almeno il 25% dei dati è
maggiore o uguale a Q3 dividere i dati a
metà e ogni
metà
ulteriormente a
metà
Percentili
sono 99 misure di posizione (denotate con P1 , …, P99) che dividono i dati in 100 gruppi, ognuno
dei quali comprende l’1% dei valori
Considerato il valore in un insieme di dati ordinati, il
��
percentile corrispondente a è dato da
��
Il k-esimo percentile è quel valore per cui k per cento delle osservazioni cadono al di sotto o sono
uguali ad esso.
• Range interquartile: IQR = Q3 - Q1
È l’intervallo che contiene il 50% dei dati centrali
o Tanto più è variabile una distribuzione, tanto più alto sarà il valore di IQR
o
• Range semi-interquartile: (Q3 - Q1 )/2
• Midquartile: (Q3 + Q1 )/2
• Range percentile 10-90: P - P
10
90 8
Alice Giussani
Analisi esplorativa dei dati
Con analisi esplorativa dei dati si intende l’uso di tutte le tecniche utili a chiarire la struttura di un
insieme di dati.
Outlier
Un outlier è un dato che assume un valore molto diverso da tutti quelli del campione a cui
appartiene. Esso può essere causato da un errore nella misurazione/ registrazione del dato, può
essere anche un dato corretto.
Inoltre un outlier può avere influenza notevole su: Media – Deviazione standard – Scala con cui si
disegna l’istogramma (fuorviando l’interpretazione della natura della distribuzione)
Per identificare un outlier, ordinare i dati e verificare se sono presenti valori molto più bassi o molto
più alti di tutti gli altri Se l’outlier è frutto di un errore, bisogna correggerlo o eliminarlo dai dati Se
l’outlier è un dato del campione, conviene effettuare l’analisi statistica sia includendo che
escludendo il suo valore dal campione.
Boxplot
E’ un grafico che illustra il centro dei dati, la loro
variabilità e distribuzione, la presenza di outlier .
Per disegnarlo servono 5 misure: Valore minimo
e massimo dei dati, I tre quartili.
I boxplot sono utili per evidenziare la presenza di
outlier e permette di determinare l’asimmetria
della distribuzione.
Probabilità
Il concetto di probabilità è di basilare importanza per i metodi di statistica inferenziale poiché Ci
permette di valutare la verosimiglianza di un evento.
Si definisce evento una raccolta di esiti (cioè, di risultati) di un esperimento. L'evento si dice
elementare se non può essere scomposto in eventi più semplici e L'insieme di tutti gli eventi
elementari di un esperimento è detto spazio campionario inoltre Si definisce evento composto
un evento formato da due o più eventi semplici.
la probabilità di un evento è un numero compreso fra 0 e 1 (cioè, 0 ≤ P(A) ≤ 1) dove P(A)= 0 indica
un evento impossibile, mentre P(A)=1 indica un evento certo.
Legge degli eventi rari
Se si è verificato un certo evento e, sulla base di una certa ipotesi, la probabilità che quell'evento si
verifichi è molto bassa, allora l'ipotesi è probabilmente sbagliata.
Calcolare la probabilità di un evento
un primo metodo per calcolare la probabilità di un evento consiste nell’ approssimazione della
probabilità con la frequenza relativa:
numero di volte∈cui A si è verificato
P A
( )= numero diripetizioni dell ' esperimento 9
Alice Giussani
Con questo approccio, si ottiene un valore approssimato e non il valore esatto della probabilità.
Tanto più alto è il numero degli esperimenti, tanto migliore sarà il valore approssimato rispetto alla
probabilità vera di quell'evento (legge dei grandi numeri)
un secondo metodo per calcolare la probabilità di un evento consiste nell’ applicare la definizione
di probabilità classica, utilizzabile quando gli eventi
elementari sono equiprobabili
numero dimodi A può verificarsi
∈cui
P( A)= numero di eventi elementari diversi
Regola della somma
Serve per calcolare la probabilità che, in un singolo esito di un esperimento, si verifichi un evento A
oppure si verifichi un evento B oppure si verifichino entrambi (“o” inclusivo)
P(A o B) = P(A) + P(B) - P(A e B) dove P(A e B) denota la probabilità che A e B si
verifichino contemporaneamente come esito di una
singola ripetizione di un esperimento
Se A e B non possono verificarsi
contemporaneamente, si dicono disgiunti o
mutualmente esclusivi. In questo caso, P(A B)=0
(cioè P(A e B)=0) e quindi P(A B) = P(A) + P(B)
Eventi complementari ́
A
Dato un evento A, il suo complementare (denotato ) è costituito da tutti gli esiti in
corrispondenza dei quali A non si verifica ́
A
Dalla regola della somma segue che P( ) = 1 – P(A)
Regola del prodotto
Serve per calcolare la probabilità che un evento A e un evento B si verifichino in una singola prova
P(A e B) = P(A)P(B)
Probabilità condizionata
Se la probabilità che si verifichi un evento B deve tenere conto che un altro evento A si sia già
verificato, si parla di probabilità condizionata. Si denota P(B|A) e si legge «probabilità di B dato A».
Due eventi si dicono indipendenti se il fatto che uno si verifichi non ha nessun effetto sul
verificarsi dell’altro
P(B|A) = P(A e B)/P(A) Se A e B sono indipendenti, allora P(B|A) = P(B) 10
Alice Giussani
Teorema di Bayes
Il teorema di Bayes permette di correggere la probabilità di un evento sulla base di nuove
informazioni che emergono in tempi successivi.
Si definisce probabilità a priori la probabilità di un evento calcolata senza alcuna informazione
aggiuntiva, si definisce probabilità a posteriori la probabilità di un evento ricalcolata sulla base di
informazioni aggiuntive, ottenute successivamente
La probabilità di un evento A, dato che successivamente si è verificato l’evento B, è:
Variabili aleatorie
Si definisce variabile aleatoria una variabile (denotata con che assume un singolo valore
�)
numerico, determinato in base al caso, per ciascun esito di un esperimento. La variabile aleatoria
è discreta se può assumere un numero finito o numerabile di valori (cioè anche infiniti valori,
purché conteggiabili). La variabile aleatoria è continua se può assumere un numero infinito di
valori, a cui è possibile associare delle misure su una scala continua
Una distribuzione di probabilità è un grafico o una tabella o una formula che fornisce la
probabilità di ciascun valore della variabile aleatoria. Data una variabil