vuoi
o PayPal
tutte le volte che vuoi
Popolazione e campione
Popolazione: intera collezione di oggetti
Campione: è un sottoinsieme della popolazione
Il modo migliore di costruire campioni è il
campionamento casuale
(esempio: con un generatore di numeri casuali)
Variabili quantitative e qualitative
Le variabili oggetto di studio possono essere:
discrete: possono
quantitative: un valore assumere solo alcuni
numerico è assegnato ad valori
continue: possono
ogni oggetto assumere qualsiasi
valore in un
intervallo
qualitative: un valore di categoria (non un numero) è
assegnato ad ogni oggetto (esempi: sesso degli
individui, classe di dimensione, colore)
Misure statistiche: media, varianza,
deviazione standard della
popolazione e del campione
popolazione campione
�
� ∑ �
∑ � �
� media � =1
´
� =
� =1
�= �
� �
� ∑ 2
´
( )
� �
−
∑ 2
( )
� −� �
varianza
� �=1
2
� =
�=1
2 =
� � − 1
� √
√ �
� ∑ 2
´
( )
� �
∑ −
2
( )
� − � deviazione �
� � =1
�=
� =1
�= standard � − 1
� Outlier.
Outlier: oggetto del campione caratterizzato da valori
molto più grandi o molto più piccoli di altri
outlier
quando si trova un in un campione bisogna
capirne l’origine: va tolto dal set di dati prima delle
elaborazioni SOLO SE si verifica che è causato da un
errore nel rilevamento
Mediana campionaria.
mediana: è il valore centrale nel campione. I dati
devono essere ordinati dal più piccolo al più grande e
la mediana è il valore in posizione centrale
ATTENZIONE: LA MEDIANA E’ DIVERSA DALLA MEDIA!
mediana media
se n è dispari, la mediana è il valore
�+�
presente in posizione
�
se n è pari, la mediana è la media dei
� �
due valori in posizione
e +�
� �
Quartili e percentili
quartili: valori che dividono il campione in 4 parti
della stessa numerosità
un campione ha 3 quartili
si calcola 0.25*(n+1)
se è un valore intero, il primo quartile occupa
quella posizione
se non è un valore intero, il primo quartile è la
media dei due valori tra i quali si trova 0.25 (n+1)
si calcola 0.5*(n+1)
se è un valore intero, il secondo quartile occupa
quella posizione
se non è un valore intero, vedi sopra
si calcola 0.75*(n+1)
se è un valore intero, il terzo quartile occupa
quella posizione Quartili e percentili
p-esimo percentile: valore che divide il campione
in modo tale che il p% dei valori sono minori (e il
restante 100-p% sono maggiori)
si calcola p/100*(n+1)
se è un valore intero, il p-esimo percentile occupa
quella posizione se non è un valore intero, il primo
quartile è la media dei due valori tra i quali si trova
p/100 (n+1)
Rappresentazioni grafiche: box-plot
box-plot:
differenza interquartile IQR: 3° quartile-1°quartile
i baffi sono individuati da mediana ± 1.5 IQR
10 individui che vivono ad altitudini elevate vengono
sottoposti ad analisi del sangue, per rilevarne la
concentrazione di emoglobina. I dati ottenuti (g/L) sono i
seguenti:
17.1; 16.4; 18.0; 19.2; 15.3; 17.5; 18.1; 21.0; 16.2; 17.6
Si calcoli la mediana, il primo e il terzo quartile, si
rappresentino graficamente i dati in un box plot.
Frequenza assoluta, relativa e cumulativa.
frequenza assoluta di una misura in un
campione: numero di volte in cui è stato osservato
quel particolare valore nel campione
frequenza relativa di una misura in un
campione: frazione di osservazioni di una data
misura
(frequenza assoluta/ numero totale di osservazioni)
frequenza cumulativa di una misura in un
campione: frazione di osservazioni minori o uguali
di una data misura
Rappresentazioni grafiche:
diagrammi a barre, istogrammi.
agrammi a barre: per rappresentare variabili qualitative
istogrammi : per rappresentare variabili quantitative
Cause di morte degli adolescenti USA nel
1999 Causa di morte Frequenza
Incidenti 6688 SI CALCOLI LA FREQUENZA RELATIV
Omicidio 2093 SI RAPPRESENTINO I DATI PER VIA
Suicidio 1615 GRAFICA ATTRAVERSO UN DIAGRAM
Tumore 745 A BARRE
Cardiopatia 463
Anomalie congenite 222
Malattia respiratoria
cronica 107
Influenza e polmonite 73
Malattie cerebrovascolari 6
Altre cause 1653