Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
SLIDE
SLIDE
L = numero di gruppi nel collettivo
g = generico gruppo g
x =media del gruppo g
g
n = numerosità gruppo g
g
Ad esempio posso utilizzare questa proprietà per calcolare l’altezza media della classe (popolazione), composta da due gruppi:
e È
l’altezza delle donne e l’altezza degli uomini. Di questi due gruppi ho la media dell’altezza.
Moda
•
La moda di una variabile è la modalità (o valore) che si presenta con la frequenza più alta (assoluta,
SLIDE
relativa o percentuale). È un indice molto facile da trovare: basta trovare la distribuzione di
frequenza e si individua.
Per calcolare la moda di una distribuzione è necessario individuare quale modalità ha la frequenza
più elevata. In generale, le distribuzioni possono non avere la moda, avere una sola moda o più di
una moda. La moda non esiste quando tutte le modalità hanno la stessa frequenza. La moda è il
valore che si avvicina di più al valore totale.
SLIDES
La moda non dà molte informazioni, dice solo quale modalità è più frequente. La media aritmetica è
più informativa.
Mediana
•
È un indice di posizione che ci serve per decretare il valore centrale di una distribuzione ordinata in
senso crescente. La mediana ci dice il valore centrale che suddivide in due gruppi ugualmente
numerosi dove osserviamo dei valore più piccoli o uguali da una parte e più grandi o uguali
dall’altra.
Nelle numerosità dispari, la mediana si trova in corrispondenza del valore centrale (es. 5 valori, il 3 è
slides
la mediana —> 5+1 diviso 2). Nelle numerosità pari il valore si trova al centro dei due valori più
centrali (es. 6 valori, il valore in mezzo al 3 e al 4 è la mediana —> 6+1 diviso 2). Non bisogna
confondere la posizione (che è quella che ci interessa per la mediana) con i valori. È importante
ordinare i dati, vedere se sono pari o dispari, e individuare la posizione mediana.
N pari
N dispari Posizione/i centrale/i
Mediana
Esiste un altro modo più semplice ed immediato per lavorare con molte osservazioni, ovvero quello
di sintetizzare attraverso una distribuzione di frequenze per cui, nella tabella la prima colonna (x )
i
rappresenta i valori della variabile x osservati nel collettivo, mentre la seconda colonna (n )
i
rappresenta il numero di volte in cui queste modalità si presentano.
Es. calcolare la mediana della seguente distribuzione di frequenze riferita ad un collettivo di N=16 unità.
Unità da 1 a 2
Per prima cosa
calcolare la
distribuzione Unità da 3 a 6
cumulata Unità da 7 a 10
Unità da 11 a 16
Unità da 1 a 2 Posizione mediana 1 =
Dopo aver
calcolato la Unità da 3 a 6
distribuzione delle Posizione mediana 2 =
frequenze
assolute
cumulate, calcolo Unità da 7 a 10
la mediana • due perché 16 è pari
Unità da 11 a 16
Un ulteriore metodo alternativo può essere: Mediana
Step:
-ordinare i dati in senso crescente
-individuare la posizione in graduatoria dell’unità centrale
-se dispari ha una posizione centrale, se pari è fra i due valori centrali
Statistica robusta
È robusta quando non è influenzata dai valori estremi che la variabile x può assumere. Per esempio,
la mediana è una statistica robusta perché i valori estremi non la influenzano. La media aritmetica,
invece, non è robusta perché è influenzata dei valori estremi che la variabile può assumere; la
media viene “tirata su“ dai valori estremi che sono quelle distanti dalla massa dei valori.
Confronto tra media e mediana:
Forma della distribuzione Media e mediana
Asimmetria a sinistra Media più piccola della mediana
Simmetrica Media e mediana sostanzialmente uguali
Asimmetria a destra media più grande della mediana
~Quartili
Sono estremi della mediana e dividono una distribuzione ordinata in senso crescente in quattro
parti di uguale numerosità.
Primo quartile (Q1): divide una distribuzione ordinata di dati lasciando alla sua sinistra un quarto dei
termini (25%) e alla sua destra restanti tre quarti (75%).
Secondo quartile (Q2): divide una distribuzione ordinata lasciando alla sua sinistra la vita dei termini
(50%) e alla sua destra rimanente 50%. (=mediana)
Terzo quartile (Q3): divide una distribuzione ordinata di dati lasciando la sua sinistra tre quarti dei
termini (75%) e alla sua destra il restante quarto (25%)
Calcolo del quartile:
-ordinare i dati
-individuare la posizione mediana
-calcolare il valore associato alla posizione individuata
-ripetere il procedimento per la prima metà della distribuzione...
Es. la ricerca “un cosmetico al giorno“ rilevato la seguente distribuzione del numero di prodotti di bellezza acquistati dal 13 donne in
un mese. Calcolare i quartili. N. di prodotti: 15, 12, 13, 5, 10, 11, 8, 9, 14, 3, 16, 7, 6
della mediana:
-calcolo
3, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16
N=13 —> posizione mediana = N+1 = 13+1 = 7
2 2
M= x [N+1] = 10
2
Q1:
-calcolo
Nella prima metà della distribuzione ci sono sei unità, escluso la mediana: 3, 5, 6, 7, 8, 9
N=6 —> N = 6 = 3 e N+1 = 6+1= 4
2 2 2 2
Q1= 6+7 = 6,5
2 Q3:
-calcolo
Nella seconda metà della distribuzione ci sono sei unità, escluso la mediana: 11, 12, 13, 14, 15, 16
N=6 —> N = 6 = 3 e N+1 = 6+1= 4
2 2 2 2
Q3= 13+14 = 13,5
2
IQR - Intervallo Interquartile
L’intervallo interquartile è la differenza tra il terzo ed il primo quartile e contiene il 50% dei valori
centrali di una distribuzione.
IQR = Q3 - Q1
Es. La ricerca “un cosmetico al giorno” ha rilevato la seguente distribuzione del nº di prodotti di bellezza acquistati da 13 donne in 1
mese. Calcolare la differenza interquartile. Numero prodotti: 15, 12, 13, 5, 10, 11, 8, 9, 14, 3, 16, 7, 6
Q1 = 6,5
Q3 = 13,5
IQR = Q3 - Q1 = 13,5-6,5 = 7 —> l’intervallo che contiene il 50% delle osservazioni centrali è pari a 7.
L’intervallo interquartile può anche assumere un valore uguale a 0, quando il primo e il terzo quartile
corrispondono allo stesso valore.
boxplot
Il (o diagramma a scatole e baffi) è un grafico che consente di rappresentare una
distribuzione mediante 5 numeri —> sintesi dei 5 numeri.
La lunghezza dei baffi è rappresentata rispettivamente dal valore minimo e dal valore massimo della
distribuzione.
Per costruire il boxplot si tracciano i baffi a partire da Q1 e Q3 fino ad arrivare al valore osservato
massimo (limite inferiore: LI) e minimo (limite superiore: LS). Per la scatolina si tracciano dei
segmenti lunghi a piacere.
Es. Buddy’s Pizza deriva dall’osservazione dei suoi dipendenti, le seguenti informazioni sui tempi di consegna:
Tempo minimo: 13 minuti
Tempo massimo: 30 minuti
Q1 = 15 minuti, mediana = 18, Q3 = 22 minuti
Fra 15 e 22 minuti ho il 50% delle mie osservazioni.
Quando ci troviamo di fronte ad una distribuzione simmetrica, la media, la mediana e la moda sono
bilanciate. La forma della distribuzione si dice simmetrica se le osservazioni sono bilanciate, ovvero
se sono distribuite in modo approssimativamente regolare intorno al centro. In una distribuzione
perfettamente simmetrica la media, la moda e la mediana sono nella stessa posizione ed hanno lo
stesso valore.
Misure di dispersione
La dispersione (o variabilità) è l’attitudine delle unità di un collettivo ad assumere differenti modalità
di un carattere. Quanto più le modalità sono diverse, più c’è variabilità. Un esempio è quello
dell’altezza. Il fatto che non siamo alti tutti uguali è l’attitudine delle nostre unità statistiche a
cambiare modalità del carattere. Se le stature fossero tutte uguali fra loro non ci sarebbe variabilità.
Se c’è molta differenza tra le modalità allora c’è un’alta variabilità e viceversa. La variabilità la
misuriamo rispetto ad un valore di tendenza centrale (moda, mediana, media).
Es. preferireste sostenere un esame di statistica con un professore, sapendo che il voto medio è 21,5 con una dispersione di voti
bassa, o con un avrei professore il cui voto medio è 22,5, ma con variabilità molto elevata?
Prof 1: 19,22, 25, 20, 20, 23, 25, 25, 18, 24, 18,19
Prof 2: 17, 19, 21, 17, 19, 18, 30, 30, 17, 19, 30, 30
La misura di posizione non è fondamentale, è importante la variabilità.
La variabilità si può misurare con diversi tipi di indicatori, ognuno dei quali deve rispettare alcuni
requisiti:
• se la variabilità è nulla, l’indicatore deve assumere valore zero;
• l’indicatore deve crescere al crescere della variabilità;
• l’indicatore può assumere soltanto valori positivi.
Tipi di misure di dispersione:
range
1) campo di variazione o
2) differenza interquartile (IQR)
3) varianza —> misura principale che si può calcolare sono se quantitative
4) scarto quadratico medio (sqm) —> legato alla varianza
5) z-scores
Range o campo di variazione
1.
È molto semplice ma poco informativo perché non dà una vera e propria misura dove trovare un
punto. Si trova solo un intervallo.
Range = X - X
max min
Gli svantaggi:
• ignora la distribuzione dei dati
• è sensibile ai valori esterni
range
Il è una misura abbastanza attendibile se rispetta la seguente regola:
Varianza
2.
La varianza è una sorta di media degli scarti (differenze) al quadrato. L’utilizzo del quadrato serve a
non avere dati negativi e a non far tornare il totale 0. Il numeratore della
varianza si chiama
devianza
scarto quadratico medio
• Lo (sqm) è la radice di questa formula:
Sigma
minuscolo
Il valore dello scarto quadratico medio evidenzia un’oscillazione nell’intervallo compreso tra:
Per le distribuzioni campanulari e unimodali, nell’intervallo ricadono circa 2/3 delle unità
totali. Nell’intervallo ricade il 95% delle osservazioni, nell’intervallo ricade il 99%
delle osservazioni.
Step calcolo varianza e sqm:
-definire il tipo di distribuzione (unità, frequenze, in classi)
-aggiungere nuove colonne per:
-calcolare la media
-calcolare gli scarti dei valori dalla media in valore assoluto; moltiplicando per n se è una
i
distribuzione di frequenza o in classi
-c