Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
MODA
LA
La moda è il valore xi di un fenomeno statistico che presenta frequenza (assoluta o relativa)
più elevata. Scelgo la barra del grafico più alta. Può essere anche bimodale, cioè vi sono due
caratteri con maggiore frequenza.
Esistono due eccezioni
- Se il fenomeno è raggruppato in classi si devono considerare le densità di frequenza l,
invece delle frequenze
- Se ci sono più valori con frequenza più elevata, allora tutti vengono considerati mode e
la distribuzione è detta plurimodale.
“La moda è il valore xi di una distribuzione con frequenza ni o fi o pi massima o, se il fenomeno
è raggruppato in classi, il punto medio dell’intervallo con densità di frequenza li più elevata.
Se esistono più mode si parla di distribuzione plurimodale.
Negli istogrammi sarà comunque l’asta più alta anche se non corrisponde alla frequenza più
alta. Bisogna quindi scegliere la classe con la barra più alta e il valore sarà un rappresentante
da scegliere nella classe, in particolare il valore a metà.
Esercizio 3
x(con trattino sopra)= 1/15 x = 10,27
15i=1
∑ i
s = + (7-10,27) +…+(11-10,27) / 14 = 13,5
n2 2 2 2
[(5-10,27) ]
s = √13,5 = 3,67 minuti
n
Si parla di campione casuale quando i dati sono selezionati tramite estrazione da un’urna
senza reimmissione. Mentre si parla di dati quando abbiamo numeri non necessariamente
ottenuti tramite campionamento casuale.
Quando raccogliamo un campione casuale la varianza non è diviso n ma diviso n-1. Quando si
parla genericamente di dati si usa n.
La varianza si indica con mentre nel caso di campione casuale si usa s
2 n2
δ
Questa distinzione viene dal fatto che quando facciamo un campione casuale siamo interessati
a farlo valere per l’intera popolazione, farò generalizzazioni. Nel caso di dati è come se solo
loro fossero l’intera popolazione che mi interessa.
Dall’analisi di un campione sul numero di persone in attesa nella pizzeria, è risultato che il
numero medio di persone è 2,3 con una deviazione standard di 1,23 persone. Quale dei due
fenomeni (tempo che avevamo visto prima e numeri di persone) è maggiormente variabile?
Il tempo è una variabile continua, le persone discreta quindi non posso direttamente
confrontarle.
Tempo > x(trattino)=10,27 sn=3,67 CV=3,67/10,27=0,36
Persone > CV=1,23/2,3=0,53
Quindi il numero di persone in attesa ha maggiore variabilità del tempo di attesa.
Come si modifica il boxplot se il tempo di attesa più lungo è 37 e non 17?
1,5*(Q3-Q1)=1,5*(13-7)=9
Sostituendo il valore del dato più grande la scatola e la lunghezza dei baffi non cambia. Il baffo
potrebbe arrivare fino a 22, ossia 13+9. Tuttavia, avevamo messo il segmento sul 17 perché il
22 non esisteva. Ora scegliamo invece 15 come segmento finale del baffo, scegliendo quindi il
valore più alto prima di 22. Però 37 è oltre il baffo e quindi mettiamo il puntino. La media
cambia e si alza, la mediana invece non risente del cambiamento di questo dato.
Esercizio
Prendiamo un campione casuale di 1200 donne.
Età ni
9-12 60
12-14 360
14-18 630
18-30 150
Tot 1200
I dati sono nella prima colonna, nella seconda abbiamo la frequenza dei dati.
a) calcolare la media > devo trovare per ogni classe un valore rappresentativo >
(primo estremo+secondo estremo) / 2
Qui le età saranno 10,5 – 13 – 16 – 24
y(trattino)= (0,5*60 + 13*360 + 150*24 + 16*630)/1200=15,825
b) trovo la varianza campionaria > siccome è campionaria n-1 = 1199
anche qui devo fare gli scarti al quadrato dei dati della media
s = +…+150(24-15,825)
2n 2 2
[60(10,5-15,825) ]/1199=12,192
sn=√12,192=3,492 anni (consiglio: usare sempre almeno due cifre dopo la virgola)
ni/n=fi ma nella campionaria ni/(n-1), quindi non è uguale alla frequenza
c) rappresentare con un grafico opportuno la distribuzione di frequenza. La variabile è
quantitativa continua, quindi scegliamo un istogramma. Per farlo devo calcolare le frequenze
relative e in seguito calcolare le densità, cioè li=fi/ai > così troviamo l’altezza delle barre di un
istogramma.
La distribuzione è unimodale? Sì, la classe modale è 12-14, quindi la moda è 13. La moda di un
istogramma non coincide necessariamente con la classe con le frequenze più alte, ciò che conta
è la densità.
d) disegnare il boxplot > grafico della dispersione dei dati.
Mediana > n/60 = 600 > sta nella classe 14-18
1° quartile > 1200/4=300 > sta nella classe 12-14
3° quartile > 3(1200)/4=900 > sta nella classe 14-18 > ragioniamo sulle frequenze cumulate
Calcoliamo i valori
Q1: 12+2/360(300-60)=13,3
360 è la lunghezza di ogni segmento, mentre300-60 è il numero di segmenti da inizio classe
fino al trecentesimo.
Q3: 14+4/630(900-420)=17,048
Q2: 14+4/360(600-420)=16,143
Attenzione a controllare sempre l’ordine crescente di Q1-Q2-Q3
Per i dati singoli usiamo n+1, mentre per i dati raggruppati per comodità usiamo n
Esercizio 2:
consideriamo la variabile qualitativa nominale “diploma di maturità”
- faremo un diagramma a barre separate o a nastro
- trovo la media > non posso perché non è un dato quantitativo
- trovo la mediana > non posso perché non è un dato quantitativo né qualitativo ordinale
- trovo la moda > scelgo la barra più alta del grafico
La deviazione standard è diversa in ogni gruppo. A diverse medie corrispondono infatti diverse
deviazioni standard. Faremo la media dei tre dati e la varianza.
VARIANZA BETWEEN > variabilità delle medie nei gruppi rispetto alla media totale.
Calcoliamo la media totale dei dati
- media totale > somma di tutti i dati
- in qualche caso non ho però tutti i dati, ma sapendo numero di dati e medie posso
sommarle moltiplicandole per le singole n.
La media totale sarà sempre compresa tra il valore della media più piccolo e il valore più
media pesata
grande. Normalmente ogni dato nella media è pesato 1/n, mentre nella
abbiamo un coefficiente. Io non ho tutti i dati, immagino che tutti siano uguali al valore della
media.
- Facciamo ora la varianza delle tre medie iniziali
σ n n x x n n x x n n x x
= / ( - ) + / ( - ) + / ( - )
2 2 2 2
B N N C C S S
Le varie n diviso n indica il peso di ogni valore sul totale.
In questa varianza abbiamo il pedice B perché è una varianza between, cioè esprime la
variabilità di 3 medie tra loro e la confronteremo con la varianza totale.
> indica la somma tra i tre gruppi
∑
n > indica la numerosità del gruppo
> indica la varianza del gruppo
σ
Con “del gruppo” nelle frasi precedenti indico uno qualsiasi dei tre gruppi possibili. Questa
formula va presa come data perché la dimostrazione sarebbe troppo complessa.
IL RAPPORTO DI CORRELAZIONE
Il rapporto tra varianza between e somma di varianza between e varianza within è quindi
/ (σ + )
B2 B2 W2
σ σ
La varianza between indica quanto variano tra loro i vari valori, confrontandoli con la media
comune. Uso la tecnica dello scarto al quadrato, quindi la varianza. Si trova al numeratore.
varianza totale rapporto di correlazione
La è la varianza di tutti quanti i dati. Con il
vedo quanto della varianza between abbiamo in quella totale. Si indica con ed è un valore
2
η
compreso tra 0 e 1. Possiamo avere al massimo 1 perché il numeratore è parte del
denominatore e minimo 0 perché la varianza è sempre positiva. Il rapporto di correlazione è 0
quando la varianza between è 0, la varianza è 0 quando tutti i dati sono uguali. In questo caso
quindi le medie sono uguali tra loro.
Salendo il rapporto di correlazione, le medie sono sempre più spostate tra loro.
RIPASSO – CONCETTI CHIAVE
- Quando l’unione di P(A) e P(B) è maggiore di 1 significa che esiste necessariamente
un’intersezione perché la probabilità totale non può essere maggiore di 1
- Se P(A) e P(B) sono indipendenti, sapendo il valore di uno dei due, non cambia la
probabilità dell’altro
- Se A e B sono incompatibili, l’intersezione tra i due è insieme vuoto. Questo significa
anche che sapendo uno dei due ottengo come risultato 0.
- La somma delle frequenze relative è sempre 1
- Un carattere quantitativa discreto si rappresenta tramite diagramma ad aste, mentre
il grafico a torta rappresenta un qualitativo.
- L’istogramma rappresenta le FREQUENZE di un carattere quantitativo continuo. Se
un vero/falso mi chiedesse se l’istogramma rappresenta le variabili quantitative
continue, sarebbe errata, perché rappresenta le frequenze di un carattere quantitativo
continuo.
- La mediana divide a metà tutti i dati RIORDINATI > se non avessi riordinati, il
risultato sarebbe falso, perché “divide tutti i dati” non vuol dire nulla.
- Quando si ha una distribuzione simmetrica dei dati, media e mediana sono uguali.
- La media può essere negativa. Sono le varianze che non possono esserlo.
- Il boxplot non rappresenta le frequenze, ma i dati.
- La differenza interquartile è un indice di dispersione.
- Per confrontare la variabilità di due caratteri si usa il coefficiente di variabilità, perché
è un valore assoluto. Nel coefficiente di variabilità si usa il valore assoluto della media,
quindi si può fare anche se la media è negativa.
DAI DATI AI MODELLI inferenza.
Estendere da un campione di dati a tutta la popolazione si chiama Ci serve un
modo per capire se quello che vediamo sul campione vale anche sull’intera popolazione.
Consideriamo solo dati raccolti tramite campione casuale, che ci garantisce la
rappresentatività dell’intera popolazione.
Lo strumento che ci fa passare dal campione alla popolazione è il modello probabilistico. Ci
chiediamo quali sono i possibili valori da osservare nei dati e con quale probabilità potremo
osservarli.
modello
Il è una descrizione del meccanismo con cui si sviluppa il fenomeno. È in grado di
darci informazioni sulle osservazioni prima di estrarre il campione.
Variabile casuale > quella che assume in un dado valori da 1 a 6. Ogni lancio del dado è
associato ad una variabile causale che mi dice il risultato di quel lancio. Le potenziali
osservazioni sono indipendenti e identiche.