Appunti di statistica (primo parziale)

Appunti di Statistica riguardanti la prima metà del corso, completi di formule, spiegazioni, esempi ed esercitazioni. Appunti di statistica basati su appunti personali del publisher presi …

Esame Statistica

Facoltà Scienze politiche

Dal corso del Prof. Bodini Antonella

Università Università degli Studi di Milano

Publisher sarazanotta

A.A. 2017-2018

61 pagine

Appunto

Vota 4,0 / 5 (1)

Scarica

Estratto del documento

MODA

LA

La moda è il valore xi di un fenomeno statistico che presenta frequenza (assoluta o relativa)

più elevata. Scelgo la barra del grafico più alta. Può essere anche bimodale, cioè vi sono due

caratteri con maggiore frequenza.

Esistono due eccezioni

- Se il fenomeno è raggruppato in classi si devono considerare le densità di frequenza l,

invece delle frequenze

- Se ci sono più valori con frequenza più elevata, allora tutti vengono considerati mode e

la distribuzione è detta plurimodale.

“La moda è il valore xi di una distribuzione con frequenza ni o fi o pi massima o, se il fenomeno

è raggruppato in classi, il punto medio dell’intervallo con densità di frequenza li più elevata.

Se esistono più mode si parla di distribuzione plurimodale.

Negli istogrammi sarà comunque l’asta più alta anche se non corrisponde alla frequenza più

alta. Bisogna quindi scegliere la classe con la barra più alta e il valore sarà un rappresentante

da scegliere nella classe, in particolare il valore a metà.

Esercizio 3

x(con trattino sopra)= 1/15 x = 10,27

15i=1

∑ i

s = + (7-10,27) +…+(11-10,27) / 14 = 13,5

n2 2 2 2

[(5-10,27) ]

s = √13,5 = 3,67 minuti

Si parla di campione casuale quando i dati sono selezionati tramite estrazione da un’urna

senza reimmissione. Mentre si parla di dati quando abbiamo numeri non necessariamente

ottenuti tramite campionamento casuale.

Quando raccogliamo un campione casuale la varianza non è diviso n ma diviso n-1. Quando si

parla genericamente di dati si usa n.

La varianza si indica con mentre nel caso di campione casuale si usa s

2 n2

Questa distinzione viene dal fatto che quando facciamo un campione casuale siamo interessati

a farlo valere per l’intera popolazione, farò generalizzazioni. Nel caso di dati è come se solo

loro fossero l’intera popolazione che mi interessa.

Dall’analisi di un campione sul numero di persone in attesa nella pizzeria, è risultato che il

numero medio di persone è 2,3 con una deviazione standard di 1,23 persone. Quale dei due

fenomeni (tempo che avevamo visto prima e numeri di persone) è maggiormente variabile?

Il tempo è una variabile continua, le persone discreta quindi non posso direttamente

confrontarle.

Tempo > x(trattino)=10,27 sn=3,67 CV=3,67/10,27=0,36

Persone > CV=1,23/2,3=0,53

Quindi il numero di persone in attesa ha maggiore variabilità del tempo di attesa.

Come si modifica il boxplot se il tempo di attesa più lungo è 37 e non 17?

1,5*(Q3-Q1)=1,5*(13-7)=9

Sostituendo il valore del dato più grande la scatola e la lunghezza dei baffi non cambia. Il baffo

potrebbe arrivare fino a 22, ossia 13+9. Tuttavia, avevamo messo il segmento sul 17 perché il

22 non esisteva. Ora scegliamo invece 15 come segmento finale del baffo, scegliendo quindi il

valore più alto prima di 22. Però 37 è oltre il baffo e quindi mettiamo il puntino. La media

cambia e si alza, la mediana invece non risente del cambiamento di questo dato.

Esercizio

Prendiamo un campione casuale di 1200 donne.

Età ni

9-12 60

12-14 360

14-18 630

18-30 150

Tot 1200

I dati sono nella prima colonna, nella seconda abbiamo la frequenza dei dati.

a) calcolare la media > devo trovare per ogni classe un valore rappresentativo >

(primo estremo+secondo estremo) / 2

Qui le età saranno 10,5 – 13 – 16 – 24

y(trattino)= (0,5*60 + 13*360 + 150*24 + 16*630)/1200=15,825

b) trovo la varianza campionaria > siccome è campionaria n-1 = 1199

anche qui devo fare gli scarti al quadrato dei dati della media

s = +…+150(24-15,825)

2n 2 2

[60(10,5-15,825) ]/1199=12,192

sn=√12,192=3,492 anni (consiglio: usare sempre almeno due cifre dopo la virgola)

ni/n=fi ma nella campionaria ni/(n-1), quindi non è uguale alla frequenza

c) rappresentare con un grafico opportuno la distribuzione di frequenza. La variabile è

quantitativa continua, quindi scegliamo un istogramma. Per farlo devo calcolare le frequenze

relative e in seguito calcolare le densità, cioè li=fi/ai > così troviamo l’altezza delle barre di un

istogramma.

La distribuzione è unimodale? Sì, la classe modale è 12-14, quindi la moda è 13. La moda di un

istogramma non coincide necessariamente con la classe con le frequenze più alte, ciò che conta

è la densità.

d) disegnare il boxplot > grafico della dispersione dei dati.

Mediana > n/60 = 600 > sta nella classe 14-18

1° quartile > 1200/4=300 > sta nella classe 12-14

3° quartile > 3(1200)/4=900 > sta nella classe 14-18 > ragioniamo sulle frequenze cumulate

Calcoliamo i valori

Q1: 12+2/360(300-60)=13,3

360 è la lunghezza di ogni segmento, mentre300-60 è il numero di segmenti da inizio classe

fino al trecentesimo.

Q3: 14+4/630(900-420)=17,048

Q2: 14+4/360(600-420)=16,143

Attenzione a controllare sempre l’ordine crescente di Q1-Q2-Q3

Per i dati singoli usiamo n+1, mentre per i dati raggruppati per comodità usiamo n

Esercizio 2:

consideriamo la variabile qualitativa nominale “diploma di maturità”

- faremo un diagramma a barre separate o a nastro

- trovo la media > non posso perché non è un dato quantitativo

- trovo la mediana > non posso perché non è un dato quantitativo né qualitativo ordinale

- trovo la moda > scelgo la barra più alta del grafico

La deviazione standard è diversa in ogni gruppo. A diverse medie corrispondono infatti diverse

deviazioni standard. Faremo la media dei tre dati e la varianza.

VARIANZA BETWEEN > variabilità delle medie nei gruppi rispetto alla media totale.

Calcoliamo la media totale dei dati

- media totale > somma di tutti i dati

- in qualche caso non ho però tutti i dati, ma sapendo numero di dati e medie posso

sommarle moltiplicandole per le singole n.

La media totale sarà sempre compresa tra il valore della media più piccolo e il valore più

media pesata

grande. Normalmente ogni dato nella media è pesato 1/n, mentre nella

abbiamo un coefficiente. Io non ho tutti i dati, immagino che tutti siano uguali al valore della

media.

- Facciamo ora la varianza delle tre medie iniziali

σ n n x x n n x x n n x x

= / ( - ) + / ( - ) + / ( - )

2 2 2 2

B N N C C S S

Le varie n diviso n indica il peso di ogni valore sul totale.

In questa varianza abbiamo il pedice B perché è una varianza between, cioè esprime la

variabilità di 3 medie tra loro e la confronteremo con la varianza totale.

> indica la somma tra i tre gruppi

∑

n > indica la numerosità del gruppo

> indica la varianza del gruppo

Con “del gruppo” nelle frasi precedenti indico uno qualsiasi dei tre gruppi possibili. Questa

formula va presa come data perché la dimostrazione sarebbe troppo complessa.

IL RAPPORTO DI CORRELAZIONE

Il rapporto tra varianza between e somma di varianza between e varianza within è quindi

/ (σ + )

B2 B2 W2

σ σ

La varianza between indica quanto variano tra loro i vari valori, confrontandoli con la media

comune. Uso la tecnica dello scarto al quadrato, quindi la varianza. Si trova al numeratore.

varianza totale rapporto di correlazione

La è la varianza di tutti quanti i dati. Con il

vedo quanto della varianza between abbiamo in quella totale. Si indica con ed è un valore

compreso tra 0 e 1. Possiamo avere al massimo 1 perché il numeratore è parte del

denominatore e minimo 0 perché la varianza è sempre positiva. Il rapporto di correlazione è 0

quando la varianza between è 0, la varianza è 0 quando tutti i dati sono uguali. In questo caso

quindi le medie sono uguali tra loro.

Salendo il rapporto di correlazione, le medie sono sempre più spostate tra loro.

RIPASSO – CONCETTI CHIAVE

- Quando l’unione di P(A) e P(B) è maggiore di 1 significa che esiste necessariamente

un’intersezione perché la probabilità totale non può essere maggiore di 1

- Se P(A) e P(B) sono indipendenti, sapendo il valore di uno dei due, non cambia la

probabilità dell’altro

- Se A e B sono incompatibili, l’intersezione tra i due è insieme vuoto. Questo significa

anche che sapendo uno dei due ottengo come risultato 0.

- La somma delle frequenze relative è sempre 1

- Un carattere quantitativa discreto si rappresenta tramite diagramma ad aste, mentre

il grafico a torta rappresenta un qualitativo.

- L’istogramma rappresenta le FREQUENZE di un carattere quantitativo continuo. Se

un vero/falso mi chiedesse se l’istogramma rappresenta le variabili quantitative

continue, sarebbe errata, perché rappresenta le frequenze di un carattere quantitativo

continuo.

- La mediana divide a metà tutti i dati RIORDINATI > se non avessi riordinati, il

risultato sarebbe falso, perché “divide tutti i dati” non vuol dire nulla.

- Quando si ha una distribuzione simmetrica dei dati, media e mediana sono uguali.

- La media può essere negativa. Sono le varianze che non possono esserlo.

- Il boxplot non rappresenta le frequenze, ma i dati.

- La differenza interquartile è un indice di dispersione.

- Per confrontare la variabilità di due caratteri si usa il coefficiente di variabilità, perché

è un valore assoluto. Nel coefficiente di variabilità si usa il valore assoluto della media,

quindi si può fare anche se la media è negativa.

DAI DATI AI MODELLI inferenza.

Estendere da un campione di dati a tutta la popolazione si chiama Ci serve un

modo per capire se quello che vediamo sul campione vale anche sull’intera popolazione.

Consideriamo solo dati raccolti tramite campione casuale, che ci garantisce la

rappresentatività dell’intera popolazione.

Lo strumento che ci fa passare dal campione alla popolazione è il modello probabilistico. Ci

chiediamo quali sono i possibili valori da osservare nei dati e con quale probabilità potremo

osservarli.

modello

Il è una descrizione del meccanismo con cui si sviluppa il fenomeno. È in grado di

darci informazioni sulle osservazioni prima di estrarre il campione.

Variabile casuale > quella che assume in un dado valori da 1 a 6. Ogni lancio del dado è

associato ad una variabile causale che mi dice il risultato di quel lancio. Le potenziali

osservazioni sono indipendenti e identiche.

I MODELLI PROBABILISTICI

Anteprima

Vedrai una selezione di 10 pagine su 61