Anteprima
Vedrai una selezione di 3 pagine su 8
Statistica - Appunti Primo Parziale Pag. 1 Statistica - Appunti Primo Parziale Pag. 2
Anteprima di 3 pagg. su 8.
Scarica il documento per vederlo tutto.
Statistica - Appunti Primo Parziale Pag. 6
1 su 8
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

DISTRIBUZIONE INDIVIDUALE

Data una variabile X osservata su una popolazione N (unità statistiche) la distribuzione individuale

dei dati è l’insieme delle modalità osservate per unità statistica.

{a ,a ,a , ... ,a }

1 2 3 n

Esempi : Sesso (M,F), Titolo di studio (E,M,S,L) Età (27,45,68,78,52,,56), Peso (72.5, 59.1, 56.5)

DISTRIBUZIONE DI FREQUENZA

X è una variabile qualitativa o quantitativa discreta osservata su N unità, K è il numero di modalità

che può assumere la variabile X.

Frequenza assoluta numero delle unità per cui X assume modalità x k

Frequenza relativa f = n /N

k k

Frequenza percentuale p = f x 100

k k Variabile

Modalità n (freq.assoluta) f (freq.relativa) p

k k k

Finanza 160 0.40 (160/400) 40%

Marketing 140 0.35 (140/400) 35%

Contabilità 100 0.25 (100/400) 25%

∑ 400 1 100%

Se X è una variabile qualitativa ordinale o quantitativa discreta

 Frequenza cumulata N k

Frequenza relativa cumulata F k

TABELLA PER VARIABILI ORDINALI

Livello di soddisfazione

Modalità freq.assolut Freq.relativ Freq. Freq.cu Freq.cum.re

a a % m l

Molto insoddisfatto 40 0.37 37% 40 0.37

Abbastanza insoddisfatto 6 0.06 6% 46 0.43

Indifferente 37 0.35 35% 83 0.78

Abbastanza soddisfatto 17 0.16 16% 100 0.94

Molto soddisfatto 7 0.06 6% 107 1.00

∑ 107 1 100% - -

DISTRIBUZIONI FREQUENZA VARIABILI CONTINUE

Non si può definire il numero di K modalità assunte dalla variabile, è necessario classificare le

osservazioni attraverso degli intervalli, l’uso della classi comporta una sintesi dei dati ma anche una

perdita d’informazioni.

Le classi sono : contigue, collettivamente esaustive e mutuamente esclusive, chiusura delle classi

può essere ┤oppure├, ampiezza della classe (w ) valore centrale (m )

k k

m = 250/2 = 125

Uso del cellulare in minuti k (280+250)/2 = 265

Classi n m w f p N F

k k k k k k k (280+300)/2 = 290

0├ 250 26 125 250 0.24 24% 26 0.24 w = 250

250├ 280 67 265 30 0.61 61% 93 0.85 k = (280-250) = 30

280├ 300 17 290 20 0.15 15% 110 1.00 = (300 – 280) = 20

11 1.0

∑ - - 100 - -

0 0

DISTRIBUZIONI IN CLASSI PER VARIABILI DISCRETE

A volte il numero K di modalità assunte può essere molto alto, classificare le osservazioni attraverso

degli intervalli facilita la sintesi anche se comporta una perdita d’informazione, essendo le classi

contigue è importante definire la chiusura delle classi

N.b un soggetto che ha 20 anni appartiene alla 3° classe 20 ├ 30

Età

m w N

Classi n f p F

k k k k

k k k

0├10 8 5 10 0.16 16% 8 0.16

10├20 10 15 10 0.21 21% 18 0.37

20├30 13 25 10 0.27 27% 31 0.64

30├40 12 35 10 0.24 24% 43 0.88

40├50 6 45 10 0.12 12% 49 1.00

4 1.0

∑ - - 100 - -

9 0

RAPPRESENTAZIONI GRAFICHE :

Variabili quantitative

 Tabella di frequenza

o Grafico a barre

o Grafico a torta

o

Variabili qualitative

 Tabella di frequenza

o Funzione di ripartizione

o Grafico ad aste (discrete)

o Istogramma (continue)

o MISURE DI TENDENZA CENTRALI

• Moda e classe modale

La moda è la modalità della X che si presenta il maggior numero di volte :

es. sesso:[M,F,M,F,F,F,F,M] la moda è la modalità F

voti: [21,30,28,21,25,18] la moda è la modalità 21

La moda può non esistere, se esiste corrisponde alla modalità con maggior frequenza. Nel caso delle

distribuzioni in classi, non si può definire la moda ma la classe modale cioè la classe con maggior

frequenza.

• Media aritmetica (μ)

Data una variabile quantitativa X, la media aritmetica per le distribuzioni individuali si calcola:

μ = 1/N ∑a i

Proprietà:

1. La somma degli scarti dalla media è zero

2. La somma degli scarti al quadrato è minima quando c=μ ∑(a – μ) = 0

 i

3. ∑a = Nμ

i

4. La media è compresa sempre tra il valore min e max della X

5. Aggiungendo o sottraendo a tutti i valori a una costante c, la media risulta aumentata o

i

diminuita di c

6. Moltiplicando o dividendo tutti i valori a per una stessa costante c, la media risulta

i

moltiplicata per c

Per le distribuzioni di frequenza si calcola: ∑x f

k k

Per le distribuzioni in classi si può calcolare :

media esatta ∑μ f

k k

media approssimata ∑m f

k k

u (media osservazioni per ogni classe) m (valore centrale della classe)

k k

Media di potenza:

r = 1 media aritmetica M = μ

 1 kfk

r = 0 media geometrica (sole se x ≥0) M = ∏x

 k 0

r = -1 media armonica M =1/∑(1/x )f

 -1 k k

k2

r = 2 media quadratica M = √∑x f

 2 k

• Mediana (M )

e

Per calcolarla è necessario ordinare le osservazioni in modo crescente, è un indice di posizione e

indica il valore che divide esattamente i dati osservati in due gruppi della stessa numerosità. E’

possibile calcolarla per variabili quantitative e qualitative purchè ordinali.

N dispari = a (n+1/2)

N pari = (a + a ) /2

N/2 N/2+1

es. [10,25,2,17,24,9,12] [2,9,10,12,17,24,25] (N+1)/2 = 4 M = a = 12

   e 4

[10,25,2,24,9,12] [2,9,10,12,24,25] N/2 = 3 M = (a +a )/2= (10+12)/2= 11

   e 3 4

Per le distribuzioni di frequenza guardo dopo aver ordinato in modo crescente la frequenza relativa

cumulata la prima modalità che ha F > 0.5

k

Per le distribuzioni in classi la mediana si trova in un intervallo di valori e non si può dare

un’informazione esatta si cerca la classe che contiene la mediana ovvero quella che ha la frequenza

relativa cumulata > 0.5.

• Quantili

Per calcolarlo è necessario ordinare le osservazioni in modo crescente, è un indice di posizione,

indica il valore che divide esattamente i dati osservati secondo una certa proporzione. La mediana è

un quantile di tendenza centrale, i quantili più usati sono :

Q : primo quartile 25%

 1

Q : secondo quartile coincide con M

 2 e

Q : terzo quartile 75%

 3 VARIABILITA’

La variabilità è un indicatore sintetico dei dati che ci dice quanto le osservazioni si discostano dalla

media, è un indicatore di dispersione, questo indicatore risente del carattere di misura (unità) per

caratteri diversi.

Scarto quadratico medio (σ)

 2

Distribuzione individuale σ=√∑(a -μ)

o i 2

Distribuzione frequenza σ = √∑(x -μ) f

o k k

2

Distribuzione in classi σ = √∑(m -μ) f

o k k

Varianza

 2

È lo scarto quadratico medio elevato al quadrato (σ ):

2 2

VAR(X) = σ = 1/N ∑(x -μ) n

k k

Coefficiente di variazione

Non risente dell’ unità di misura CV = σ/μ

Campo di variazione

 x - x

max min

Differenza interquartilica

 Q – Q

3 1

Indice di asimmetria (α)

Viene effettuata la somma degli scarti al cubo in quanto è fondamentale sapere il segno dello

scostamento, ma se non viene elevato la somma darebbe zero.

3 3

Distribuzioni individuali α= 1/σ ∑(a – μ)

o i

3 3

Distribuzioni frequenza α= 1/σ ∑(x – μ) f

o k k

3 3

Distribuzioni in classi α= 1/σ ∑(m – μ) f

o k k

ANALISI CONGIUNTA DI DUE VARIABILI

Date due variabili X e Y si effettua un’analisi congiunta per valutare se esiste una relazione lineare

fra le due variabili : statistica bivariatica.

Covarianza

Date N osservazioni su due variabili quantitative X e Y, la covarianza è un indice che ci dice come

la Y varia in media linearmente rispetto alla X e viceversa:

COV = σ = ∑(x – μ ) (y – μ )

X,Y X,Y i X i Y

Il segno del coefficiente ci dice la direzione della relazione e in valore assoluto indica la forza della

relazione, ma dipende dall’unità di misura delle due variabili, perciò non è confrontabile con σ .

VZ

Coefficiente di correlazione

È un indice relativo che varia fra -1 e 1 e misura la relazione lineare fra le due variabili X e Y, è

quindi confrontabile fra diverse distribuzioni (non dipende dall’unità di misura):

CORR = ρ = σ / σ σ

X,Y X,Y X,Y X Y

È dato dalla divisione fra covarianza per il prodotto delle deviazioni standard, se il segno è (+) è

concordante se è (-) è discordante, più il coefficiente si avvicina agli estremi più la relazione è forte.

ρ = 1 perfetta dipendenza lineare positiva

x,y

ρ , = -1 perfetta dipendenza lineare negativa

x y

Quando ρ=0 non c’è associazione di tipo lineare ma non è detto che non esista comunque un

associazione di altro tipo. REGRESSIONE LINEARE SEMPLICE

Si cerca una retta che meglio rappresenta e approssima il fenomeno d’interesse, fornisce una buona

stima sul valore futuro.

Si ipotizza che la relazione fra le due variabili si possa scrivere come :

Y=f(X) + errore

f(X) indica il comportamento della variabile Y spiegato dalla X, l’errore indica la parte residuale di

Y che non può essere spiegata dalla X. Y = α + Βx + errore

Il problema statistico consiste nel trovare i valori dei coefficienti di regressione (a,b) tali che, data la

retta X, la retta approssima meglio i dati Y. Ỹ

=a+bX

Metodo dei minimi quadrati

Dato un insieme di osservazioni X e Y si scelgono i valori dei coefficienti di regressione (a,b) tali

che R(a,b) è minimo, la somma degli errori deve essere elevata al quadrato altrimenti si annulla.

i2 2

R(a,b)=∑e =∑(y - ) = ∑(y – a- bx )

i i i

ỹ = a + bx i

e = y -

i i i

Stime dei minimi quadrati

Dato un insieme di osservazioni X e Y le stime dei coefficienti di regressione (stimano gli indicatori

α e β) sono: 2x

b = COV(X,Y)/VAR(X) = σ /σ = ρ (σ /σ )

xy xy y x

a = μ – bμ

y x

Il segno del coefficiente angolare b della retta dipende dal segno della Covarianza e quindi dalla

Correlazione. Questi valori a e b sono tali che rendono minima la somma degli errori al quadrato.

Bontà di adattamento

La qualità della regressione è tanto migliore quanto più la variabilità della Y è spiegata dal modello

piuttosto che dall’errore. ỹ

2 2

VAR(Y) = 1/N ∑(ỹ – μ ) + 1/N ∑(y - )

i y i i

2

SSR=

Dettagli
Publisher
A.A. 2013-2014
8 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher paolo.imola93 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Bologna o del prof Lupparelli Monia.