vuoi
o PayPal
tutte le volte che vuoi
DISTRIBUZIONE INDIVIDUALE
Data una variabile X osservata su una popolazione N (unità statistiche) la distribuzione individuale
dei dati è l’insieme delle modalità osservate per unità statistica.
{a ,a ,a , ... ,a }
1 2 3 n
Esempi : Sesso (M,F), Titolo di studio (E,M,S,L) Età (27,45,68,78,52,,56), Peso (72.5, 59.1, 56.5)
DISTRIBUZIONE DI FREQUENZA
X è una variabile qualitativa o quantitativa discreta osservata su N unità, K è il numero di modalità
che può assumere la variabile X.
Frequenza assoluta numero delle unità per cui X assume modalità x k
Frequenza relativa f = n /N
k k
Frequenza percentuale p = f x 100
k k Variabile
Modalità n (freq.assoluta) f (freq.relativa) p
k k k
Finanza 160 0.40 (160/400) 40%
Marketing 140 0.35 (140/400) 35%
Contabilità 100 0.25 (100/400) 25%
∑ 400 1 100%
Se X è una variabile qualitativa ordinale o quantitativa discreta
Frequenza cumulata N k
Frequenza relativa cumulata F k
TABELLA PER VARIABILI ORDINALI
Livello di soddisfazione
Modalità freq.assolut Freq.relativ Freq. Freq.cu Freq.cum.re
a a % m l
Molto insoddisfatto 40 0.37 37% 40 0.37
Abbastanza insoddisfatto 6 0.06 6% 46 0.43
Indifferente 37 0.35 35% 83 0.78
Abbastanza soddisfatto 17 0.16 16% 100 0.94
Molto soddisfatto 7 0.06 6% 107 1.00
∑ 107 1 100% - -
DISTRIBUZIONI FREQUENZA VARIABILI CONTINUE
Non si può definire il numero di K modalità assunte dalla variabile, è necessario classificare le
osservazioni attraverso degli intervalli, l’uso della classi comporta una sintesi dei dati ma anche una
perdita d’informazioni.
Le classi sono : contigue, collettivamente esaustive e mutuamente esclusive, chiusura delle classi
può essere ┤oppure├, ampiezza della classe (w ) valore centrale (m )
k k
m = 250/2 = 125
Uso del cellulare in minuti k (280+250)/2 = 265
Classi n m w f p N F
k k k k k k k (280+300)/2 = 290
0├ 250 26 125 250 0.24 24% 26 0.24 w = 250
250├ 280 67 265 30 0.61 61% 93 0.85 k = (280-250) = 30
280├ 300 17 290 20 0.15 15% 110 1.00 = (300 – 280) = 20
11 1.0
∑ - - 100 - -
0 0
DISTRIBUZIONI IN CLASSI PER VARIABILI DISCRETE
A volte il numero K di modalità assunte può essere molto alto, classificare le osservazioni attraverso
degli intervalli facilita la sintesi anche se comporta una perdita d’informazione, essendo le classi
contigue è importante definire la chiusura delle classi
N.b un soggetto che ha 20 anni appartiene alla 3° classe 20 ├ 30
Età
m w N
Classi n f p F
k k k k
k k k
0├10 8 5 10 0.16 16% 8 0.16
10├20 10 15 10 0.21 21% 18 0.37
20├30 13 25 10 0.27 27% 31 0.64
30├40 12 35 10 0.24 24% 43 0.88
40├50 6 45 10 0.12 12% 49 1.00
4 1.0
∑ - - 100 - -
9 0
RAPPRESENTAZIONI GRAFICHE :
Variabili quantitative
Tabella di frequenza
o Grafico a barre
o Grafico a torta
o
Variabili qualitative
Tabella di frequenza
o Funzione di ripartizione
o Grafico ad aste (discrete)
o Istogramma (continue)
o MISURE DI TENDENZA CENTRALI
• Moda e classe modale
La moda è la modalità della X che si presenta il maggior numero di volte :
es. sesso:[M,F,M,F,F,F,F,M] la moda è la modalità F
voti: [21,30,28,21,25,18] la moda è la modalità 21
La moda può non esistere, se esiste corrisponde alla modalità con maggior frequenza. Nel caso delle
distribuzioni in classi, non si può definire la moda ma la classe modale cioè la classe con maggior
frequenza.
• Media aritmetica (μ)
Data una variabile quantitativa X, la media aritmetica per le distribuzioni individuali si calcola:
μ = 1/N ∑a i
Proprietà:
1. La somma degli scarti dalla media è zero
2. La somma degli scarti al quadrato è minima quando c=μ ∑(a – μ) = 0
i
3. ∑a = Nμ
i
4. La media è compresa sempre tra il valore min e max della X
5. Aggiungendo o sottraendo a tutti i valori a una costante c, la media risulta aumentata o
i
diminuita di c
6. Moltiplicando o dividendo tutti i valori a per una stessa costante c, la media risulta
i
moltiplicata per c
Per le distribuzioni di frequenza si calcola: ∑x f
k k
Per le distribuzioni in classi si può calcolare :
media esatta ∑μ f
k k
media approssimata ∑m f
k k
u (media osservazioni per ogni classe) m (valore centrale della classe)
k k
Media di potenza:
r = 1 media aritmetica M = μ
1 kfk
r = 0 media geometrica (sole se x ≥0) M = ∏x
k 0
r = -1 media armonica M =1/∑(1/x )f
-1 k k
k2
r = 2 media quadratica M = √∑x f
2 k
• Mediana (M )
e
Per calcolarla è necessario ordinare le osservazioni in modo crescente, è un indice di posizione e
indica il valore che divide esattamente i dati osservati in due gruppi della stessa numerosità. E’
possibile calcolarla per variabili quantitative e qualitative purchè ordinali.
N dispari = a (n+1/2)
N pari = (a + a ) /2
N/2 N/2+1
es. [10,25,2,17,24,9,12] [2,9,10,12,17,24,25] (N+1)/2 = 4 M = a = 12
e 4
[10,25,2,24,9,12] [2,9,10,12,24,25] N/2 = 3 M = (a +a )/2= (10+12)/2= 11
e 3 4
Per le distribuzioni di frequenza guardo dopo aver ordinato in modo crescente la frequenza relativa
cumulata la prima modalità che ha F > 0.5
k
Per le distribuzioni in classi la mediana si trova in un intervallo di valori e non si può dare
un’informazione esatta si cerca la classe che contiene la mediana ovvero quella che ha la frequenza
relativa cumulata > 0.5.
• Quantili
Per calcolarlo è necessario ordinare le osservazioni in modo crescente, è un indice di posizione,
indica il valore che divide esattamente i dati osservati secondo una certa proporzione. La mediana è
un quantile di tendenza centrale, i quantili più usati sono :
Q : primo quartile 25%
1
Q : secondo quartile coincide con M
2 e
Q : terzo quartile 75%
3 VARIABILITA’
La variabilità è un indicatore sintetico dei dati che ci dice quanto le osservazioni si discostano dalla
media, è un indicatore di dispersione, questo indicatore risente del carattere di misura (unità) per
caratteri diversi.
Scarto quadratico medio (σ)
2
Distribuzione individuale σ=√∑(a -μ)
o i 2
Distribuzione frequenza σ = √∑(x -μ) f
o k k
2
Distribuzione in classi σ = √∑(m -μ) f
o k k
Varianza
2
È lo scarto quadratico medio elevato al quadrato (σ ):
2 2
VAR(X) = σ = 1/N ∑(x -μ) n
k k
Coefficiente di variazione
Non risente dell’ unità di misura CV = σ/μ
Campo di variazione
x - x
max min
Differenza interquartilica
Q – Q
3 1
Indice di asimmetria (α)
Viene effettuata la somma degli scarti al cubo in quanto è fondamentale sapere il segno dello
scostamento, ma se non viene elevato la somma darebbe zero.
3 3
Distribuzioni individuali α= 1/σ ∑(a – μ)
o i
3 3
Distribuzioni frequenza α= 1/σ ∑(x – μ) f
o k k
3 3
Distribuzioni in classi α= 1/σ ∑(m – μ) f
o k k
ANALISI CONGIUNTA DI DUE VARIABILI
Date due variabili X e Y si effettua un’analisi congiunta per valutare se esiste una relazione lineare
fra le due variabili : statistica bivariatica.
Covarianza
Date N osservazioni su due variabili quantitative X e Y, la covarianza è un indice che ci dice come
la Y varia in media linearmente rispetto alla X e viceversa:
COV = σ = ∑(x – μ ) (y – μ )
X,Y X,Y i X i Y
Il segno del coefficiente ci dice la direzione della relazione e in valore assoluto indica la forza della
relazione, ma dipende dall’unità di misura delle due variabili, perciò non è confrontabile con σ .
VZ
Coefficiente di correlazione
È un indice relativo che varia fra -1 e 1 e misura la relazione lineare fra le due variabili X e Y, è
quindi confrontabile fra diverse distribuzioni (non dipende dall’unità di misura):
CORR = ρ = σ / σ σ
X,Y X,Y X,Y X Y
È dato dalla divisione fra covarianza per il prodotto delle deviazioni standard, se il segno è (+) è
concordante se è (-) è discordante, più il coefficiente si avvicina agli estremi più la relazione è forte.
ρ = 1 perfetta dipendenza lineare positiva
x,y
ρ , = -1 perfetta dipendenza lineare negativa
x y
Quando ρ=0 non c’è associazione di tipo lineare ma non è detto che non esista comunque un
associazione di altro tipo. REGRESSIONE LINEARE SEMPLICE
Si cerca una retta che meglio rappresenta e approssima il fenomeno d’interesse, fornisce una buona
stima sul valore futuro.
Si ipotizza che la relazione fra le due variabili si possa scrivere come :
Y=f(X) + errore
f(X) indica il comportamento della variabile Y spiegato dalla X, l’errore indica la parte residuale di
Y che non può essere spiegata dalla X. Y = α + Βx + errore
Il problema statistico consiste nel trovare i valori dei coefficienti di regressione (a,b) tali che, data la
retta X, la retta approssima meglio i dati Y. Ỹ
=a+bX
Metodo dei minimi quadrati
Dato un insieme di osservazioni X e Y si scelgono i valori dei coefficienti di regressione (a,b) tali
che R(a,b) è minimo, la somma degli errori deve essere elevata al quadrato altrimenti si annulla.
ỹ
i2 2
R(a,b)=∑e =∑(y - ) = ∑(y – a- bx )
i i i
ỹ = a + bx i
ỹ
e = y -
i i i
Stime dei minimi quadrati
Dato un insieme di osservazioni X e Y le stime dei coefficienti di regressione (stimano gli indicatori
α e β) sono: 2x
b = COV(X,Y)/VAR(X) = σ /σ = ρ (σ /σ )
xy xy y x
a = μ – bμ
y x
Il segno del coefficiente angolare b della retta dipende dal segno della Covarianza e quindi dalla
Correlazione. Questi valori a e b sono tali che rendono minima la somma degli errori al quadrato.
Bontà di adattamento
La qualità della regressione è tanto migliore quanto più la variabilità della Y è spiegata dal modello
piuttosto che dall’errore. ỹ
2 2
VAR(Y) = 1/N ∑(ỹ – μ ) + 1/N ∑(y - )
i y i i
2
SSR=