vuoi
o PayPal
tutte le volte che vuoi
INDICI DI VARIABILITÀ
Sono indici che mostrano cosa succede nel mezzo del grafico, e sono associabili solo a
variabili quantitative.
Range, detto anche campo di variazione, è la differenza tra valore massimo e valore
minimo, e serve a far capire il salto massimo e quanto è ampio l’intervallo di
variazione. Non è molto affidabile perché in caso di presenza di dati anomali, il range
è fuorviante.
Differenza interquartile è la differenza tra il terzo quartile e il primo quartile, ovvero la
modalità che occupa la posizione a tre quarti e quella che occupa la posizione a un
quarto della scala, eliminando i valori estremi che potrebbero contenere dati anomali.
Richiedono quindi anch’essi l’ordine, e la Mediana rappresenta il secondo quartile.
Possono essere usati anche i decili e i centili.
Gli scarti della media sono la sommatoria della differenza un valore medio e gli indici
di dispersione della variabilità, che però verrebbe 0 poiché si sommano gli scarti
positivi e negativi. Quindi si eleva al quadrato, ottenendo la Devianza (Dev), che però
non dà molte informazioni 2
Dividendo la devianza per il totale dei soggetti, si ottiene δ , cioè la varianza. La
radice quadrata della devianza dà la deviazione standard, che divisa per la media dà
il coefficiente di variazione (V) e rappresenta la distanza media di un dato dal valore
medio.
I dati anomali possono essere individuati in diversi modi. Se il massimo e il minimo non
sono dati anomali, non sono presenti. Occorre standardizzare i dati rispetto alla media con il
conteggio Z, cioè cercare di capire quanto dista un valore dalla media rispetto alla distanza
media. Se viene un valore superiore a 3, il dato è anomalo.
2
PROBABILITÀ
Essa misura il grado di manifestazione di un evento, ed è sempre compresa tra 0 e 1. Se la
probabilità è 0, un evento è impossibile, se è 1, è certo. Si prende in considerazione un
esperimento aleatorio, cioè casuale, di cui si riconoscono tutti i possibili dati ma non si può
determinare con assoluta certezza quale si verificherà. Ciò che si verifica è l’evento, che
può essere semplice, se è un singolo risultato, o composto, se comprende più risultati. La
probabilità può essere calcolata in due modi: N ° casi favorevoli
p( A)=
A priori, prima del verificarsi dell’evento: .
N ° casi possibili
N ° di successi
( )=
p A
A posteriori, provando numerose volte: .
N ° di tentativi
Ci sono quattro casi per gli eventi composti.
La probabilità di due eventi incompatibili, cioè il verificarsi di uno esclude l’altro, è:
( )= ( )
∪ +
p A B p A p(B)
La probabilità di due eventi compatibili, cioè possono verificarsi
( )= ( ) ( )−
∪ +
p A B p A p B p( A ∩ B)
contemporaneamente, è: (Parte in comune)
( ) ( )
La probabilità di due eventi compatibili dipendenti è: =p (B /
p A ∩ B A ∙ p A)
(causa effetto) ( ) ( )
=p (B)
La probabilità di due eventi compatibili indipendenti è: p A ∩ B A ∙ p
LE VARIABILI CASUALI
Esse sono variabili quantitative i cui valori sono associati a un esperimento probabilistico, e
viene rappresentata con la probabilità invece che con la frequenza. Esistono quattro tipi di
variabili.
Binomiale, variabili discrete. Il grafico di queste variabili è sempre asimmetrico, a parte
quando p=q ed è limitata. Indicando con p è la probabilità di successo del singolo evento, n
il numero di prove indipendenti tra loro, e x è il numero di successi che si ricercano. x è
sempre minore o uguale a n. la probabilità di insuccesso è q=1-p.
( )
n n− x
x
( )= ( )
p x p ∙ 1− p
x
( ) n!
nx = e n! vale il prodotto di tutti i valori interi precedenti a n fino a 1. 0!=1.
( )
x ! n−x !
Normale o gaussiana, variabili continue. Il grafico di queste variabili è sempre simmetrico
rispetto ad un dato centrale chiamato μ, la media, è illimitato, anche se l’area sottesa di
tutto il grafico è sempre uguale a 1 e è asintotico, poiché gli estremi non toccano mai l’asse
x. STATISTICA INFERENZIALE. 3
Si parte dal particolare per arrivare al generale. Partendo da un campione, si cerca di
estendere le caratteristiche anche al generale. Il parametro θ è importante per ciò, e può
2
essere la moda μ, la varianza σ o la proporzione di soggetti con una determinata
caratteristica π. Al campione si applica lo Stimatore T, formula che esprime la stima dei
parametri nella popolazione, valore numerico. I tre stimatori possono essere:
∑ x f
i i
, e rappresenta la media campionaria
i
x́= n
∑ 2
( − )
x x́ f
i i 2
, che è varianza campionaria e serve per esprimere σ della
2 i
=
s n−1
popolazione.
x
p=
, dove x = soggetti con una caratteristica e n è il campione, e serve per
n
esprimere π
Un campione deve essere rappresentativo, cioè nel piccolo deve rappresentare le
caratteristiche di una popolazione. Se la media delle stime coincide con la popolazione
( ) ( )
=θ
E T E T ≠ θ
, l’estimatore è corretto, se non coincidono è distorto e
( ) −θ=Distorsione
E T .
MEDIA CAMPIONARIA, PROPORZIONE E VARIANZA CAMPIONARIA
2
Essa cambia a seconda del campione. È uno stimatore corretto di μ. è il grado di
σ x́
variabilità della stima e indica l’imprecisione (se nullo, lo stimatore è precisissimo).
2
σ
2 = . La legge dei grandi numeri afferma che quanto è più grande il campione, quanto
σ x́ n
2
più diminuisce, quindi l’estimatore diventa più preciso. Nella realtà, i campioni non
σ x́
sono molto grandi per mancanza di tempi e costi eccessivi. Lo stimatore, in media, sbaglia
di σ, che è l’errore standard. Gli intervalli di confidenza o di fiducia sono intervalli di possibili
stime e si possono applicare solo se la media campionaria è normale, ovvero segue la
curva gaussiana. Se l’intervallo è grande, è più probabile che il parametro ci rientri anche
se è meno informativo, mentre se è piccolo è il contrario. La probabilità si chiama appunto
confidenza. Gli estremi dell’intervallo da conoscere devono distare lo stesso valore dalla
media e si chiama margine di errore ME, che quanto più è piccolo, quanto più è minore
l’errore. La confidenza, osservando un grafico gaussiano, è l’area curva nell’intervallo, che
deve essere elevata, e di solito è richiesta al 90, 95 o 99%, e corrisponde a 1-α, dove α
rappresenta l’area estrema alla curva. Il margine di errore si trova con la formula:
σ
ME= z , z si trova in corrispondenza delle due mode e si trova nelle tavole. I valori
α
√ n 2 x́ ± ME
estremi che indicano il margine di errore corrispondono a L = . La probabilità che
1,2
la moda sia compresa tra i due valori estremi è uguale alla soglia di confidenza. Se la
media campionaria non è una variabile normale o non possiamo affermarlo con certezza,
entra in gioco il teorema del limite centrale, che afferma che quanto n è grande, da 30 in
poi, la media è approssimativamente una normale in ogni caso. Quando manca σ, si ricorre
4
2
alla formula con s , la varianza, e invece che z si utilizza la t di student, che è più grande
perché l’intervallo è più grande e n-1 si usa per correggere l’errore. Gli estremi quando si
√ p ∙(1− p)
=
L p ± Z
tiene conto della probabilità valgono .
1,2 α n
2
TEST DI IPOTESI
Quando si ha due campioni, si può fare il confronto tra le mode. Se esse sono diverse, si
deve capire se ciò è un caso o se ha un significato, poiché esiste anche a livello di
popolazione. Se è casuale non ci sono considerazioni da fare, altrimenti si deve capire quali
fattori influenzano il tutto. Due campioni si dicono dipendenti quando hanno un legame, per
esempio se i due campioni considerati sono il solito prima e dopo un evento. Si prendono
due ipotesi di partenza, h , che se è vera afferma che la differenza di mode è casuale, o h
0 1,
che se è vera dice che c’è un collegamento, e può essere bidirezionale, una totalmente
errata e una giusta. La t di student si trova con la formula:
2 2
( )
−1 +S −1)
S ∙ n ∙( n
1 1 2 2
¿ +
n n
1 2
¿ +n −2∙
n 1 2 n ∙ n
2 1
¿
¿
¿
√
−x́ −(
x́ μ1−μ 2)
1 2
t= ¿
Quanto più t è piccola, quanto più è possibile che h sia accettabile. Se |t|>|t |, non si
0 critico
accetta h come ipotesi. Il valore critico si basa sul livello di significatività α. Si possono
0
commettere due tipi di errore, il più grave è rifiutare h che in realtà è vero, mentre il
0
secondo è accettare h che è falso. α è un valore molto piccolo, di solito interno al 5%, e
0
sappiamo che si sbaglia si sbaglia di α%.
TEST NON PARAMETRICI
Si considera quando due campioni non hanno andamento normale, e si fanno ipotesi non
sulle mode ma sulle mediane, quindi sulla oro posizione.
P VALORE
Altro metodo è il calcolo della coda del valore calcolato t. se t<t allora la sua coda sarà più
c,
grande della coda del valore critico e se p<α, si accetta l’ipotesi h e se p è molto piccolo si
0
rifiuta ed è calcolabile solo in ambito di punteggio z, con le tavole standardizzate.
L’ASSOCIAZIONE TRA DUE VARIABILI
Si verifica quando due variabili sono associate, cioè al variare di una varia anche l’altra, ma
non necessariamente sono legate dalla legge causa-effetto ma più probabilmente da una
terza variabile, che influenza entrambe. Di solito si considerano due variabili, x che è la
variabile indipendente e y che è la variabile dipendente e oggetto di studio.
5
Le due variabili possono essere una qualitativa e una quantitativa, e si ricorre al test di
ipotesi per fare un’indagine statist