DIAGRAMMA A BARRE VARIABILE
• QUALITATIVA ORDINALE
ISTOGRAMMA VARIABILE
QUANTITATIVA CONTINUA
• Area= frequenza relativa
DIAGRAMMA DI DISPERSIONE
MISURE DI SINTESI NUMERICA VARIABILE QUANTITATIVA DISCRETE
Si utilizzano per caratterizzare gli elementi con un solo
indicatore.
MISURE DI CENTRALITÀ
MODA la modalità della variabile con frequenza
maggiore. È il valore dell’osservazioni che si è verificato
con maggior frequenza in una distribuzione di dati. È
possibile applicarla a tutte le variabili e non necessita di
calcoli.
MEDIA ARITMETICA somma di tutti i valori numerici della variabile rapportata al numero totale di
n
∑ x i
osservazioni μ i=1
¿ n
MEDIANA il valore dell’osservazione che occupa la posizione centrale di una distribuzione
ordinata di dati. Si applica a variabili ordinali discrete e continue, non è influenzata da valori esterni
e non si individua con dei calcoli.
MISURE DI VARIABILITÀ
SCARTO QUADRATICO MEDIO Radice quadrata della media aritmetica del quadrato delle
differenze di ciascun valore della variabile dalla media della distribuzione: indica di quanto i valori
della variabile si discostano mediamente dalla media aritmetica. Si applica a variabili quantitative
discrete e continue.
√ n
∑ 2
(x −μ)
i
i=1 n
Mentre lo scarto quadratico medio si riferisce alla popolazione, la DEVIAZIONE STANDAR si
riferisce ad un campione n-1 (sottraggo 1 alla conta delle osservazioni)
n
∑ 2
x
( )
−x
DEVIANZA è la somma dei quadrati degli scarti dalla media j
j=1 n
∑ 2
x
( )
−x
j
VARIANZA la media delle somme dei quadrati degli scarti dalla media j=1 n s
COEFFICIENTE DI VARIANZA rapporto fra deviazione standard e media CV = μ
QUARTILI
I quartili sono valori che ripartiscono una popolazione in 4 parti ugualmente popolate(DECILI10
parti, PERCENTILI 100 parti). La mediana rappresenta il 2° quartile, il 5° decile e il 50° percentile.
Intervallo interquartile: individuato dal primo e dal terzo quartile (intervallo in cui sono comprese
il 50% delle osservazioni)
È possibile applicarli su:
VARIABILI QUANTITATIVE DISCRETE E CONTINUE
VARIABILI QUALITATIVE ORDINALI
Grafico relativo BOXPLOT VALORE
MASSIMO
3°
Una rappresentazione grafica utilizzata per QUARTILE
descrivere la distribuzione di un campione
tramite semplici indici.
PROBABILITÀ MEDIANA
1°
QUARTIL
E VALORE
MINIMO
Misura la realizzabilità di un evento aleatorio (né certo né impossibile a priori). Un evento può
essere elementare o non elementare, quest’ultimo è scomponibile in più eventi elementari.
EVENTI INCOMPATIBILI ED EVENTI COMPATIBILI
Si abbiano due dadi identici, aventi le facce contrassegnate coi numeri da uno a sei. Scegliamo
tre eventi possibili, conseguenti al lancio di entrambi:
A = "la somma dei punti sia pari"
B = "la somma dei punti sia dispari"
C = "la somma dei punti sia divisibile per tre".
È evidente che se la somma dei punti è pari essa non potrà essere contemporaneamente dispari:
i due eventi A e B sono quindi incompatibili. Invece, esistono numeri la cui somma è pari
(o dispari) e divisibile per tre: gli eventi A e C, dunque, così come gli eventi B e C, si dicono
compatibili. In conclusione, due eventi aleatori, appartenenti ad una medesima prova, si dicono
incompatibili quando il realizzarsi dell'uno esclude il realizzarsi dell'altro; in caso contrario, gli
eventi si diranno compatibili.
EVENTI INDIPENDENTI ED EVENTI DIPENDENTI
La distinzione ha chiaramente senso solo quando gli eventi trattati sono tra di loro compatibili.
In tal caso, due eventi si diranno indipendenti quando il realizzarsi di uno non altera le probabilità
di realizzarsi dell'altro (ad esempio, da un'urna contenente palline bianche e nere si estraggano
successivamente due palline; se la prima pallina estratta è bianca, la probabilità che anche
la seconda sia bianca non si altera se la prima viene rimessa nell'urna dopo l'estrazione).
Viceversa, i due eventi si diranno dipendenti nel caso contrario (la prima pallina bianca non viene
rimessa nell'urna; di conseguenza, la probabilità che anche la seconda sia bianca viene alterata).
Definizioni di probabilità:
CLASSICA (a priori)
La probabilità di un evento è il rapporto tra il numero dei casi favorevoli all'evento (m) e il numero
dei casi possibili (n), purché questi ultimi siano tutti equiprobabili.
m
P E
( )
=
1 n
FREQUENTISTA (a posteriori)
La probabilità di un evento è il rapporto tra la frequenza assoluta con cui si realizza (m) e il
numero delle prove effettuate nelle medesime condizioni (n), ossia la frequenza relativa (la
probabilità è il limite al quale tende la frequenza relativa dell’evento, considerando che si possono
effettuare infinite prove simili e ripetibili). Si basa sulla legge dei grandi numeri.
SOGGETTIVISTA
La probabilità è il grado di fiducia che un individuo coerente e razionale, in base alle proprie
informazioni, assegna ad un evento.
Si intende per "individuo coerente" chi con la probabilità si comporta:
- in modo da assegnare 0 agli eventi impossibili;
- in modo da assegnare 1 agli eventi certi;
- in modo da assegnare valori da 0 a 1a tutti quegli eventi che ritiene variamente probabili.
Spazio campionario
S l’insieme esaustivo dei possibili eventi elementari ed incompatibili ottenibili da un esperimento.
Evento complementare
c c
E la negazione di E, tutto ciò che non è E. E = S-E
L’inferenza statistica può essere definita come la disciplina che utilizza l’informazione
campionaria, per fare delle affermazioni sulla popolazione da cui il campione è stato tratto, in
particolare sui parametri della distribuzione della popolazione stessa (solitamente µ e σ). Può
avvenire però una perdita di informazioni, il risultato campionario infatti può differire da quello
ignoto della popolazione ERRORE DI CAMPIONAMENTO ( o casuale), mai annullabile a meno
che il campione non coincida con la popolazione stessa.
Una variabile casuale è caratterizzata dalla sua legge di probabilità che è identificata dai suoi
parametri(θ). Dato un valore plausibile dei parametri, siamo in grado di descrivere e rappresentare
un modello statistico per la caratteristica di interesse.
Possiamo definire come stimatore di un parametro ignoto, la statistica che corrisponde a tale
parametro. Uno stimatore puntuale è una statistica che produce un singolo valore numerico. Un
particolare valore numerico, ottenuto sulla base dei dati campionari, è detto stima.
Uno stimatore intervallare è un intervallo casuale entro cui il vero valore del parametro cade con
un livello di probabilità assegnata (livello di confidenza). Questi intervalli sono usualmente indicati
come intervalli di confidenza.
Le affermazioni della statistica inferenziale quindi sono di due tipi:
• STIMA: si vuole indicare un valore plausibile per il parametro della popolazione, sotto una
delle 2 forme:
1. un valore ben definito (STIMA PUNTUALE).
2. un intervallo in cui molto verosimilmente il parametro
sia incluso (STIMA INTERVALLARE)
• VERIFICA DI IPOTESI: indicare quale tra due specifiche
ipotesi sul parametro (nulla o alternativa) sia da accettare
La probabilità che la stima puntuale coincida con il parametro è uguale a 0, per questo è utile
trovare un intervallo di confidenza. Utilizziamo tale intervallo per capire quanto il parametro del
campione sia vicino al valore reale di quello della popolazione.
L'IC viene calcolato a partire dall'errore standard (ES) che è la misura della precisione con cui la
media del campione stima la media della popolazione. ±
Es: semplificando possiamo dire che in generale l'IC è pari a 2ES. Se ad esempio la stima
puntuale della misura è pari a 5 e l'ES è pari a 1,2 allora posso avere una fiducia del 95% che il
± ×
valore nella popolazione generale sarà compresa fra 5 (2 1,2)= da 2,6 a 7,4.
Dal momento che l'ES dipende dalla numerosità del campione, anche l'IC sarà influenzato dalla
grandezza del campione. Più il campione studiato è grande più l'IC si restringe, dandoci una stima
della media più precisa.
INTERVALLO DI CONFIDENZA PER UNA MEDIA x
( )
−μ
i
Z = 1
2
( )
σ
2
X~N(μ,σ ) Z~N(0,1) 2
n n
∑ 2
x
( )
i−x
2 2
Quando σ non è nota viene stimata dalla varianza campionaria s 2 i=1
s = n−1
• Livello di fiducia (1-α) a discrezione
• Gradi di libertà n (numero delle osservazioni) – 1
x
( )
−μ
i
¿ 1
2
( )
s
• t (t di Student) 2
n-1 n
la distribuzione t è simmetrica rispetto la media, presenta gradi di libertà e assume forme
n-1
diverse per ciascun grado di libertà: all’aumentare di questi la forma approssima la normale.
L’intervallo di confidenza per una media è dunque dato dal valore della media più o meno il
σ 2
prodotto tra Z e l’errore standard (ES = ) nel caso σ sia noto, altrimenti sostituisco t alla Z
√ n n-1
s
e all’errore standard.
√ n
INTERVALLO DI CONFIDENZA PER LA DIFFERENZA FRA MEDIE
Bisogna distinguere due casi, quello in cui i campioni presi in esame siano dipendenti e quello in
cui siano indipendenti.
Si procede nello stessa maniera dell’intervallo di confidenza per una media solamente che nel
σ
caso i campioni siano dipendenti l’errore standard è dato da mentre nel caso siano
√ n
√ 1 1
( )
2 2
s × + s
indipendenti l’errore standard è dato dalla seguente formula: dove
n n
1 2 21 22
n × s n × s
( ) ( )
−1 + −1
1 2
2
s =
rappresenta la media ponderata delle due deviazioni standard n n
+ −2
1 2
VERIFICA DELL’IPOTESI
Il test di verifica d'ipotesi si utilizza per verificare la bontà di un'ipotesi.
Permette di analizzare il problema valutando la probabilità di osservare i risultati ottenuti dal
campione anche nella popolazione da cui il campione è stato est