vuoi
o PayPal
tutte le volte che vuoi
QUALITATIVE ORDINALI VARIABILI QUANTITATIVE, ogni
qualvolta si a che fare con
distribuzioni fortemente asimmetriche
(presenza di un valore estremamente
elevato rispetto agli altri), si voglia
scegliere un indice che non risente di
valori estremi come accadrebbe con la
media aritmetica in quanto darebbe
una descrizione non veritiera.
VARIABILI QUANTITATIVE, quando
sono presenti dati troncati, cioè dati
a informazione incompleta, sui quali
non è possibile assegnare un valore
preciso (Esemp. >6), impedendo
l’applicazione della MEDIA
ARITMETICA (esemp.pag. 51-52).
Moda (Norma) [Mo] è quel valore della variabile che si ripete
o con maggior frequenza. Indica la NORMALITA’ (tipicità della
distribuzione).
In generale x evidenziare la MODA si richiede un numero di dati
elevato.
Su quali variabili può essere applicata la MODA VARIABILI
QUALITATIVE
VARIABILI QUANTITATIVE: in quelle CONTINUE occorrerà che i
dati siano raggruppati in classi, costituendo CLASSI MODALI
(esemp. il peso è una VAR.QUANT.CONT. è impossibile che tutti i
soggetti presi in esame presentino esattamente lo stesso peso, tale
situazione non mi permette di definire la MODA, e x ottenerla sarà
opportuno andare a costituire delle CLASSI MODALI, cioè
suddividere coloro che presentano un peso < =120 obese;
>120/<= 90 sovrappeso; >90/<=50 normopeso; ecc. In questo
modo posso vedere quante volte una certa categoria si ripete,
definendo la MODA).
Una distribuzione può essere:
Unimodale: presenta una sola MODA
Bimodale: 2 MOE
Multimodale: <2 MODE
Amodale: non presenta MODA
INDICE DI DISPERSIONE: descrivono il GRADO DI VARIABILITA’ del
• campione. Esemp. Immaginiamo che tu e un tuo amico confrontiate la vostra
media dei voti all'università e scopriate di avere entrambi la stessa media: 25.
Confrontando però i voti sul libretto, vi rendete conto di una cosa: che i tuoi voti
sono:
18, 22, 23, 25, 25, 26, 26, 27, 28, 30 (media = 25)
mentre quelli del tuo amico sono:
25, 25, 25, 25, 25, 25, 25, 25, 25, 25 (media = 25)
Noti qualche differenza? Sebbene la vostra media sia identica, le vostre
situazioni sono molto diverse! La distribuzione dei suoi voti ha variabilità NULLA,
mentre la distribuzione dei tuoi voti ha una variabilità più alta! In sostanza, la
variabilità di un fenomeno possiamo definirla come l'attitudine di quel
fenomeno ad assumere modalità DIVERSE.
Ora, la variabilità di un fenomeno, può essere misurata in modi diversi, e in
Statistica esistono diversi indici per misurare la variabilità. L' obiettivo è quello
di misurare la variabilità, cioè vedere quanta "diversità" c'è tra le modalità (=
manifestazioni concrete) del fenomeno che stiamo studiando.
SCOSTAMENTO SEMPLICE MEDIO ASSOLUTO descrive la
o media degli scostamenti (quanto un valore di discosta dalla
media aritmetica) in valore assoluto. Per calcolare, si prendono in
considerazione gli SCARTI in valore assoluto (quindi senza
considerare valori negativi), si sommano e il risultato viene diviso x
il numero dei dati. formula pag.59
Perché si considera il valore assoluto? è necessario in
quanto altrimenti, x la proprietà della MEDIA ARITMETICA, la
somma degli scarti darebbe ZERO: (x – x = 0)
i
non consentendo di calcolare la MEDIA DEGLI SCOSTAMENTI.
VARIANZA è data dalla media degli scostamenti al
o QUADRATO (e non valore assoluto), in questo modo la
VARIANZA assume dimensioni pari al quadrato della
dimensione dei dati (e della media) (NON è
DIMENSIONALMENTE OMOGENEA CON L’UNITA’ DI MISURA DELLA
VARIABILE) (vedi esemp.pag.61). Per calcolarla si prendono in
2
considerazione gli SCARTI elevandoli al quadrato (x – x) , invece
i
che considerare il valore assoluto, si SOMMANO, in modo tale da
avere una misura di sintesi che mi dica quanto le modalità sono
diverse tra loro, e il risultato viene diviso per il NUMERO DEI DATI.
formula pag.59.
Perché gli SCARTI vengono elevati al quadrato? in questo
modo si riesce ad ottenere dei valori SEMPRE POSITIVI, altrimenti x
la proprietà della MEDIA ARITMETICA, la somma degli scarti
sarebbe ZERO: (x – x = 0). Da ciò ne consegue che la VARIANZA
i
da SEMPRE valori ≥ 0
DEVIANZA [SQ] Se si prende in considerazione solo il
NUMERATORE della VARIANZA, si ha la DEVIANZA, un altro indice
di dispersione che non tiene in considerazione il NUMERO DEI DATI.
Differenza tra VARIANZA e DEVIANZA con la VARIANZA si
ottiene una misura che tiene in considerazione il NUMERO DEI DATI.
La VARIANZA è inv.proporzionale al NUM.DEI DATI.
Deviazione standard [DS; s ..> riferita a un campione; σ ..>
o riferito a popolazione] è data dalla RADICE QUADRA DELLA
VARIANZA (vedi formula pag.60). La presenza della RADICE
QUADRA annulla l’effetto dell’elevazione al quadrato, ottenendo
una misura con dimensioni pari a quella dei dati (e della
media) (DIMENSIONALMENTE OMOGENEA CON L’UNITA’ DI MISURA
DELLA VARIABILE: stessa unità di misura).
Quando si utilizza? Quando voglio ottenere una misura di
dispersione delle stesse dimensioni della variabile (e media), in
maniera da comparare i 2 valori.
Coefficiente di variazione [CV] è dato dal rapporto tra
o DEV.STANDARD [DS] / MEDIA ARITMETICA [x] (formula pag.62). Da
questo rapporto risulta che il valore ottenuto sarà adimensionale,
cioè non avrà valori ma sarà espresso da un numero puro.
Quando si utilizza? Quando si vuole confrontare la
dispersione fra 2 grandezze aventi unità di misura differenti
(vedi esemp.pag.63).
Il COEFFICIENTE DI VARIAZIONE può anche essere espresso in
percentuale (moltiplicando il valore ottenuto dal rapporto x 100).
Tutti gli INDICI DI DISPERSIONE fin qui descritti, possono essere utilizzati SOLO
su VARIABILI QUANTITATIVE ma non su VARIABILI QUALITATIVE, in quanto
utilizzano la MEDIA ARITMETICA come indice di tendenza centrale e gli
SCARTI attorno ad essa (la MEDIA ARITMETICA può essere utilizzata solo su
VARIABILI QUANTITATIVE!).
INDICI DI DISPERSIONE che possono essere utilizzati su VARIABILI
QUALITATIVE ma anche QUANTITATIVE:
INTERVALLO DI VARIAZIONE (range) [IV] questo indice ci
o informa del range (intervallo) entro cui i dati a disposizione possono
variare. È dato dalla differenza tra il VALORE PIU’ GRANDE e quello
PIU’ PICCOLO di una serie di dati, posti in ordine crescente:
IV= x -x
n 1
Prendendo in considerazione solo i 2 valori estremi e non valutando
come sono distribuiti gli altri dati, questo indice appare
estremamente povero di informazione (esemp. pag.64).
DIFFERENZA INTERQUARTILE x calcolare questo indice di
o dispersione si dovranno utilizzare i QUANTILI.
QUANTILI sono indici di posizione (non indici centrali) di
una distribuzione e possono essere:
QUARTILI: sono 3 valori (Q1,Q2,Q3) che ripartiscono
• la distribuzione dei dati in 4 parti uguali.
Per calcolarlo esistono diversi modi, il migliore è il
seguente: se il numero di dati è DIVISIBILE PER 4, essi
potranno essere direttamente ordinati in ordine
crescente in 4 parti uguali (esemp. ho 8 dati: 8/4=2 i
dati verranno suddivisi in gruppetti di 2 x formare 4
parti uguali ed ordinati in ordine crescente).
Se il numero NON è DIVISIBILE PER 4, si andrà a
duplicare il numero dei dati fino ad ottenere un
numero divisibile per 4 (esemp. ho 7 dati: 7x2=
14 ..> 14x2=28).
Se il num.dati non è divisibile per 4 ma è PARI
DUPLICO (x2)
Se il num.dati non è divisibile per 4 ma è DISPARI
QUADRUPLICO (x4)
Una volta ottenuto la divisione in 4 gruppi, si
andranno a definire i 3 QUARTILI, cioè quei valori che
dividono la serie in 4 parti uguali [Q1-Q2-Q3] (essi
sono i valori di mezzo tra l’ULTIMO NUMERO di un
gruppo e il PRIMO NUMERO del gruppo successivo, vedi
esemp pag.65).
DECILI: sono i 9 valori che ripartiscono la
• distribuzione dei dati in 9 parti uguali [D1..D9].
PERCENTILI: sono i 99 valori che ripartiscono la
• distribuzione in 100 parti uguali [P1…P99] (vedi
esemp. pag.66).
Il SECONDO QUARTILE [Q2] – QUINTO DECILE [D5] –
50° PERCENTILE [P99], coincidono tra loro e con la
mediana.
DIFFERENZA INTERQUARTILE: è un intervallo di variazione
calcolato una volta che vengono eliminati il 25% dei dati MENO
ELEVATI e il 25% dei dati PIU’ ELEVATI.
È dato dalla differenza tra il TERZO quartile e il primo
QUARTILE: Δ = Q3 – Q1 (esemp. pag.67)
Definiscono quanta differenza c’è tra il TERZO e il PRIMO quartile,
informandoci del grado di dispersione “centrale” dei dati (se la
DIFF.INTERQUARTILE in una serie di dati di un CAMPIONE A è più
elevata rispetto a quelli di un CAMPIONE B, significa che nel
CAMPIONE A c’è una dispersione maggiore di dati).
PROBABILITA’
In statistica ad ogni evento c’è la possibilità di associare la probabilità che esso
avvenga.
La probabilità secondo la definizione di La Place (definizione classica) è
il rapporto tra il numero dei casi favorevoli all'evento e il numero dei casi
possibili, purché questi ultimi siano tutti equiprobabili:
numero eventi favorevoli
num.eventi totale
esemp. probabilità che lanciando i dadi esce n° 4 p(A)= 1/6
Dalla definizione seguono 3 regole:
La probabilità che un evento accada può assumere valori
• compresi tra 0 e 1 0 ≤ p ≤ 1
O evento IMPOSSIBILE – 1 evento CERTO
• la probabilità del verificarsi di UNO o DUE eventi incompatibili, ovvero
• di due eventi che non possono verificarsi simultaneamente, è pari alla
somma delle probabilità dei due eventi (esemp. voglio sapere la
probabilità che tirando i dadi mi esca un numero PARI p(A)=1/2 e la
probabilità che esca il num. 5 p(A)=1/6.
La PROBABILITA’ che tirano il dado mi esca un numero PARI oppure il
num.5
p(A)= ½ + 1/6 = 2/3)
La definizione classica consente di calcolare effettivamente la probabilità in
molte situazioni. Inoltre, è una definizione operativa e fornisce quindi un
metodo per il calcolo, ma presenta tuttavia diversi aspetti negativi:
dal punto di vista formale, è una definizione circolare: richiede che i casi
• possiedano tutti la medesima probabilità, che è però ciò c