Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
CASI PARI:
• CASI DISPARI:
•
La moda è il valore con la frequenza più elevata e si indica con Mo o
Mod.
Per trovare la moda: bisogna identificare la frequenza più elevata;
risalire al valore o categoria corrispondente.
La distribuzione può essere unimodale: quando si presenta un solo
valore con frequenza più elevata;
bimodale: quando si presentano due valori con frequenza elevata;
multimodale: più di due valori con frequenza elevata;
amodale: tutti i valori con frequenze unitarie o simili.
La distribuzione è simmetrica quando i valori si distribuiscono
equamente nella parte destra e sinistra della media, che coincide con
quello della moda e della mediana M=Md=Mo; è asimmetrica negativa
quando vi è una concentrazione di frequenza dei valori più alti, che si
trovano sul lato destro è M<Md<Mo; è asimmetrica positiva, speculare
alla precedente, non ci sono valori equamente distribuiti e la
concentrazione di frequenza dei valori è più bassa e si trova sul lato
sinistro M>Md>Mo.
Per le variabili misurate su scala nominale: si utilizza la moda che indica
quale tra le categorie della variabile ha maggiore frequenza;
per le variabili ordinali: è appropriato calcolare sia la moda che la
mediana;
per le variabili su scala ad intervalli e a rapporti: si usa qualsiasi indice
di tendenza centrale.
CAP IV: MISURE DI VARIABILITA’
Per ottenere maggiori informazioni occorre indagare su come i dati si
distribuiscono attorno ai valori centrali.
Il modo più semplice per descrivere la variabile è calcolare il
• campo di variazione (range). CV o Range= Max-Min.
Così però figurano solo i valori estremi, non sappiamo nulla sui valori
intermedi e sulle relative frequenze.
L’indice utilizzato nella differenza interquartile si può considerare
• analogo, dato che anche qui si utilizzano solo due valori della
distribuzione. I quartili corrispondono a tre valori che dividono in
quattro parti la distribuzione dei dati. Al di sotto del primo quartile
Q1 abbiamo il 25%; il 50% al di sotto del secondo quartile Q2; e al
di sotto del 75% abbiamo il terzo quartile.
Calcolando la differenza tra il terzo e il primo quartile si ottiene la
differenza interquartile D1, ovvero DI=Q3-Q1. Viene presa in
considerazione solo la parte centrale della distribuzione, il 50% dei dati.
MISURA DI DEVIAZIONE DALLA MEDIA:
La maniera più semplice per calcolare la variabilità della
• distribuzione sarebbe quella di calcolare la deviazione (o scarto) di
ciascun valore della media e poi trovare il valore medio di tali
deviazioni, dividendo la somma di tutti gli scarti per il numero
delle nostre osservazioni.
Il valore medio delle deviazioni ottenuto facendo la sommatoria degli
scarti non è utilizzabile come misura di variabilità perché è sempre, per
qualsiasi distribuzione uguale a zero.
Si possono prendere gli scarti dal valore medio in valore assoluto,
• così si elimina l’effetto del segno dal momento che si considera
quanto il valore si discosta dalla media. Lo scostamento semplice
medio SSM si ottiene sommando tutti gli scarti in valore assoluto e
dividendoli per il numero delle osservazioni.
Un altro modo per eliminare l’effetto del segno sul calcolo della
• media degli scarti è quello di elevare i valori al quadrato.
Sommando gli scarti dalla media elevati al quadrato e dividendoli
per il numero totale delle osservazioni si ottiene la varianza, indice
di variabilità sempre positivo. Elevando i valori al quadrato si
modifica l’unità di misura es. cm diventa cm al quadrato.
La devianza standard s si ottiene dalla radice quadrata della
• varianza. Estraendo la radice quadrata della varianza si ritorna
all’unità di misura originale.
Nel caso in cui le distribuzioni dei dati non hanno frequenza
• unitaria occorre moltiplicare ciascun scarto in valore assoluto per
la relativa frequenza.
La varianza e la devianza standard su dati con frequenza non
• unitaria. Se la distribuzione dei dati presenta frequenza non
unitaria occorre moltiplicare ciascuno scarto al quadrato per la
relativa frequenza.
La varianza e la devianza calcolate con formule con dati grezzi,
• che non prevedono il calcolo degli scarti della media.
Calcolare s2 e s (formula con dati grezzi) con frequenza non
• unitarie.
Il coefficiente di variazione consente di confrontare la variabilità di due
o più distribuzioni. Si calcosa dividendo la deviazione standard per la
media. Questo indice viene detto di variabilità relativa in quanto la
variabilità della distribuzione, detta assoluta, è messa in relazione con
la media. In genere il valore ottenuto viene espresso in percentuale,
moltiplicando per cento. La formula per il calcolo, dunque è V=s/M*100,
se stiamo lavorando su un campione; V=sigma/mi*100, se stiamo
lavorando sulla popolazione. Con questo indice è possibile fare
confronti tra distribuzioni in termini di variabilità assoluta e relativa
quando abbiamo dati per variabili che hanno unità di misura diverse.
Media e deviazione standard hanno la stessa unità di misura, facendone
il rapporto otteniamo un valore indipendente dall’unità di misura della
variabile.
CAP V: MISURE DI POSIZIONE
Per conoscere dove un determinato valore si colloca nella distribuzione
dei dati, ci serviamo degli indici di posizione. I più comuni sono i punti
z, i quartili e i percentili.
Gli indici di variabilità aggiungono informazini, rispetto alle misure di
tendenza centrale, sulle caratteristiche della distribuzione.
Un valore più piccolo di deviazione standard ci dice che tutti i
• valori stanno intorno alla media;
Un valore più grande indica la presenza di dati distanti dal valore
• medio.
Importante: gli indici di variabilità possono essere utilizzati solo su
scale quantitative.
PUNTI Z: indicano la collocazione di ciascun valore della
• distribuzione attraverso il rapporto tra lo scarto dalla media e la
deviazione standard.
PUNTI Z CON FREQUENZA UNITARIA:
PUNTI Z CON FREQUENZA NON UNITARIA:
I QUARTILI (Q): 3 valori che dividono la distribuzione in 4 parti:
Al di sotto del PRIMO QUARTILE (Q1) 25% dei casi;
• Al di sotto del SECONDO QUARTILE (Q2) 50% dei casi;
• Al di sotto del TERZO QUARTILE (Q3) 75% dei casi.
•
Per calcolare i quartili seguire i seguenti passi:
Ordinare i dati in modo crescente;
• In caso di frequenze non unitarie, calcolare le frequenze e le
• frequenze cumulate;
Trovare la posizione (posQ) di ciascun quartile;
• Individuare il valore corrispondente.
•
ATTENZIONE: nel caso in cui nelle frequenze cumulate non sia presente
l’esatta posizione calcolata, fare riferimento alla frequenza che la
comprende.
QUARTILI FREQUENZE UNITARIE:
QUARTILI FREQUENZE NON UNITARIE:
PERCENTILI (P): sono 99 punti, che dividono la distribuzione in 100
part9. Indicano la percentuale di casi che si collocano al di sotto del
valore dato.
Per calcolare i percentili seguire i seguenti passi:
Ordinare i dati in modo crescente;
• In caso di frequenze non unitarie, calcolare le frequenze e le
• frequenze cumulate;
Trovare la posizione (posP) del percentile;
• Individuare il valore corrispondente.
•
ATTENZIONE: nel caso in cui nelle frequenze cumulate non sia presente
l’esatta posizione calcolata, fare riferimento alla frequenza che la
comprende.
PERCENTILI FREQUENZE UNITARIE:
PERCENTILI FREQUENZE NON UNITARIE:
CAP VI: DISTRIBUZIONE DI FREQUENZA CON DUE VARIABILI
Quando abbiamo trattato le distribuzioni di frequenza e le loro
rappresentazioni grafiche abbiamo considerato una sola variabile, che
poteva essere di tipo categoriale che metrica. Da ora potremmo
osservare come costruire distribuzioni di frequenza con due variabili di
tipo categoriale.
DISTRIBUZIONE DI FREQUENZA BIVARIATA: può essere riportata in
una tabella a doppia entrata o di contingenza. Per convenienza si
denomina la tabella indicandone l’ordine attraverso righe x colonne.
Combinazione di due variabili categoriali per avere informazioni
descrittive sulla loro relazione.
Per indicare le specificazioni di una tabella si indica la dimensione,
ovvero il numero di variabili implicate. La maggior parte di tabelle che
noi trattiamo sono bidimensionali, di solito non si va oltre a quelle
tridimensionali.
Inserendo i dati possiamo osservare la seguente distribuzione di
frequenza:
entro ciascuna cella è riportata la frequenza di cella, detta anche
• frequenza congiunta, che può essere espressa in percentuale
(percentuale di cella o congiunta). Sommando tutte le frequenze di
cella dobbiamo ottenere il totale dei casi osservati. Sommando
tutte le percentuali della cella, dobbiamo ottenere 100.
Sommando per ciascuna riga le frequenze delle cose che la
compongono, i totali ottenuti definiscono la distribuzione marginale di
riga che, nel nostro esempio, è la distribuzione semplice della variabile.
Le frequenze marginali possono essere espresse in percentuale,
ottenendo le percentuali marginali di riga. Se sommiamo le frequenze di
ciascuna colonna, i totali così ottenuti definiscono la distribuzione
marginale di colonna. Questa distribuzione può essere riportata tramite
le frequenze marginali oppure le percentuali marginali di colonna.
DISTRIBUZIONE CONDIZIONATA: la distribuzione in percentuale di una
variabile entro una determinata categoria dell’altra variabile. La
percentuale si calcola sui subtotali delle distribuzioni marginali. Le
percentuali condizionate consentono il confronto fra sottogruppi. Per
percentuali condizionate di riga lavoreremo sulla distribuzione
marginale di riga; viceversa, le percentuali condizionate di colonna si
calcolano in base ai dati della distribuzione marginale di colonna.
RAPPRESENTAZIONE GRAFICA DELLA DISTRIBUZIONE DI
FREQUENZA BIVARIATA: ll grafico a barre si usa quando abbiamo
variabili qualitative. Nel caso in cui si vogliono riportare le frequenze di
cella, dovremo procedere esattamente come nel caso di una sola
variabile, soltanto che al posto delle categorie semplici, riporteremo
sull’asse X le combinazioni tra categorie, mentre su Y avremo le
frequenze.
Le barre sono separate tra di loro, ad indicare che non esiste una
continuità tra i valori. La frequenza riportata può essere semplice,
oppure si sceglie di utilizzare le frequenze relative o le percentuali.
ESERCIZIO:
CAPITOLO XIII
LA RELAZIONE TRA VARIABILI
Occorre innanzitutto compiere una distinzione tra i concetti di:
c