Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
ORGANIZZAZIONE DEI DATI IN TABELLE E DIAGRAMMI
Variabili categoriche (o qualitative) Variabili quantitative
1. Tabelle di frequenza 1. Tabelle di frequenza
2. Diagramma a barre (bar chart) 2. Istogramma
3. Torte (pie chart) 3. Box plot (box whisker)
Associazione tra variabili categoriche Associazione tra variabili quantitative
1. Tabelle di contingenza 1. Diagramma di dispersione (scatter plot)
2. Diagramma a barre raggruppate 2. Diagramma a linee
I DATI vengono riordinati, classificati e sintetizzati mediante tabelle e grafici di FREQUENZA.
FREQUENZA ASSOLUTA→ di una particolare misura è il numero di osservazioni di un determinato valore
della misura
CLASSE→ è la suddivisione delle osservazioni in intervalli di determinata ampiezza
DISTRIBUZIONE DI FREQUENZA→ è l’ordinamento dei dati secondo le classi e secondo le corrispondenti
frequenze →
FREQUENZA RELATIVA di una classe è la frequenza della classe divisa per il totale delle frequenze di tutte
le classi 1400 45
1200
bovine 40
1000 35
30
800 25
%
Numero 20
600 15
10
400 5
0
DIAGRAMMA A BARRE = Si usa per variabili nominali o ordinali→ 200 1 2 3 4 5 6 7 8
0 Numero di parto
1 2 3 4 5 6 7 8
Ordine di parto
GRAFICO A TORTA = Cerchio diviso in segmenti. L’area totale del cerchio rappresenta la frequenza totale;
i settori rappresentano le categorie; l’area di ciascun settore è proporzionale alla
percentuale di osservazioni rilevate in quella categoria. →
DIAGRAMMA A BARRE RAGGRUPPATE = Per visualizzare l’associazione tra 2
variabili categoriche
ISTOGRAMMA DI FREQUENZA PER VARIABILI CONTINUE = Sono costruiti
raggruppando i risultati in classi di frequenza: le osservazioni sono suddivise
in classi di ampiezza non necessariamente costante.
Gli intervalli di classe devono essere mutualmente esclusivi.
POLIGONI DI FREQUENZA = si costruiscono ponendo un punto al centro→
di ciascun intervallo così che l’altezza del punto sia uguale alla frequenza
associata a quell’intervallo
ISTOGRAMMA A COLONNE RAGGRUPPATE = è usato per confrontare i valori di 2 categorie
Variabile: lunghezza delle pupe di api
Categorie: presenza di varroa, assenza di varroa
5
FREQUENZA CUMULATIVA→ somma delle frequenze di un intervallo a quelle dell’intervallo precedente
Frequenza Frequenza Frequenza
Numero di bovine assoluta relativa (%) relativa
Durata della
mungitura (m) Frequenza assoluta cumulativa cumulativa (%)
– 0.020
0.5 1.0 7 7 0.019989
– 1.037
1.1 1.5 363 370 1.056569
– 4.792
1.6 2.0 1678 2048 5.848254
– 13.964
2.1 2.5 4890 6938 19.8121
– 20.732
2.6 3.0 7260 14198 40.5437
– 23.193
3.1 3.5 8122 22320 63.73683
– 19.975
3.6 4.0 6995 29315 83.7117
– 10.423
4.1 4.5 3650 32965 94.13461
– 4.212
4.6 5.0 1475 34440 98.34661
– 1.296
5.1 5.5 454 34894 99.64305
– 0.317
5.6 6.0 111 35005 99.96002
– 0.031
6.1 6.5 11 35016 99.99143
– 0.006
6.6 7.0 2 35018 99.99714
– 0.003
7.1 8.0 1 35019 100
100.000
35019
QUARTILI E PERCENTILI
La serie di dati può essere suddivisa in 4 zone equivalenti, dette QUARTILI. Si riconoscono i seguenti valori:
➢ 1° quartile o 25° percentile = valore al disotto del quale è situato il 25% delle osservazioni
➢ 2° quartile o 50° percentile = valore al disotto del quale è situato il 50% delle osservazioni
(MEDIANA)
➢ 3 ° quartile o 75° percentile = valore al disotto del quale è situato il 75% delle osservazioni
Esempio: Nei bovini si riferisce l'accrescimento
corporeo a un determinato percentile e i grafici qui
riprodotti rappresentano l'andamento medio della
crescita corporea fino a 24 mesi. Sono realizzati
controllando il peso e l'altezza di migliaia di bovine
Holstein degli USA. I tecnici raccomandano agli
allevatori di mantenere il peso delle manze vicino al
75° percentile.
QUARTILI→ dividono i dati ordinati in 4 parti uguali:
❖ Q (primo quartile) → separa il 25% inferiore dei dati dal 75% superiore
1
❖ Q (secondo quartile o MEDIANA) → separa il 50% inferiore dei dati dal 50% superiore
2
❖ Q (terzo quartile) → separa il 75% inferiore dei dati dal 25% superiore
3
PERCENTILI→ dividono i dati ordinati in 100 parti uguali
! Regole pratiche per calcolare i percentili:
Per calcolare i quartili (o anche i percentili) di una distribuzione, seguiamo i passi di seguito indicati:
1. Si ordinano gli n dati della distribuzione in ordine crescente
2. Indicato con p il percentile in decimale (p=0.25 per il 25° percentile o 1° quartile, p=0.37 per il 37°
k=np
percentile), si calcola il prodotto
3. se k è un intero, il quartile (percentile) si ottiene facendo la media del k-esimo e del (k+1)-esimo
valore dei dati ordinati
4. se k non è un intero, si arrotonda k per eccesso al primo intero successivo e si sceglie come quartile
(percentile) il corrispondente valore dei dati ordinati
6
Esempio→ Calcolare Q1 e Q2 dei seguenti dati:
n =10 29.6 30 30.4 31 30.7 31 31.2 31.3 32 32.2
Ordine crescente:
Q : n =10 p =0.25 k =0.25 *10 = 2.5
1
Poiché K non è intero, si arrotonda per eccesso: k = 3
Q è il terzo valore 30.4
1
Q : n =10 p =0.50 k =0.50*10 = 5
2
Poiché K è intero, si fa la media tra k = 5 e k = 6
Q = (30.7 + 31)/2 = 30.85
2
ESEMPIO CURVE CUMULATIVE:
Si considera lo scostamento (in %) tra le misure rilevate da medici
veterinari e le misure Gold Standard relativamente a 2 valori
ecocardiografici dei cani.
Se si considera uno scostamento massimo del 10%, i medici
veterinari rilevano in modo più accurato il Param2
BOXPLOT (BOX-WHISKER)
Fornisce una descrizione sintetica della distribuzione dei valori.
Riporta:
• Mediana
• 1° e 3 quartile
• Valori minimo e massimo
Costruzione del boxpolt:
Si costruisce nel modo seguente:
- Si traccia un asse verticale (scala del carattere)
- Si disegna un rettangolo (la scatola) che ha il primo (Q1) e il terzo quartile (Q3) come estremi della
base. L’altezza del rettangolo è arbitraria.
- Si traccia, all’interno del rettangolo, una linea verticale in corrispondenza della mediana.
Differenza interquartilica = Q3 – Q1 = r
- Si segnalano i valori anomali (fuori del limite)
> Q3 + (1.5*r)
< Q1 - (1.5*r)
- si tracciano due linee orizzontali in corrispondenza del:
1. Valore adiacente superiore
2. Valore adiacente inferiore
terminano in corrispondenza del più piccolo e più grande dei valori non estremi
7
Le distanze tra ciascun quartile e la mediana forniscono informazioni relativamente alla forma della
distribuzione. Se una distanza è diversa dall'altra allora la distribuzione è asimmetrica.
I valori adiacenti inferiore e superiore forniscono informazioni sulla dispersione e sulla forma della
distribuzione ed anche sulle code della distribuzione.
ALCUNE CONSIDERAZIONI
✓ La distanza tra il terzo ed il primo quartile, Distanza interquartilica, è una misura
della dispersione della distribuzione. Il 50% delle osservazioni si trovano comprese tra questi due
valori. Se l'intervallo interquartilico è piccolo, tale metà delle osservazioni si trova fortemente
concentrata intorno alla mediana; all'aumentare della distanza interquartilica aumenta la
dispersione del 50% delle osservazioni centrali intorno alla mediana.
✓ Le distanze tra ciascun quartile e la mediana forniscono informazioni relativamente alla forma della
distribuzione. Se una distanza è diversa dall'altra allora la distribuzione è asimmetrica.
Esempio costruzione boxplot:
Nei ragni del genere Tidarren, la massa corporea dei maschi è circa pari all’1% di quella
delle femmine. I maschi però hanno organi copulatori, i pedipalpi, che costituiscono circa il
10% della loro massa. Dopo aver riempito di spermatozoi i pedipalpi, i maschi vanno in
cerca di femmine da inseminare. Sorprendentemente, però, in questa specie i maschi si
amputano volontariamente uno dei due pedipalpi, quello destro o quello sinistro,
immediatamente prima della maturità sessuale. Perché lo fanno? Forse la velocità è
importante per i maschi in cerca di femmine, e l’autoamputazione potrebbe aumentare la
loro velocità di movimento. Per verificare, alcuni ricercatori hanno usato videoregistrazioni
per misurare la velocità della corsa, prima e dopo l’amputazione.
Consideriamo i valori relativi a ‘Dopo’:
1) Si ordinano i dati
2) Si calcola il 2° quartile (o mediana)
K = np = 16*0.5 =8 → 8° e 9° valore
Q = (3.5 + 3.52)/2 = 3.51 cm/s
2
3) Si calcola il 1° quartile (o mediana della metà minore dei dati)
K = np = 16*0.25 =4 → 4° e 5° valore
Q = (3.22 + 3.22)/2 = 3.22 cm/s
1
4) Si calcola il 3° quartile (o mediana della metà maggiore dei dati)
K = np = 16*0.75 = 12 →12° e 13° valore
Q = (4.7 + 4.94)/2 = 4.82 cm/s
3
5) Si calcola la differenza interquartile
Dopo: r = 4.82 – 3.22 =1.6 cm/s
6) Valori fuori del limite sono:
➢ Q +1.5r
3
>4.82 + (1.5*1.6) = 7.22
➢ < Q -1.5r
1
<3.22-(1.5*1.6) = 0.82
Non ci sono outliers. 8
7) il valore adiacente inferiore (VAI) è il valore più piccolo tra le osservazioni con valori
non estremi: 2.32
Il valore adiacente superiore (VAS) è il valore più grande tra le osservazioni con valori
non estremi: 5.45 →
Il box plot è una rappresentazione molto utile quando si vogliono
confrontare più distribuzioni:
Esempio boxplot:
ALCUNE FORME DI DISTRIBUZIONE DEI DATI:
SIMMETRICO e ASIMMETRICO: UNIMODALE e BIMODALE:
SCATTER PLOT O GRAFICO A DISPERSIONE = Visualizza l’associazione tra 2
variabili quantitative 9
DIAGRAMMI A LINEE = Sono utili per visualizzare tendenze nel
tempo o rispetto a qualche variabile ordinata. E’ simile al
diagramma a dispersione, eccetto che viene visualizzata
soltanto una misura y per ogni osservazione x. I punti lungo
→
l’asse x sono uniti da una retta. GRAFICO COMBINATO = E’ adatto per il confronto di due
variabili con valori generalmente difficili da confrontare a causa
delle differenze di scala. Spesso ha due assi verticali.
TABELLA DI CONTINGENZA = Tabella di frequenza per 2 variabili categoriche
Esempio
: Secondo alcuni studiosi il livello di infestazione in alcuni pesci influenza il rischio di predazione da
parte degli uccelli. In una grande vasca sono stati posti 3 di