vuoi
o PayPal
tutte le volte che vuoi
STATISTICA DESCRITTIVA
Abbiamo detto che in statistica visualizziamo i dati attraverso indici numerici e grafici.Visualizzazione dati attraverso grafici
Florence Nightingale, infermiera, nel 1858 fu tra i primi ad utilizzare la rappresentazione dei dati per descrivere le cause di morte dei soldati nella guerra di Crimea (numero decessi proporzionale all'area). Si chiese quale fu la principale causa di morte.Rappresentazioni grafiche:
Permettono di effettuare confronti visivi di misure tra gruppi e di visualizzare le relazioni tra differenti variabili; ciò al fine di comunicare quanto più semplicemente ed esaustivamente i risultati. Una buona rappresentazione grafica permette quindi di individuare pattern (modelli) generali non visibili facilmente dai semplici numeri. Partendo da una prima tabella, dove sono riportate le cause e le frequenze di morte dei Teenager americani, si può arrivare alla seconda tabella con una comprensione maggiore dei dati, ad esempio.ordinare secondo l'abbondanza le cause di morte. Nella prima tabella dobbiamo perdere tempo per capire quale sia la prima causa mentre nella seconda no. Quindi la prima cosa da fare è ordinare bene i nostri dati prima di rappresentarli. Poi se vogliamo rappresentare questi dati con un grafico, dobbiamo iniziare a fare le prime distinzioni, ovvero quando rappresentiamo una variabile del genere, a prescindere dall'abbondanza dei morti, questa è una variabile categorica, quindi sono delle categorie. Quando andiamo a rappresentare una variabile del genere attraverso un grafico abbiamo bisogno di un grafico di questo genere, dove le singole cause di morte siano tenute distinte. Quindi se dobbiamo rappresentare una variabile categorica, dobbiamo rappresentarla attraverso un diagramma a barre, e la cosa importante è che le barre sono separate le une dalle altre per mantenere separate le categorie che stiamo rappresentando. Quindi partendo da un insieme di dati presi.Che abbiamo organizzato in una prima tabella, che però non era ben organizzata, abbiamo così creato un'altra tabella organizzata in maniera tale da avere più chiari i dati al quale associamo un grafico a barre proprio perché abbiamo una variabile categorica. (per variabili categoriche) (es. cause di morte) l'informazione Nel diagramma a barre risiede nell'altezza delle barre; le barre sono separate per tener ben distinte le diverse categorie.
La frequenza relativa è la frazione di osservazioni calcolata come rapporto tra frequenza assoluta e numero totale di osservazioni (es. 6.688/13.774 = 0,48 = 48%).
Nel diagramma a barre le colonne sono tutte separate cosa che non avviene in un diagramma del genere che si chiama istogramma. L'istogramma è un grafico in cui sull'asse delle x andremo a ritrovare una scala numerica. In questo caso avendo una scala numerica, la larghezza della colonna sarà in funzione di questa scala.
L'istogramma rappresenta l'abbondanza in termini di osservazione di certe specie all'interno di un campionamento fatto nell'Oregon Pipe National Monument. In questa tabella vediamo che tutte le specie sono state riportate con la relativa abbondanza. Quindi avremo specie comuni e rare. Per rappresentare questa tabella con un grafico, possiamo utilizzare una tabella di frequenza. Questa tabella riassume tutte le informazioni della tabella precedente, rendendo più facile la rappresentazione grafica dei dati in funzione dell'abbondanza.
specie rare piuttosto che specie comuni. In quest'ottica noi possiamo dire che l'abbondanza la andiamo ad analizzare con degli intervalli, ovvero andiamo ad analizzarla con una scala. Quindi andiamo a definire una scala di osservazione e in base ad essa andiamo a vedere il numero di eventi che accadono all'interno di essa. Quindi avendo ora sintetizzato tutti i dati in una tabella di frequenza, che usiamo quando abbiamo una grande mole di dati difficilmente rappresentabili in un grafico, possiamo andare a rappresentare questi dati. Ora, quindi, sull'asse delle x avremo una scala numerica e quindi il grafico corretto è l'istogramma.
Nell'istogramma (per variabili numeriche) l'informazione risiede nell'area delle barre; barre adiacenti per evidenziare la continuità tra classi diverse. I bin hanno ampiezza uguale; si possono unire due bin usandone però il valore medio.
Un grafico del genere che rappresenta il grafico delle abbondanze
Relativamente alle frequenze, osserviamo da questo grafico che ci sono tante specie rare piuttosto che comuni. Questo andamento può essere riferito a delle forme che possiamo osservare nei nostri grafici. Più che di forme, parliamo di tipi di distribuzione.
La moda rappresenta l'intervallo di frequenza corrispondente al picco più alto (es. va di moda indossare adidas).
Gli outlier, valori anomali molto distanti da tutti gli altri, sono spesso presenti nei dati biologici; possono suggerire errori, pertanto vanno analizzati attentamente.
Vediamo ora l'importanza della scelta dell'ampiezza degli intervalli. Abbiamo un esempio che focalizza l'attenzione sul salmone in periodo di riproduzione. I salmoni vivono normalmente nel mare e sono di colore grigio, al momento della riproduzione iniziano a risalire i fiumi e assumono un colore rosso. Chi ha
compiuto questostudio ha voluto vedere quali erano le classi di peso dei salmoni che risalivano il fiume per lariproduzione. Quindi campionando il peso dei salmoni che risalivano il fiume hanno cercatodi capire a che età i salmoni tendono a risalire il fiume per la riproduzione. 9Questi sono 3 tipi di istogrammi che rappresentano le informazioni che sono state raccolte.Sull'asse delle x troviamo la massa corporea del salmone e sull'asse delle y troviamo lafrequenza, cioè quanto le singole classi venivano osservate nei campionamenti. Guardando letre differenti rappresentazioni quale sarà il più corretto? Sicuramente quello di mezzo da unpunto di vista grafico. La cosa più importante che dobbiamo conoscere quandorappresentiamo un grafico è l'informazione che noi vogliamo trasmettere, il tipo di info ladobbiamo quindi conoscere. Quindi in questo caso noi vogliamo rappresentare le classi dipeso dei salmoni e negli studi cheabbiamo fatto abbiamo capito che ci sono due classi di salmoni predominanti. Quindi ora è importante scegliere un grafico che espone in maniera corretta e chiara le info che noi vogliamo trasmettere. Con il grafico centrale otteniamo questo, con un grafico bimodale. Tutte le informazioni sulla forma della distribuzione di frequenza di una variabile numerica sono contenute nei suoi percentili e nei quantili. Il percentile è un qualcosa che esprime dei numeri in percentuale. È quella misura della variabile tale per cui una certa percentuale di osservazioni risulta minore ad essa; il resto sarà maggiore o uguale. Il quantile invece è un semplice numero. Il significato di percentile e quantile è lo stesso. Il concetto di percentile (e quantile) fa riferimento al valore della variabile considerata corrispondente ad una data posizione del set di dati posti in ordine crescente. Es. 30-mo conto… percentile (quantile 0,3): prima ordino poi Quindi ilIl percentile mi va a dividere i dati in due parti: una con valori più piccoli e una con valori più grandi.
Uso delle curve percentili in ambito pediatrico. Es. bambina di 4 anni e due mesi, altezza 108 cm, peso 19 kg.
Sopra la media per altezza (l'85% dei bambini studiati ha altezza inferiore; solo il 15% superiore).
Sopra la media per peso (circa l'85% dei bambini pesa meno).
Un'altra tipologia di grafico che possiamo incontrare è la distribuzione di frequenza relativa cumulativa che rappresenta il diagramma di tutti i quantili di una distribuzione, ovvero di un set di dati.
La frequenza cumulata (assoluta) di una misura (osservazione o modalità) o di una classe, è pari alla somma della sua frequenza assoluta (quante volte è stata osservata) e di quelle delle modalità che la precedono (per l'ultima osservazione è pari al numero di osservazioni totali); rapportando questo valore al totale delle osservazioni si otterranno i
Valori per costruire la curva (frequenza relativa cumulativa):
1 è osservato 5 volte quindi 5 / 43 = 0.116;
2, 4 sono osservati 11 volte quindi 11 / 43 = 0.256;
18 è osservato 1 volta, ad esso corrisponde la posizione 22 quindi 22 / 43 = 0.511;
Per l'ultima osservazione è pari ad 1.
La visualizzazione dei dati nello studio dell'associazione tra variabili categoriche:
Es. sforzo riproduttivo e malaria aviaria nelle cinciallegre (due gruppi: controllo in cui 7 malati e 28 no, trattamento in cui 15 malati e 15 no).
1. Diagramma a barre raggruppate: i dati sono raggruppati per opportuna convenienza e ad ogni variabile categorica è associato un colore.
2. Diagramma a mosaico (mosaico plot): i dati sono espressi in termini di frequenza relativa e a questa corrispondono le aree dei rettangoli.
3. Tabella di contingenza per due o più variabili categoriche: mostra come le misure di una variabile (frequenze) possano dipendere da quelle di un'altra.
variabile(frequenze). Quando invece l'interesse è il confronto dei valori di una variabile numerica tra gruppi, la visualizzazione dei dati fa uso di:
- Istogrammi tra gruppi, impilare i vari istogrammi facendo attenzione che l'asse delle x abbia per tutti gli stessi valori (stessa scala).
- Distribuzioni di frequenze cumulative, come già visto, in tratti della curva con forte pendenza corrispondono a osservazioni numerose, viceversa i tratti con poca pendenza; in base a ciò è possibile esprimersi sulla natura della distribuzione.
- Esempi di curve che descrivono distribuzioni unimodali → Una variabile numerica osservabile in più gruppi istogramma raggruppato → Relazione tra due variabili numeriche diagramma di dispersione.
Visualizzazione della relazione tra due variabili numeriche.