Estratto del documento

In tutte le discipline scientifiche che studiano gli organismi viventi, molto raramente i

dati ottenuti attraverso un esperimento oppure raccolti in natura ci permettono di

giungere ad una conclusione con una certezza del 100%. La statistica ci aiuta in maniera

oggettiva, numericamente, ad analizzare le diverse ipotesi .

Che cos’è la statistica?

La statistica è l’analisi quantitativa dei fenomeni collettivi che hanno attitudine a variare,

allo scopo di descriverli e di individuare le leggi o i modelli che permettono di spiegarli e

di prevederli. La statistica è uno strumento essenziale per le rivelazioni scientifiche. La

maggior parte degli studi di biologia comprende cinque tappe fondamentali, ognuna delle

quali richiede l’intervento della statistica:

 tappa 1: definizione del piano sperimentale. Si definiscono con chiarezza la

problematica e i metodi necessari per affrontarla;

 tappa 2: raccolta dei dati. Si raccolgono informazioni relative al mondo naturale

attraverso esperimenti e studi sul campo;

 tappa 3: organizzazione e visualizzazione dei dati. Si realizzano tabelle, grafici e

altre rappresentazioni utili per poter analizzare i dati raccolti;

 tappa 4: riassunto dei dati. Si riassumono i dati con alcuni calcoli chiave di

statistica;

 tappa 5: statistica inferenziale. Si usano metodi di statistica per trarre conclusioni

generali dai dati su come funziona il mondo naturale.

Il gruppo preso in esame in una indagine statistica è definito con il termine

“popolazione”. “individuo” “unità

Il singolo elemento della popolazione è detto o

“campione”

statistica”. Un è invece un sottoinsieme della popolazione. Esistono due

branche della statistica: la statistica descrittiva e la statistica induttiva o inferenziale.

Statistica descrittiva

Quando si raccolgono dei dati su una popolazione o su un campione, i valori ottenuti si

presentano come un insieme di dati disordinati. La statistica descrittiva offre dei metodi

per organizzare e sintetizzare i dati in modo da poter evidenziare le loro caratteristiche

importanti e individuare le informazioni da essi fornite. La statistica descrittiva è quindi

quella branca della statistica che ha il fine di descrivere un fenomeno .

I dati sono organizzati in variabili. Le variabili sono espresse con diverse modalità. Le

variabili possono essere quantitative (se sono espresse da numeri. Vengono anche dette

“valori”) e qualitative (se sono espresse in forma verbale). Le variabili quantitative si

possono classificare in: discrete e ordinate. Una variabile quantitativa discreta è il

risultato di una enumerazione, è espressa da numeri naturali e procede per salti d’unità.

Una variabile quantitativa continua è il risultato di una misurazione, è espressa da

numeri reali e varia per infinitesimi. Le variabili qualitative si possono classificare in:

“categorica”)

nominali e ordinali. Una variabile qualitativa nominale (detta anche è il

risultato di una valutazione. Una variabile qualitativa ordinale è il risultato di una

valutazione tradotta in graduatoria.

Distribuzione di frequenza

La distribuzione di frequenza di una variabile è una rappresentazione nella quale ad ogni

modalità della variabile viene associata la frequenza con la quale esso si presenta nei

dati. In altre parole, la distribuzione di frequenza esplicita quante volte una determinata

modalità si presenta nel collettivo oggetto di studio. La tabella può essere fatta sia per

variabili quantitative sia per variabili qualitative. La tabella può essere univariata (se

prende in considerazione una sola variabile) o bivariata (se prende in considerazione 2

variabili). Nel caso della distribuzione di frequenza univariata si costruirà una tabella

formata da 2 colonne. Nel caso della distribuzione di frequenza bivariata si costruirà una

tabella a doppia entrata detta anche tabella di contingenza. La tabella a doppia entrata è

una tabella formata da righe e colonne. Facendo una distribuzione di frequenza si ricava

quindi la frequenza assoluta ovvero il numero di volte in cui una modalità compare in un

collettivo (insieme di dati). Sulla base della distribuzione di frequenza possiamo anche

ricavare la frequenza relativa e la frequenza cumulata. Per frequenza relativa si intende

il rapporto tra la frequenza assoluta di una modalità e il numero totale del collettivo. Se

moltiplichiamo per 100 la frequenza relativa otteniamo la frequenza percentuale. Per

calcolare una frequenza cumulata si sommano progressivamente tutte le frequenze

assolute o percentuali. Non ha alcun significato calcolare le frequenze cumulate se il

fenomeno statistico non è di tipo ordinabile. Nel caso di una variabile continua non è

possibile far corrispondere ad ogni modalità la rispettiva frequenza. Per fornire una

rappresentazione tabellare di una variabile continua si ricorre quindi ad una

suddivisione in classi. Si distinguono quindi tanti intervalli di classe ciascuno formato da

un limite inferiore e da un limite superiore. Le classi sono omogenee se hanno la stessa

ampiezza mentre sono disomogenee se hanno ampiezze diverse. L’ampiezza si calcola

facendo la differenza tra i due estremi della classe. Data la suddivisione in classi, si

definisce la densità di frequenza come il rapporto tra la frequenza di una classe e la

rispettiva ampiezza. La densità di frequenza indica quanto densamente è popolata una

classe.

Grafici

I dati raccolti in tabelle possono essere rappresentati anche attraverso grafici che offrono

il vantaggio di una descrizione del fenomeno in forma visiva.

 Nel caso di variabili qualitative nominali si utilizza il grafico a torta o areogramma.

L’areogramma è un tipo di rappresentazione grafica circolare in cui le frequenze

percentuali di un’indagine statistica vengono tradotte in diverse ampiezze

proporzionali alle frequenze stesse. Questo grafico non possiede senso di lettura.

 Nel caso di una variabile qualitativa ordinale si ha senso di lettura quindi non ha

senso utilizzare un grafico a torta. Si usa il grafico a barre. L’asse verticale è un

asse quantitativo mentre l’asse orizzontale è un asse qualitativo. Le barre sono

“non “pessimo”

sconnesse tra loro (non posso calcolare la differenza tra buono” e

“non “pessimo”).

so solo che buono” è meglio di

 Nel caso di variabili quantitative discrete si utilizza un grafico a bastoncini. Questo

grafico presenta dei segmenti ovvero delle barre senza area. Sia l’asse verticale sia

l’asse orizzontale sono quantitativi. Il grafico a bastoncini evidenzia con la

lunghezza del segmento le frequenze delle modalità della variabile. Questo grafico

possiede senso di lettura.

 Nel caso di variabili quantitative continue si utilizza l’istogramma. L’istogramma è

un grafico costituito da una serie di barre rettangolari contigue ognuna in

rappresentanza di una classe e con area proporzionata alla rispettiva frequenza.

Sull’asse orizzontale troviamo le ampiezze delle classi; sull’asse verticale troviamo

le frequenze. Da un grafico di questo tipo è possibile ottenere un poligono di

frequenza. Per costruire un poligono di frequenza si prende un punto a metà di

ciascuna barra e si procede collegando tutti i punti considerati. Il poligono di

frequenza permette di rappresentare più variabili insieme (variabili quantitative

continue e variabili qualitative nominali). Le variabili quantitative continue

possono essere rappresentate anche mediante un grafico di dispersione. Il grafico

di dispersione è formato da una serie di punti e mette in relazione due variabili

quantitative. Tutti i punti possono essere interpolati in una retta.

Misure di sintesi numerica

I dati vengono sintetizzati mediante misure di sintesi numerica. Le misure di sintesi

numerica sono di 2 tipi: misure di centralità (evidenziano il valore caratteristico di una

distribuzione) e misure di variabilità (evidenziano il grado di dispersione di una

distribuzione). Misure di centralità

Moda la moda è il valore più frequente di una distribuzione, o meglio, la modalità più

ricorrente della variabile (cioè quelle a cui corrisponde la frequenza più elevata). Non

sono necessari calcoli e si applica a tutti i tipi di variabili.

Media aritmetica la media aritmetica è la misura di centralità meglio intesa. Si

applica alle variabili quantitative ed è influenzata da tutti i valori. La media è la somma di

tutti i valori numerici della variabile rapportata al numero totale di osservazioni . La

media aritmetica può essere calcolata anche se la distribuzione è suddivisa in classi: per

prima cosa si individua il valore centrale di ogni classe (se per esempio ho una classe che

comprende tutti gli individui che hanno età compressa tra 20 e 30 anni, il valore centrale

della classe sarà (20 + 30) / 2 ovvero 25. Il valore così ottenuto viene moltiplicato per la

frequenza assoluta relativa a ogni classe. Tutti i risultati vengono sommati tra loro e

divisi per il numero totale di individui.

Mediana è il valore che occupa la posizione centrale di una distribuzione ordinata di

dati in modo tale che il numero di osservazioni con un valore inferiore a quello della

mediana sia uguale al numero di osservazioni con un valore superiore a quello della

mediana. Prima di calcolare la mediana occorre quindi ordinare i dati. Se i dati sono

ordinati in senso crescente (o decrescente), calcolare la mediana è molto facile. Infatti,

con un numero dispari di osservazioni la mediana è il valore centrale; con un numero pari

di osservazioni la mediana è la media dei due valori centrali. Più semplicemente si guarda

la frequenza cumulata relativa: si considera la prima frequenza relativa cumulata che

supera il 50% e la si associa alla rispettiva modalità della variabile. La me diana si può

applicare alle variabili ordinali, discrete e continue. Non è influenzata dai valori estremi.

Non conta il valore della variabile ma il rango.

Quale misura di centralità è più opportuna tra la media e la mediana? Se la distribuzione

è simmetrica applico la media; se la distribuzione è asimmetrica applico la mediana. Si fa

quindi un istogramma e si guarda se la distribuzione è simmetrica o asimmetrica.

Quando media, moda e mediana coincidono in un solo termine la variabile si distribuisce

in maniera perfettamente simmetrica rispetto a quel termine .

Quantili i quantili sono una famiglia di misure , a cui appartiene anche la mediana,

che si distinguono a seconda del numero di parti uguali in cui suddividono una

distribuzione. La mediana è quel quantile che assorbe una quota parte della distribuzione

pari al 50%. Se la distribuzione è divisa in 4 parti si parla di quartili; se la distribuzione è

divisa in 10 parti si parla di decili; se la distribuzione è divisa in 100 parti si parla di

percentili.

 Il boxplot o diagramma a scatola e baffi è un grafico che si utilizza per variabili

quantitative ed è ottenuto a partire da 5 valori chiave: valore minimo, primo

quartile, mediana, terzo quartile e valore massimo.

Misure di variabilità

Devianza la devianza è la somma dei quadrati degli scarti dalla media aritmetica

(valore della variabile meno la media aritmetica tutto al quadrato).

2

∑( ̅)

ⅇ = −

=1

Varianza la varianza è la somma dei quadrati degli scarti dalla media aritmetica

divisi per la numerosità.

2 2

∑ ( ) ∑ ( )

−̅ −̅

=1 =1

= =

−1

Scarto quadratico medio e deviazione standard un modo per esprimere la

variazione dei dati è quello di utilizzare la media come punto di riferimento di ciascun

valore, e di calcolare lo scarto o deviazione di ciascun dato dalla media. Lo scarto

quadratico medio si utilizza in relazione a una popolazione mentre la deviazione

standard si utilizza in relazione a un campione. Si calcola come la radice quadrata della

varianza. La somma di tutti gli scarti positivi e tutti gli scarti negativi è zero.

2 2

∑ ( ) ∑ ( −̅)

−̅

=√ √

=1 =1

=

−1

Intervallo interquartile è l differenza tra il terzo e il primo quartile della

distribuzione. È l’intervallo in cui è compreso il 50% delle osservazioni.

Campo di variazione (range) è la differenza fra il valore massimo e quello

minimo della variabile. Evidenzia quanto lontani risultano fra loro i due estremi della

distribuzione.

Coefficiente di variazione (CV) per confrontare la variabilità in due distribuzioni

diverse si utilizza il coefficiente di variazione, che si calcola come il rapporto tra

deviazione standard e la media aritmetica.

Le misure di variabilità assumono sempre il valore zero se i valori della variabile sono fra

loro uguali; assumono valori crescenti positivi per livelli progressivamente crescenti di

’indice

variabilità: quanto più i termini della distribuzione sono fra loro diversi, tanto più l

assume valori elevati; sono espressi nella stessa unità di misura della variabile .

Probabilità

La probabilità misura la realizzabilità di un evento aleatorio ossia il grado di incertezza

connesso al risultato scaturito da una prova. Un evento si dice aleatorio quando non si

conosce a priori il suo esito ovvero non si sa se si verificherà oppure no (es. il lancio di un

dado). Un evento può essere elementare o non elementare. Un evento elementare è un

evento che non può essere scomposto; un evento non elementare è un evento

scomponibile in altri eventi elementari. Esistono diversi modi per assegnare la probabilità

a un dato evento. Secondo l’approccio soggettivista la probabilità è il risultato della

’evento

valutazione di un soggetto circa la plausibilità di un evento. La plausibilità dell

dipende dal grado di conoscenza e di esperienza dell’individuo. Secondo l’approccio

classico la probabilit&agr

Anteprima
Vedrai una selezione di 5 pagine su 19
Appunti esame statistica per le scienze sperimentali Pag. 1 Appunti esame statistica per le scienze sperimentali Pag. 2
Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.
Appunti esame statistica per le scienze sperimentali Pag. 6
Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.
Appunti esame statistica per le scienze sperimentali Pag. 11
Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.
Appunti esame statistica per le scienze sperimentali Pag. 16
1 su 19
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/02 Statistica per la ricerca sperimentale e tecnologica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher aurora.domogrossi di informazioni apprese con la frequenza delle lezioni di Statistica per le scienze sperimentali e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Politecnica delle Marche - Ancona o del prof Gesuita Rosaria.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community