Appunti esame statistica per le scienze sperimentali

In questi appunti vengono trattati i seguenti argomenti: statistica descrittiva; distribuzione di frequenza; grafici; misure di sintesi numerica (misure di centralità e misure di …

Esame Statistica per le scienze sperimentali

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Gesuita Rosaria

Università Università Politecnica delle Marche - Ancona

Publisher aurora.domogrossi

A.A. 2019-2020

19 pagine

3 download

Appunto

Vota 4,0 / 5 (2)

Scarica

Estratto del documento

Distribuzione di frequenza

La distribuzione di frequenza di una variabile è una rappresentazione nella quale ad ogni

modalità della variabile viene associata la frequenza con la quale esso si presenta nei

dati. In altre parole, la distribuzione di frequenza esplicita quante volte una determinata

modalità si presenta nel collettivo oggetto di studio. La tabella può essere fatta sia per

variabili quantitative sia per variabili qualitative. La tabella può essere univariata (se

prende in considerazione una sola variabile) o bivariata (se prende in considerazione 2

variabili). Nel caso della distribuzione di frequenza univariata si costruirà una tabella

formata da 2 colonne. Nel caso della distribuzione di frequenza bivariata si costruirà una

tabella a doppia entrata detta anche tabella di contingenza. La tabella a doppia entrata è

una tabella formata da righe e colonne. Facendo una distribuzione di frequenza si ricava

quindi la frequenza assoluta ovvero il numero di volte in cui una modalità compare in un

collettivo (insieme di dati). Sulla base della distribuzione di frequenza possiamo anche

ricavare la frequenza relativa e la frequenza cumulata. Per frequenza relativa si intende

il rapporto tra la frequenza assoluta di una modalità e il numero totale del collettivo. Se

moltiplichiamo per 100 la frequenza relativa otteniamo la frequenza percentuale. Per

calcolare una frequenza cumulata si sommano progressivamente tutte le frequenze

assolute o percentuali. Non ha alcun significato calcolare le frequenze cumulate se il

fenomeno statistico non è di tipo ordinabile. Nel caso di una variabile continua non è

possibile far corrispondere ad ogni modalità la rispettiva frequenza. Per fornire una

rappresentazione tabellare di una variabile continua si ricorre quindi ad una

suddivisione in classi. Si distinguono quindi tanti intervalli di classe ciascuno formato da

un limite inferiore e da un limite superiore. Le classi sono omogenee se hanno la stessa

ampiezza mentre sono disomogenee se hanno ampiezze diverse. L’ampiezza si calcola

facendo la differenza tra i due estremi della classe. Data la suddivisione in classi, si

definisce la densità di frequenza come il rapporto tra la frequenza di una classe e la

rispettiva ampiezza. La densità di frequenza indica quanto densamente è popolata una

classe.

Grafici

I dati raccolti in tabelle possono essere rappresentati anche attraverso grafici che offrono

il vantaggio di una descrizione del fenomeno in forma visiva.

 Nel caso di variabili qualitative nominali si utilizza il grafico a torta o areogramma.

L’areogramma è un tipo di rappresentazione grafica circolare in cui le frequenze

percentuali di un’indagine statistica vengono tradotte in diverse ampiezze

proporzionali alle frequenze stesse. Questo grafico non possiede senso di lettura.

 Nel caso di una variabile qualitativa ordinale si ha senso di lettura quindi non ha

senso utilizzare un grafico a torta. Si usa il grafico a barre. L’asse verticale è un

asse quantitativo mentre l’asse orizzontale è un asse qualitativo. Le barre sono

“non “pessimo”

sconnesse tra loro (non posso calcolare la differenza tra buono” e

“non “pessimo”).

so solo che buono” è meglio di

 Nel caso di variabili quantitative discrete si utilizza un grafico a bastoncini. Questo

grafico presenta dei segmenti ovvero delle barre senza area. Sia l’asse verticale sia

l’asse orizzontale sono quantitativi. Il grafico a bastoncini evidenzia con la

lunghezza del segmento le frequenze delle modalità della variabile. Questo grafico

possiede senso di lettura.

 Nel caso di variabili quantitative continue si utilizza l’istogramma. L’istogramma è

un grafico costituito da una serie di barre rettangolari contigue ognuna in

rappresentanza di una classe e con area proporzionata alla rispettiva frequenza.

Sull’asse orizzontale troviamo le ampiezze delle classi; sull’asse verticale troviamo

le frequenze. Da un grafico di questo tipo è possibile ottenere un poligono di

frequenza. Per costruire un poligono di frequenza si prende un punto a metà di

ciascuna barra e si procede collegando tutti i punti considerati. Il poligono di

frequenza permette di rappresentare più variabili insieme (variabili quantitative

continue e variabili qualitative nominali). Le variabili quantitative continue

possono essere rappresentate anche mediante un grafico di dispersione. Il grafico

di dispersione è formato da una serie di punti e mette in relazione due variabili

quantitative. Tutti i punti possono essere interpolati in una retta.

Misure di sintesi numerica

I dati vengono sintetizzati mediante misure di sintesi numerica. Le misure di sintesi

numerica sono di 2 tipi: misure di centralità (evidenziano il valore caratteristico di una

distribuzione) e misure di variabilità (evidenziano il grado di dispersione di una

distribuzione). Misure di centralità

Moda la moda è il valore più frequente di una distribuzione, o meglio, la modalità più

ricorrente della variabile (cioè quelle a cui corrisponde la frequenza più elevata). Non

sono necessari calcoli e si applica a tutti i tipi di variabili.

Media aritmetica la media aritmetica è la misura di centralità meglio intesa. Si

applica alle variabili quantitative ed è influenzata da tutti i valori. La media è la somma di

tutti i valori numerici della variabile rapportata al numero totale di osservazioni . La

media aritmetica può essere calcolata anche se la distribuzione è suddivisa in classi: per

prima cosa si individua il valore centrale di ogni classe (se per esempio ho una classe che

comprende tutti gli individui che hanno età compressa tra 20 e 30 anni, il valore centrale

della classe sarà (20 + 30) / 2 ovvero 25. Il valore così ottenuto viene moltiplicato per la

frequenza assoluta relativa a ogni classe. Tutti i risultati vengono sommati tra loro e

divisi per il numero totale di individui.

Mediana è il valore che occupa la posizione centrale di una distribuzione ordinata di

dati in modo tale che il numero di osservazioni con un valore inferiore a quello della

mediana sia uguale al numero di osservazioni con un valore superiore a quello della

mediana. Prima di calcolare la mediana occorre quindi ordinare i dati. Se i dati sono

ordinati in senso crescente (o decrescente), calcolare la mediana è molto facile. Infatti,

con un numero dispari di osservazioni la mediana è il valore centrale; con un numero pari

di osservazioni la mediana è la media dei due valori centrali. Più semplicemente si guarda

la frequenza cumulata relativa: si considera la prima frequenza relativa cumulata che

supera il 50% e la si associa alla rispettiva modalità della variabile. La me diana si può

applicare alle variabili ordinali, discrete e continue. Non è influenzata dai valori estremi.

Non conta il valore della variabile ma il rango.

Quale misura di centralità è più opportuna tra la media e la mediana? Se la distribuzione

è simmetrica applico la media; se la distribuzione è asimmetrica applico la mediana. Si fa

quindi un istogramma e si guarda se la distribuzione è simmetrica o asimmetrica.

Quando media, moda e mediana coincidono in un solo termine la variabile si distribuisce

in maniera perfettamente simmetrica rispetto a quel termine .

Quantili i quantili sono una famiglia di misure , a cui appartiene anche la mediana,

che si distinguono a seconda del numero di parti uguali in cui suddividono una

distribuzione. La mediana è quel quantile che assorbe una quota parte della distribuzione

pari al 50%. Se la distribuzione è divisa in 4 parti si parla di quartili; se la distribuzione è

divisa in 10 parti si parla di decili; se la distribuzione è divisa in 100 parti si parla di

percentili.

 Il boxplot o diagramma a scatola e baffi è un grafico che si utilizza per variabili

quantitative ed è ottenuto a partire da 5 valori chiave: valore minimo, primo

quartile, mediana, terzo quartile e valore massimo.

Misure di variabilità

Devianza la devianza è la somma dei quadrati degli scarti dalla media aritmetica

(valore della variabile meno la media aritmetica tutto al quadrato).

Anteprima

Vedrai una selezione di 5 pagine su 19

Appunti esame statistica per le scienze sperimentali Pag. 1

Appunti esame statistica per le scienze sperimentali Pag. 2

Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.

Scarica

Appunti esame statistica per le scienze sperimentali Pag. 6

Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.

Scarica

Appunti esame statistica per le scienze sperimentali Pag. 11

Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.

Scarica

Appunti esame statistica per le scienze sperimentali Pag. 16

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze economiche e statistiche SECS-S/02 Statistica per la ricerca sperimentale e tecnologica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher aurora.domogrossi di informazioni apprese con la frequenza delle lezioni di Statistica per le scienze sperimentali e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Politecnica delle Marche - Ancona o del prof Gesuita Rosaria.

Appunti correlati