Università degli Studi di Palermo
Facoltà di Scienze Biologiche - Trapani
Tesi di Biostatistica
C.I. Istituzioni di Matematiche e Statistica con esercitazioni
Nicola Milano
01/03/2011
Sommario
- Introduzione ........................................................ 4
- I. Istogrammi ............................................................6
- II. Indici statici e medie statistiche ............... 8
- III. Gli eventi.............................................................. 14
- IV. La probabilità.................................................... 16
- V. Teorema di Bayes.............................................. 17
- VI. Sensibilità e specificità di un test........... 21
- VII. Teorema di Bernoulli................................... 22
- VIII. Distribuzione di Poisson............................ 25
- IX. Curva di Gauss.................................................... 27
- X. Distribuzione di Student............................... 29
- XI. Test del chi-quadrato................................... 33
- XII. Retta dei minimi quadrati.......................... 36
Elenco delle Illustrazioni
- I. Istogramma (1) ............................................................. 6
- II. Istogramma (2) ............................................................. 7
- III. Istogramma (3) ........................................................... 12
- IV. Istogramma (4)............................................................ 26
- V. Curva di Gauss (1)...................................................... 27
- VI. Curva di Gauss (2)...................................................... 28
- VII. Curva di Gauss (3).................................................... 29
- VIII. Curva di Gauss (4)................................................... 30
- IX. Retta dei minimi quadrati (1)..................................... 36
- X. Retta dei minimi quadrati (2)....................................... 37
Elenco delle Tabelle
- I. Tabella 1 ....................................................................... 8
- II. Tabella 2 ..................................................................... 11
- III. Tabella 3 ..................................................................... 15
- IV. Tabella 4 ..................................................................... 34
- V. Tabella 5 ..................................................................... 35
- VI. Tabella 6 ..................................................................... 36
- VII. Tabella 7 ................................................................... 37
Introduzione
La statistica è un ramo della matematica che studia i metodi per raccogliere, organizzare e analizzare un insieme di dati numerici, la cui variazione è influenzata da cause diverse, con lo scopo sia di descrivere le caratteristiche del fenomeno a cui i dati si riferiscono, sia di dedurre le leggi generali che lo regolano. Molti ritengono che essa si riduca alla semplice raccolta e rappresentazione grafica di dati numerici riguardanti fenomeni di massa osservati in campo economico e sociale. In effetti, negli ultimi anni non ha solo contribuito allo sviluppo delle scienze demografiche, assicurative ed economiche, ma ha dato un grande impulso all'avanzamento delle ricerche in vari campi della tecnologia e delle scienze chimiche, fisiche e biologiche.
In biologia, infatti, l'uso della statistica ha avuto difficoltà ad affermarsi. Ma non tutti i biologi in passato la pensavano così, questo perché in biologia l'ausilio della statistica è molto più complesso che in altre scienze, perché descrivere l'essere vivente è molto più complesso che definire, ad esempio, la materia. La statistica si occupa dello studio dei fenomeni collettivi. Per fenomeno collettivo si intende qualsiasi fenomeno costituito da un insieme di fenomeni singoli tutti dello stesso tipo.
La scienza statistica è comunemente suddivisa in due branche principali:
- Statistica descrittiva
- Statistica inferenziale
La statistica descrittiva
La statistica descrittiva o metodologica si occupa di raccogliere, registrare, elaborare informazioni in modo: efficace (finalizzato nel conseguimento dell'obiettivo); esauriente (senza carenze); economico (non dispendioso).
La statistica inferenziale
La statistica inferenziale o applicata, si occupa di mettere i dati in relazione, generalizzare la portata e valutare il grado di interdipendenza dei caratteri. La statistica si occupa di studiare i fenomeni collettivi. In genere lo studio di un fenomeno collettivo è abbastanza complesso e passa attraverso le seguenti fasi:
- Raccolta dei dati
- Spoglio
- Trascrizione dei dati e rappresentazione grafica
Quando si deve effettuare un'indagine statistica, bisogna innanzitutto sapere su cosa si deve indagare. È quindi necessario:
- Definire gli obiettivi che si vuole raggiungere
- Individuare le unità statistiche della popolazione di interesse
- Raccogliere i dati
- Effettuare lo spoglio, la trascrizione e la rappresentazione grafica
Quasi sempre un'entità diventa un caso statistico quando viene considerata avendo riguardo a uno o più dei suoi caratteri, dove per carattere si intende ogni aspetto di un fenomeno collettivo che si vuole analizzare. Ogni carattere, a sua volta, si può presentare con varie modalità, dette anche classi di misura. L'insieme degli individui che possono dare informazioni sul carattere del fenomeno collettivo è la Popolazione.
La raccolta dei dati può essere di tipo globale, se interessa tutte le unità che costituiscono il fenomeno, e di tipo campionario, se riguarda una parte di tali unità. In alcuni tipi di indagine, infatti, l'analisi di tutta la popolazione sarebbe troppo dispendiosa in tempo, denaro e numero di persone addette e quindi si ricorre a un sottoinsieme della popolazione chiamato Campione, i cui elementi devono essere scelti in modo tale da rappresentare tutta la popolazione.
Un metodo molto frequente è quello del sondaggio tramite un'intervista o un questionario le cui domande dovranno essere formulate con la massima chiarezza e semplicità. Le principali modalità per realizzare la comunicazione tra ricercatore e intervistato sono:
- Interviste a domicilio
- Interviste telefoniche
- Questionari per corrispondenza
I dati osservati, empirici o sperimentali, sono espressioni numeriche di risultati concreti di operazioni di conteggio di misura di taluni caratteri delle unità statistiche, ottenuti dalle rilevazioni e sistemati, generalmente, in convenienti tabelle o tavole numeriche, a queste ultime si perviene soltanto dopo le necessarie operazioni di spoglio e di classificazione dei casi statistici rilevati.
Grafici
Le distribuzioni statistiche, per valori singoli o per classi di valori, possono essere rappresentate graficamente, non soltanto allo scopo di ottenere una visione d'insieme e una conseguente più facile comprensione dei dati numerici, ma anche per consentire di cogliere la tendenza ad una curva raffigurante una legge o relazione statistica teorica generale e sociale. In generale, se i dati sono di tipo qualitativo si possono usare i diagrammi a rettangoli distanziati, i diagrammi circolari, gli ideogrammi o i cartogrammi. Se i dati sono di tipo quantitativo e discreti si utilizzano i diagrammi cartesiani. Se i dati sono di tipo quantitativo e di natura continua si utilizzano gli istogrammi.
Istogrammi
Sono costituiti da tanti rettangoli quante sono le modalità analizzate la cui area è uguale alla frequenza assoluta. Nel caso tutti i rettangoli abbiano la stessa base, l'altezza sarà proporzionale alla frequenza. Questo tipo di rappresentazione viene utilizzata soprattutto quando i dati sono distribuiti per classi; in questo caso ogni rettangolo corrisponde a un intervallo della classe.
Frequenza assoluta: numero delle volte in cui una modalità si presenta nella popolazione. Solitamente la frequenza assoluta si indica con F.
Frequenza relativa: è data dal rapporto tra la frequenza assoluta e il numero totale delle osservazioni. Di solito la frequenza relativa si indica con p.
Frequenza percentuale: è data dalla frequenza relativa moltiplicata per 100.
Indici statistici
Sono misure di certe caratteristiche del fenomeno. Hanno lo scopo di rendere agevole il confronto, in via sintetica, fra distribuzioni diverse dello stesso carattere.
- Medie
- Indici di variabilità
Medie statistiche
I risultati ottenuti attraverso la rilevazione dei dati statistici di un certo fenomeno si possono sintetizzare mediante alcuni valori che permettono di confrontarli con quelli di altri fenomeni analoghi osservati in tempi e luoghi diversi. Si ha la seguente definizione di media:
- Lagrange: data una serie di n valori, disposti in ordine crescente, si dice media qualsiasi valore compreso tra il minimo e il massimo.
- Chisini: si dice media di una distribuzione x1, x2, …, xn, rispetto a una funzione f(x1, x2, …, xn), quella quantità che, sostituita alle xi nella funzione, lascia invariato il risultato.
Tra le medie di calcolo le più usate nella pratica sono:
- La media aritmetica
- La media geometrica
- La media armonica
- La media quadratica
Tra le medie di posizione abbiamo:
- La moda
- La mediana
Media aritmetica semplice e ponderata
La media aritmetica determina un valore che esprime una equidistribuzione del fenomeno. La media aritmetica, inoltre, rappresenta quel valore che sostituito ad ognuno dei dati non ne altera la somma.
In alcune distribuzioni, alcuni dati si presentano più di una volta e cioè con una certa frequenza o peso. In questo caso si calcola la media aritmetica ponderata.
Quindi, se abbiamo n dati a1, a2, …, an che si presentano con i pesi p1, p2, …, pn la media aritmetica ponderata è data dalla somma dei prodotti di ogni dato per il rispettivo peso fratto la somma totale dei pesi. Per le seriazioni con i valori raggruppati in classi, si calcola, per ogni classe, il valore centrale. In questo si commette un errore irrilevante per classi di piccola ampiezza.
Media quadratica:
√ x12, x22, x32, xn2 semplice
Mq = √n
ponderata
Mq = √(p1 x12 + p2 x22 + … + pn xn2)/ (p1 + p2 + … + pn)
Mediana
Dati n valori, posti in ordine crescente, si dice mediana quel termine che occupa il posto centrale. Se il numero dei dati è pari ci saranno due valori mediani di posizione n/2 ed n/2 + 1. In questo caso si assume convenzionalmente come mediana la semisomma dei due termini centrali.
0,5 × (Fm1 - Fm)
Dove Xm è l'estremo inferiore della classe mediana; Fm-1 è la frequenza relativa cumulata fino al.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.