Estratto del documento

Facoltà di medicina e chirurgia

Università degli studi di Foggia

Dispensa di statistica

A cura dello studente E. Massimo

Statistica

La statistica può essere suddivisa in statistica descrittiva e statistica inferenziale. La statistica descrittiva ha il compito di riassumere una certa quantità di dati in uno o due numeri che siano particolarmente informativi ed abbiano finalità descrittive. La statistica inferenziale permette di ricavare determinate conclusioni su una o più caratteristiche riguardanti una popolazione grazie ai risultati ottenuti da un campione estratto da tale popolazione.

Popolazione

La popolazione viene distinta in:

  • Popolazione obiettivo: rappresenta la popolazione che il ricercatore studia per poter giungere ad una determinata conclusione.
  • Popolazione campionata: rappresenta la popolazione da cui viene estratto un certo campione che permette, in base ai risultati ottenuti, di formulare una conclusione riguardante una caratteristica della popolazione stessa.

Il campione è un gruppo di unità che vengono estratte da una popolazione. È l’insieme di individui che soddisfano una definizione comune e che formano la collettività. La popolazione o universo può essere finita se è formata da un numero determinato di individui, oppure infinita se è formata da un numero indeterminato di individui.

L’induzione statistica è l’insieme delle operazioni e dei ragionamenti basati sul calcolo della probabilità e sulla statistica matematica che ci consente di passare dai fatti osservati alle leggi che li regolano in modo da poter agire su tutta la popolazione.

La variabile è quella caratteristica che assume valori diversi in individui diversi, distinta in variabile quantitativa che può essere misurata (peso, altezza, età) e variabile qualitativa che non può essere misurata ma può essere definita una sola caratteristica (vero/falso, vivo/morto, M/F...).

Variabili aleatorie

La variabile aleatoria casuale è quella variabile i cui valori sono il risultato di fattori casuali e può assumere uno qualunque dei valori di un insieme finito o infinito di individui. La variabile aleatoria discreta è associata solo a numeri naturali interi ed è caratterizzata da interazioni nei valori che può assumere. Ad ogni suo valore corrisponde una probabilità. La variabile aleatoria continua è associata a numeri reali a cifre decimali e può assumere tutti i valori compresi in uno specifico intervallo di valori.

Indagine statistica

L'indagine statistica avviene in quattro fasi:

  • Rilevazione: questa fase ci consente di acquisire un certo numero di dati o informazioni.
  • Elaborazione: questa fase ci consente di classificare i dati e di sintetizzarli mediante calcoli.
  • Presentazione: questa fase ci consente di presentare i dati mediante tabelle o grafici.
  • Interpretazione: questa fase ci consente di spiegare i risultati ottenuti durante l'indagine per poter giungere ad una precisa conclusione.

Tecniche di campionamento

Le tecniche di campionamento consentono di estrarre un campione da una popolazione:

  • Campionamento casuale semplice: tutti gli individui di una popolazione hanno la stessa probabilità di entrare a far parte di un campione. Le unità sono scelte a caso in modo indipendente l'una dall'altra. In questo modo si evita che la scelta del campione sia viziata dalla condotta del ricercatore con campione distorto, a rischio di errori sistematici che porta a conclusioni sbagliate.
  • Campionamento sistematico: le unità sono estratte ad intervalli numerici regolari.
  • Campionamento a stadi: si estraggono prima le unità primarie (ad es. le provincie), poi le unità secondarie (comuni) e le unità finali (famiglie) sulle quali si esegue l'indagine statistica.
  • Campionamento a grappoli: le unità della popolazione sono raggruppate in diversi sottoinsiemi detti grappoli (quartieri).
  • Campionamento stratificato: la popolazione viene divisa in gruppi omogenei detti strati e si estrae un campione casuale indipendentemente da ogni strato.

Nella scelta di un campione possono subentrare i fattori di distorsione che sono delle variabili che possono condurre ad errori di valutazione in uno studio statistico. I fattori di distorsione sono controllati mediante il metodo della cecità che può essere singola se il paziente si sottopone ad uno studio senza conoscere il farmaco, doppia quando né il paziente né il dottore conoscono il farmaco, tripla quando l’osservatore non sa con che farmaco è stato trattato il paziente.

Scale di misura

La statistica descrittiva si avvale delle scale di misura per rappresentare i dati:

  • Scala nominale: i dati sono attribuiti o ottenuti per conteggio; i dati più semplici consistono in osservazioni non ordinate dicotomiche o del tipo tutto o nulla (vero/falso, vivo/morto, sano/malato). Una osservazione che si basa su una divisione in due parti è detta dicotomica. Nella scala nominale i dati sono rappresentati da proporzioni o percentuali dei soggetti che presentano o meno un certo attributo.
  • Scala ordinale: i dati sono classificati in un ordine preciso senza necessità di avere una uguale distanza tra le modalità.
  • Scala a ranghi: gli elementi di un gruppo sono ordinati dal maggiore al minore assegnando il rango cioè i numeri d'ordine corrispondenti alla posizione occupata, trascurando la distanza tra gli elementi.
  • Scala numerica discreta: le osservazioni sono numeri interi ottenuti mediante una operazione di conteggio. La caratteristica in esame è quindi misurabile.
  • Scala numerica continua: è la scala col più alto grado di quantificazione. Teoricamente ogni osservazione cade in un certo punto lungo l'asse continuo.

Distribuzione di frequenza

La distribuzione di frequenza è il modo più conveniente per riassumere e presentare i dati: consiste in un certo numero di classi associate alla frequenza delle osservazioni, i cui valori cadono entro l'intervallo definito da ogni classe.

I limiti tabulati di una classe sono quei limiti che sono in realtà usati per preparare la distribuzione di frequenza. I limiti veri sono quei limiti cui corrisponderebbero i limiti tabulati qualora la misura fosse eseguita in maniera adeguata.

La frequenza assoluta (fi) di un dato statistico è il numero di volte che quel dato compare e si possono costruire le tabelle di frequenze. La frequenza relativa (FR) è il rapporto tra la frequenza assoluta e la somma di tutte le frequenze (n): FR = fi/n. La frequenza relativa è sempre espressa da un numero minore di 1 e la ΣFR = 1. La frequenza cumulativa (FRC) è pari alla FR della classe che si considera + la FR della classe precedente, mentre la frequenza assoluta cumulativa (FAC) è la Σ delle FI in successione.

Misure di tendenza centrale o di posizione

Le misure di tendenza centrale o di posizione includono media, moda e mediana. Se indichiamo con Xi le singole osservazioni e con n il numero delle osservazioni, si definisce media il totale delle osservazioni diviso il numero delle osservazioni: Media = ΣXi/n, dove χ̄ è la media aritmetica. La media geometrica è data da: Mg = n√(X1 × X2 × ... × Xn) = e^(Σ(logXi)/n). La media armonica è data da: Ma = n / (1/x1 + 1/x2 + ... + 1/xn).

La mediana è quel valore che dipartisce il numero delle osservazioni. Se la successione dei dati è ordinata in maniera crescente si ha che: se n è dispari la Me corrisponde al valore centrale, se n è pari la Me è data dalla semisomma dei due dati intermedi: 2Me = X(N+1)/2 = (nx + ny)/2.

La moda è quella osservazione che in una distribuzione di frequenza si verifica con maggiore frequenza. Non è determinabile nel caso in cui il numero n delle osservazioni è molto piccolo.

Misure di dispersione

Le misure di dispersione includono il campo di variazione, varianza e deviazione standard (indici di dispersione). Il campo di variazione è definito come la differenza tra il valore massimo e il valore minimo, cioè tra i valori estremi della distribuzione ordinata in modo crescente o decrescente: C.V. = Vmax - Vmin.

La varianza S2 è definita come il rapporto tra la Σ dei quadrati degli scarti delle osservazioni intorno alla media diviso il numero di osservazioni meno 1 (n - 1) che rappresenta il grado di libertà: S2 = Σ(Xi - χ̄)2 / (n - 1).

I gradi di libertà sono definiti come il numero totale delle osservazioni n meno il numero di vincoli imposti alle quantità stesse. Quindi nel caso della varianza, abbiamo n scarti e 1 vincolo imposto a tali scarti e cioè che la loro somma sia = 0. Per cui con n scarti e 1 vincolo si hanno n - 1 gradi di libertà.

La deviazione standard è definita come la radice quadrata della varianza: S = √S2. Il coefficiente di variazione è il rapporto in percentuale tra la deviazione standard e la media aritmetica: C.V. = (S / χ̄) × 100%.

Distribuzione di frequenza per dati raggruppati

Per lo studio della distribuzione di frequenza è importante conoscere il numero delle classi e l’ampiezza delle classi. Il numero delle classi (regola di Sturges) è dato da: K = 1 + 3,322 (logn) dove n è l’ampiezza del campione. L’ampiezza delle classi è data da: R/K, dove K è il numero delle classi, R è il campo di variazione o Range (Vmax - Vmin).

Il punto medio della classe mi è dato dalla semisomma dei limiti veri di un intervallo: mi = (Ls + Li) / 2.

La distribuzione di frequenza per dati raggruppati consente di calcolare la media, varianza e mediana mediante altre formule:

  • Media: χ̄ = Σ(mifi) / Σfi = Σ(mifi) / n.
  • Varianza: S2 = (Σ(mi - χ̄)2 × fi) / (n - 1) (formula teorica); S2 = (Σ(mi2 × fi) - (Σ(mifi))2 / n) / (n - 1) (formula compatta da usare per i calcoli).
  • Deviazione standard: S = √S2.
  • Mediana per dati raggruppati: Me = Li + (J/fi) × (Vi - Li), dove Li è il limite inferiore della classe con mediana, Vi è il limite superiore della classe con mediana, J = n/2 - FCLi.

Si individua con n/2 la classe contenente la mediana e la fi corrispondente alla classe della mediana. La classe modale è la classe con frequenza assoluta (fi) più alta. La distribuzione di frequenza può essere rappresentata mediante gli istogrammi e i poligoni di frequenza.

Calcolo delle probabilità

Si definisce esperimento la riproduzione di un fenomeno o l’intervento in un fenomeno non provocato, con mezzi opportuni di ricerca, allo scopo di indagare le relazioni di dipendenza tra cause ed effetti. I risultati di un esperimento si dicono eventi, che rappresentano uno dei casi che può presentarsi con certe probabilità. Un evento può essere semplice o composto (il risultato è aggregato di possibili risultati). Due eventi si dicono compatibili se hanno qualche risultato in comune, altrimenti si dicono incompatibili o disgiunti. Un evento si dice certo quando si verificherà sicuramente, impossibile quando non può verificarsi.

L’insieme dei possibili risultati si dice spazio campione S, mentre il singolo risultato si dice punto campione. Dati due eventi A e B definiti su S: l’intersezione di A e B è l’evento (A ∩ B) costituito dai punti di S che appartengono ad A e a B. Esempio: S = {1, 2, 3, 4, 5, 6}; A = {1}; B = {1, 3, 5}; per cui A ∩ B = {1}.

L’unione di A e B è l’evento costituito dai punti di S che appartengono ad A o a B: S = {1, 2, 3, 4, 5, 6}; A = {1}; B = {1, 3, 5}; per cui A ∪ B = {1, 3, 5}.

La probabilità di un evento è la frequenza relativa con cui l’evento si verifica in una lunga serie di prove ripetute sotto condizioni simili. È necessario assegnare un valore di probabilità a ogni punto dello spazio campione S. Ogni assegnazione di probabilità ai punti di uno spazio campione si dice matematicamente accettabile se verifica le seguenti condizioni:

  • Ogni probabilità è un numero non negativo.
  • La somma delle probabilità di tutti i punti dello spazio campione è uguale a 1.

Assiomi della probabilità

  • Sia E un esperimento, S lo spazio campione associato ad E, A un evento. Ad ogni evento A associamo un numero reale P(A), cioè la probabilità che l’evento A si verifichi, tale che:
    • 0 ≤ P(A) ≤ 1
    • La somma delle P di tutti i punti S è = 1, cioè P(S) = 1.
    • Se A e B sono due eventi che non hanno punti in comune, avremo: P(A ∪ B) = P(A) + P(B), per cui A e B sono incompatibili o disgiunti.
  • La P che l’evento non si verifichi, è data dall’evento complementare, 1 meno la P che si verifichi A: P(Ā) = 1 - P(A).
  • Due eventi si dicono mutuamente esclusivi quando non possono verificarsi insieme: il verificarsi di un evento implica il non verificarsi di un altro evento (nel lancio della monetina il verificarsi della testa esclude quello della croce).
  • Per gli eventi mutuamente esclusivi vale il principio della somma: se A e B sono due eventi mutuamente esclusivi si ha che P(A ∪ B) = P(A) + P(B).
  • Se invece gli eventi A e B sono compatibili, cioè hanno elementi in comune, abbiamo: P(A ∪ B) = P(A) + P(B) - P(A ∩ B).

Probabilità condizionata e principio del prodotto

Siano A e B due eventi dipendenti, cioè due eventi tali che la P del verificarsi di A dipende dal verificarsi di B, si parla di probabilità condizionata P(A/B), cioè la P che si verifichi l’evento B dato che l’evento A si è già verificato.

Per il principio del prodotto delle probabilità si ha che: la P che due eventi A e B si verifichino congiuntamente è: P(A ∩ B) = P(B/A) × P(A), eventi dipendenti, dove B è l’evento condizionato e A è l’evento condizionante.

Per cui, dati due eventi dipendenti, condizionati, applicando il principio del prodotto si ha che:

P(B/A) = P(A ∩ B) / P(A).

Due eventi A e B si dicono indipendenti se il verificarsi di A non implica il verificarsi di B. In questo caso: P(B/A) = P(B) e il principio del prodotto è P(A ∩ B) = P(A) × P(B).

Teorema di Bayes

Il teorema di Bayes deriva dalle regole del prodotto e della somma, e dalla nozione di probabilità condizionata. Se l’evento B si presenta solo se si verifica uno degli eventi A1, A2...An, a due a due incompatibili, allora:

P(A1/B) = (P(B/A1)P(A1)) / (P(B/A1)P(A1) + P(B/A2)P(A2)).

Cioè, prendiamo due eventi A1 e A2 mutuamente esclusivi e scriviamo:

P(A1 ∩ B) = P(B/A1)P(A1).

Poiché B = (B ∩ A1) ∪ (B ∩ A2), allora P(B) = P(B ∩ A1) + P(B ∩ A2), per cui:

P(B) = P(B/A1)P(A1) + P(B/A2)P(A2), e in definitiva:

P(A1/B) = (P(B/A1)P(A1)) / (P(B/A1)P(A1) + P(B/A2)P(A2)).

Il teorema di Bayes può essere applicato alla diagnosi automatica: gli eventi A1...An corrispondono a diagnosi mutuamente esclusive e l’evento B corrisponde ad un particolare complesso di sintomi o risultati di laboratorio, per cui la P(A1/B) è la probabilità del verificarsi della specifica diagnosi dato che il paziente presenta i sintomi B.

Esempio:

  • Persona malata A1.
  • Persona sana A2.
  • Test positivo, paziente malato B/A1.
  • Test positivo, paziente sano B/A2.

Qual è la probabilità di avere una persona malata dato che il test è positivo P(A1/B):

P(A1/B) = (P(B/A1)P(A1)) / (P(B/A1)P(A1) + P(B/A2)P(A2)).

Dove: P(A1 ∩ B) = P(B/A1)P(A1), per cui:

P(A1/B) = P(B/A1)P(A1) / P(B).

P(B) = P(B/A1)P(A1) + (P(B/A2)P(A2)).

Distribuzione di probabilità

Se X è una variabile casuale o aleatoria, cioè una variabile i cui valori sono il risultato di fattori casuali, allora può assumere uno qualunque dei valori di un insieme finito o infinito di individui. Se...

Anteprima
Vedrai una selezione di 6 pagine su 22
Statistica - Appunti Pag. 1 Statistica - Appunti Pag. 2
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Statistica - Appunti Pag. 6
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Statistica - Appunti Pag. 11
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Statistica - Appunti Pag. 16
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Statistica - Appunti Pag. 21
1 su 22
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher kalamaj di informazioni apprese con la frequenza delle lezioni di Statistica Medica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Foggia o del prof Cocca Donatella.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community