Appunti di statistica

Appunti presi durante la lezione del professore e confrontati con quelli del lbro di analisi statistica del professor Rocchi. Utilizza lo stesso libro anche in Biologia, Farmacia e Scienze della …

Esame Calcolo di probabilità e statistica

Facoltà Scienze della formazione

Dal corso del Prof. Rocchi Marco

Università Università degli studi "Carlo Bo" di Urbino

Publisher eliamosconi

A.A. 2018-2019

82 pagine

1 download

Appunto

Vota 3,5 / 5 (2)

Scarica

Estratto del documento

INDICI DI TENDENZA

CENTRALE

Da dati grezzi,

attraverso un processo di

seriazione, metto un

ordine di

grandezza continua,

rendendoli più facilmente

analizzabili.

1) MEDIA ARITMETICA

-> è il baricentro dei

dati, cioè la

sommatoria degli x

che

va da 1 a n degli i.

Basta immaginare

un’asta infinitamente

lunga mettendo al

centro dei pesi. Il

baricentro è il

numero che ne

permette l’equilibrio.

Nelle variabili

qualitative ordinali e

nominali non si può

usare la media.

2) LA MEDIANA-> non

tiene conto di quello

che c’è ai lati, ma

mette in ordine una

serie di dati ordinati

in modo crescente. È

robusta, cioè non

tiene conto della

variabilità dei dati

esterni. In una

distribuzione

simmetrica media e

mediana coincidono.

Non si può usare per

le nominali.

3) LA MODA -> è il

valore che si

riscontra più

facilmente e con

maggior frequenza, è

usato soprattutto

nelle nominali.

INDICI DI

DISPERSIONE

1) INTERVALLO DI

VARIAZIONE

( range ) -> è detto

indice rozzo percè

non tiene

sufficientemente

conto dei dati nel

mezzo. È dato dalla

differenza tra il

valore MAX e il

valore MIN.

2) INDICE FASULLO

-> è la sommatoria

degli scarti della

media. Viene

sempre 0, quindi è

inutilizzabile.

3) SCOSTAMENTO

MEDIO ASSOLUTO

-> si usa il valore

assoluto per evitare

che venga un

numero negativo,

ma è comunque

impraticabile.

4) VARIANZA -> è la

somma degli scarti

della media al

quadrato.

5) DEVIAZIOEN

STANDARD -> è la

somma degli scarti

della media al

qadrato sotto

radice.

6) COEFFICIENTE DI

VARIAZIONE -> è

dato dal rapporta

tra deviazione

standard la la

media del

campione di

riferimento.

7) DISTANZA

INTERQUARTILE ->

è data dalla

differenza tra il

terzo quartile e il

primo quartile.

Permettono di

dividere la

distribuzione in 4

parti uguali.

Distribuzione di

probabilità

Una qualunque

legge che associa

ogni valore che la

variabile può

assumere la

probabilità che tale

evento si realizzi.

La somma delle

probabilità è

sempre 1.

Funzione di

probabilità

A ogni x

corrisponde la

probabilità che si

verifichi un’ evento.

Distribuzione

binomiale

Variabili binarie->

che hanno due

valori indipendenti

e con probabilità

costante

Serve a calcolare la

probabilità degli

eventi attesi

considerando n

ripetizione dove

ogni evento ha una

probabilità costante

di avvenire con

eventi indipendenti

-> p(X=X)=n!=n(n-

1)!

DISTRIBUZIONE

GAUSSIANA

Le nostre stime si

avvicinano sempre

di più a quella vera.

Gli errori si

distribuiscono

uniformemente. È

una parabola con il

punto più alto che

corrisponde alla

media del

campione di

riferimento e il

punto di flesso

centrale che

corrisponde alla

deviazione

standard. Tra la

media e la

deviazione

standard abbiamo

più del 68% dei

dati. Nel calcolo

statistico e nello

studio di un

campione è

importante passare

da una gaussiana

generica a una

standardizzata.

Calcolo il punto z

sottraendo al

campione TOT la

media e dividendo

il tutto per la

deviazione

standard. Il punto z

serve a calcolare la

probabilità che si

verifichi un

determinato

evento.

Il punto z ci da

anche l’indicazione

per trovare la

percentuale

attraverso cui

posso calcolare le

code della

gaussiana. Per la

percentuale di z

faccio riferimento

alle tavole

statistiche del libro

di statistica.

KARL POPPER

“Non ci sono

discipline del

sapere, ci sono

problemi e il

costante bisogno di

risolverli”

L’antecedenza

temporale è una

condizione

necessaria per

scoprire qual è la

causa attraverso

cui si manifesta

l’effetto del

fenomeno che sto

studiando

Sperimentazione

aristotelica

“è così, ve lo

dimostro”!->

l’ipotesi è

preconcetta, non

aperta alla

smentita.

Sperimentazione

baconiane

“Cosa accadrebbe

sé..?” ->nessuna

ipotesi è formulata

Sperimentazioni

kantiane

“modelliamo il

presente per

prevedere il futuro”

->esperimenti

teorici

Sperimentazione

galileiana

“Osserviamo la

realtà, facciamo

ipotesi,

verifichiamo in

modo critico la

fondatezza delle

ipotesi”

L’ipotesi non è

preconcetta, ma

aperta alla

smentita

L’esperimento è un

fiasco quando non

si ottiene alcuna

conclusione valida

rispetto alle ipotesi

di partenza.

FASI DELLA

RICERCA

1) Osservazione e

intuizione

2) Identificazione

del problema

3) Formulazione di

un ipotesi

4) Concezione di

un esperimento

per la verifica o

la negoziazione

di ipotesi

La differenza tra

Galileo e Popper è

che Popper non

crede che

l’esperimento

possa risultare

vero, ma massimo

può venire

falsificato

5)realizzazione

dell’esperimento

6)risultati

dell’esperimento

7)conclusione sulla

base dei risultati

PROTOCOLLO

DELLA RICERCA

Documento finale

in cui vengono

specificati a priori

tutte le modalità di

conduzione della

ricerca. Lo scopo è

di garantire la

riproducibilità della

ricerca

standardizzando le

procedure.

Come scegliere un

problema valido?

1)Fattibilità

( risorse , tempo,

dimensione

campionaria)

2) interesse

personale

3)valenza teoria

4) valenza pratica (

utilità sociale )

La sperimentazione

deve essere

randomizzata

( divisa in due

bracci sperimentali

casuali) e

controllate ( uno

dei due gruppi

deve essere di

controllo)

Importante è

definire un

obbiettivo

principali, e solo

alcuni più

secondari.

Ora ci occorre

trovare una

variabile attraverso

cui arruolare

campioni

QUALIS= qualità di

vita

TWIST=tempo

senza sistemi e

tossicità

ATTENZIONE!

Pericolose sono le

analisi post hoc

( cerco correlazione

di variabili che non

fanno parte del

protocollo iniziale)

e i data dredding

( errori

caratteristici dei

numeri elevati)

CRITERI DI

INCLUSIONE ED

ESCLUSIONE DEI

SOGGETTI ->

prendo tutti i

pazienti che hanno

certe

caratteristiche e li

divido in due bracci

con differenti

caratteristiche

PROTOCOLLO DI

LAVORO IN SENSO

STRETTO

Definire tutti i

dettali di

sperimentazione

del paziente

Cosa faremo del

soggetto? Per

quanto tempo?

Definire in modo

schematico il

trattamento e

definire le reazioni

in caso di

fallimento , vari

effetti collaterali e

modificazione del

protocollo in itinere

CRITERI SELEZIONE

PARTECIPANTI

MODALITA’ DI

REGISTRAZIONE

GESTIONE DELLE

SCHEDE E DEI DATI

STRUTTURA

ORGANIZZATIVA

LOGICA DEI TEST

STATISTICI

L’ipotesi nulla è la

conservazione della

teoria vigente, che

fina a prova

contraria dovrei

mantenere.

L’ipotesi alternativa

è l’ipotesi che

verrebbe accettata

se l’ipotesi nulla

fosse smentita,

ovvero la mia

ipotesi

sperimentale. In

questo caso posso

commettere due

tipi di errore:

l’errore di prima

specie o falso

positivo quando

rifiuto l’ipotesi nulla

quando essa è

vera, e l’errore di

seconda specie o

falso negativo

quando accetto

l’ipotesi nulla

quando essa in

realtà è falsa.

Solitamente si

sceglie un livello di

significatività o

intervallo di

confidenza per

esaminare se i miei

dati cadono

all’interno della

soglia, in modo da

rifiutare l’ipotesi

nulla, o oppure

lontano dalla

soglia,

approssimativamen

te intorno alla linea

mediana dellla

normale gaussiana.

DISEGNO DELLA

RICERCA DI BACON

DOE-> design of

experiment

1) Longitudinale

prospettico ->

serve per vedere

il futuro, e come

la pellicola di un

film che deve

essere ancora

scritto. Ha il

problema di

essere un

procedimento

lungo e

l’improbabilità

che si verifichino

determinati

eventi.

Ha il vantaggio di

avere un

controllo molto

rigoroso

2) Longitudinale

retrospettivo->

prendiamo tutti i

casi a

disposizione e

andiamo indietro

nel tempo.

Attraverso il

matching

(appaiamento dei

dati) cerco di fare

una distribuzione

proporzionata tra

casi e controlli in

modo da non

cadere vittima di

baias.

Riavvolgendo il

nastro posso

creare però

problemi di

memoria e molti

dati sono

incontrollabili.

3) Studio

trasversale->è

semplice, ma ha

grossi limiti, dato

che la causa a

volte non è

l’evento

scatenante delle

patologie.

STUDIO

SPERIMENTALE

Dal punto di vista

sperimentale è il

più sicuro. Da

punto di etico è

un problema non

irrilevante e

dovrei chiedere

un consenso con

tanto di firma dei

partecipanti.

Importante è

controllare e

randomizzare i

partecipanti dei

due gruppi.

Posso fare un

disegno semplice

a bracci paralleli (

due controlli

trattati che si

confrontano alla

fine) o un

disegno change

over ( bracci

incrociati in cui

ogni gruppo si

confronta alla

fine anche con se

stesso).

Atenzione a non

cadere

nell’

Anteprima

Vedrai una selezione di 10 pagine su 82