Statistica

Appunti di informatica su: tipologie di dati, raccolta dati, Controllare gli effetti delle variabili, Replicazione e dimensione del campione, Strategie di campionamento, Analisi esplorativa dei …

Esame Informatica

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Besozzi Daniela

Università Università degli Studi di Milano - Bicocca

Publisher Alicegi

A.A. 2016-2017

9 pagine

Appunto

Vota 4,0 / 5 (2)

Scarica

Estratto del documento

Un campione è un sottoinsieme di elementi selezionati da una popolazione e una statistica è una

misura che descrive una caratteristica di un campione

Tipologie di dati

Alcuni insiemi di dati numerici cono costituiti da numeri mentre altri non sono numerici si

distinguono dunque dati quantitativi e dati qualitativi dove i dati quantitativi sono numeri che

rappresentano conteggi o misure mentre i dati qualitativi possono essere suddivisi in differenti

categorie distinte in base a caratteristiche non numeriche.

I dati quantitativi possono essere ulteriormente distinti in discreti e continui. I dati discreti

corrispondono ai casi in cui i valori possibili sono in numero finito o numerabile, invece i dati 1

Alice Giussani

continui emergono da osservazioni in cui i valori possibili sono infiniti e corrispondono a una

qualche scala continua che copre un intervallo di valori senza interruzioni.

È importante quando si opera con dati quantitativi fare uso delle unità di misura.

È possibile classificare le variabili in base a 4 diverse tipologie: nominali, ordinali, intervallari e

rapportabili.

Nominale Sono categorie. i dati non possono essere disposti in alcun ordine

ordinale Le categorie sono ordinate, ma le differenze tra esse non possono essere

calcolate o sono prive di significato

Intervallere Le differenze sono significative, ma non c’è uno zero assoluto e i rapporti sono

privi di senso

rapportabile C’è uno zero di riferimento e i rapporti sono significativi

Disegno degli esperimenti

Un uso efficace della statistica richiede buon senso e piuttosto che concentrarsi su algoritmi di

calcoli conviene focalizzarsi sull’interpretazione dei dati e dei risultati.

Campione volontario

Un campione volontario, o autoselezionato, è costituito cioè da individui che decidono se essere o

non essere inclusi nello studio. Esso non è rappresentativo dell’intera popolazione

La raccolta dei dati

Se i dati di un campione della popolazione sono raccolti in modo inappropriato possono essere

inutili e nessuno studio statistico potrà ricavare conclusioni significative da questi dati.

I dati possono essere raccolti con due modalità:

– Studi osservativi: si osservano/misurano delle caratteristiche senza intervenire sui soggetti

esaminati Esempio: sondaggio d’opinione

– Esperimenti pianificati: i soggetti esaminati vengono osservati/misurati dopo essere stati

trattati Esempio: test clinico per valutare gli effetti di un farmaco (con gruppo di trattamento e

gruppo di controllo) per quanto riguarda gli

esperimenti pianificati bisogna

evitare il fenomeno di

confondimento degli effetti

delle variabili  Una variabile di

confondimento maschera o

distorce la stima della relazione

causa-effetto fra le variabili di

interesse valutate nello studio 2

Alice Giussani

Controllare gli effetti delle variabili

uno degli elementi chiave del disegno degli esperimenti riguarda il controllo dell’effetto delle

variabili ed esso può essere effettuato tramite 3 strategie: Cieco, suddivisione in blocchi,

randomizzazione

Cieco

negli esperimenti in cui siamo in presenza di un Gruppo di trattamento a cui viene somministrato il

farmaco e gruppo di controllo a cui viene somministrato il placebo, senza principio attivo può

verificarsi l’effetto placebo: un soggetto trattato senza principio attivo mostra un miglioramento

(reale o immaginario) dei sintomi. Una procedura per ridurre questo effetto si basa sull’utilizzo della

procedura di cieco:

- Singolo cieco: il soggetto non sa se gli viene somministrato il farmaco oppure il placebo

- Doppio cieco: sia il soggetto che il medico non sanno a chi viene somministrato il farmaco

è a chi il placebo

Blocchi

I gruppi, o blocchi, di soggetti su cui viene testato l’effetto di uno o più trattamenti sono formati da

individui con caratteristiche omogenee. Per ogni blocco, si prevede un comportamento analogo

riguardo ai fattori che possono influenzare l’esito dell’esperimento

Randomizzazione

Nell’assegnare i soggetti ai diversi trattamenti, si ricorre a una selezione casuale. Se il disegno è

completamente randomizzato: soggetti e trattamenti sono abbinati in modo del tutto casuale, se

il disegno è randomizzato a blocchi si suddividono i soggetti in blocchi (ognuno con

caratteristiche simili), e per ogni blocco soggetti e trattamenti sono abbinati in modo del tutto

casuale

Replicazione e dimensione del campione

Oltre a controllare gli effetti delle variabili, un altro aspetto fondamentale riguarda la dimensione (o

taglia) del campione: Il campione deve essere sufficientemente numeroso al fine di non

«mascherare» gli effetti di un trattamento dovuti ai comportamenti instabili di un campione esiguo.

La ripetizione di un esperimento viene chiamata replicazione e tramite la replicazione dimensioni

campionarie elevate aumentano la possibilità di distinguere gli effetti dei vari trattamenti.

Strategie di campionamento

Se i dati del campione non sono raccolti in maniera appropriata possono essere del tutto inutili e

nessuno studio statistico può ricavare nulla di significativo da esse.

Definiamo ora lacune delle metodologie di campionamento.

- Campione casuale: ogni singolo individuo della popolazione ha la stessa probabilità degli

altri di essere selezionato

- Campione casuale semplice di taglia n: ciascun campione casuale di taglia n’ha la

stessa probabilità di essere selezionato 3

Alice Giussani

- Sistematico: si sceglie un punto di partenza da cui viene selezionato ogni k-esimo

elemento

- Di convenienza: si usano dati di facile raccolta

- Stratificato: si suddivide la popolazione in almeno due diversi sottogruppi che condividono

le stesse caratteristiche quindi viene estratto un campione da ciascun sottogruppo

- A grappoli: si suddivide in sezioni la popolazione quindi si scelgono alcune sezioni e infine

tutti gli individui delle sezioni.

Errori di campionamento

Si definisce errore di campionamento la differenza fra il risultato relativo al campione e quello

relativo alla popolazione, che è dovuto a fluttuazioni casuali nei campioni.

Analisi esplorativa dei dati

Permette di misurare e descrivere le caratteristiche salienti di un insieme di dati:

– Centro: valore rappresentativo o medio che indica dove si trova il centro dei dati

– Variazione: una misura di quanto i dati sono dispersi

– Distribuzione: la forma di come sono distribuiti i dati

– Valori estremi (o outlier): valori che sono particolarmente discosti dalla maggioranza dei dati

– Tempo: cambiamenti che le caratteristiche dei dati possono subire nel corso del tempo

Quando si lavora con un elevato numero di dati è consigliabile creare una tabella

dei valori con le relative frequenze. Dato un insieme di dati, la frequenza

assoluta di un dato (o di un gruppo di dati) rappresenta il numero di occasioni in

cui tale dato (o il gruppo di dati) si è presentato. Possiamo costruire una tabella

di distribuzione delle frequenze, in cui vengono elencati I dati (individualmente

o raggruppati per intervalli o classi) Le rispettive frequenze. In una tabella di

frequenze il Limite inferiore delle classi è il valore più piccolo di ciascuna classe

(es. 0, 100, 200, 300, 400) , il Limite superiore delle classi è il valore più grande

di ciascuna classe (es. 99, 199, 299, 399, 499) mentre l’ Ampiezza delle classi è la differenza fra

i limiti inferiori di due classi consecutive (es. 200-100=100) .

È importante sottolineare che Le classi scelte devono essere disgiunte, affinché ogni dato

appartenga a una e una sola classe e che Nella tabella vanno incluse anche le eventuali classi

con frequenza uguale a zero.

Costruire una tabella di frequenze

1. Scegliere il numero di classi (in generale, fra 5 e 20)

2. Calcolare la larghezza delle classi:

– (valore massimo dati – valore minimo dati) / numero classi

– Arrotondare per eccesso 4

Alice Giussani

3. Scegliere un punto di partenza

4. Determinare i limiti inferiori di tutte le classi usando i dati dei punti 3 e 2

5. Elencare in colonna i limiti inferiori e associare i relativi limiti superiori

6. Assegnare ogni dato ad una classe e contare quanti dati compaiono in ciascuna classe

La frequenza relativa corrisponde alla proporzione (o percentuale) di dati appartenenti a una

certa classe rispetto al totale dei dati e si calcola dividendo la frequenza (assoluta) di quella classe

rispetto alla somma di tutte le frequenze

La frequenza cumulata di una classe corrisponde alla somma della frequenza assoluta di quella

classe più le frequenze di tutte le classi precedenti

Rappresentazione grafica dei dati

La rappresentazione grafica di un insieme di dati permette di determinarne le caratteristiche più

importanti, cioè studiare la natura della corrispondente distribuzione

Istogramma

Un istogramma è un grafico a barre in cui sulle ascisse sono riportate le classi in cui sono stati

suddivisi i dati, sulle ordinate sono riportati i valori delle frequenze e l’altezza di ogni barra

corrisponde al valore della frequenza della corrispondente classe.

L’ampiezza degli intervalli (o classi) scelta per disegnare l’istogramma può influenzare la forma del

grafico e le conclusioni tratte dall’analisi del grafico stesso tuttavia non esiste una regola universale

o rigorosa per la scelta del numero di classi.

Diagramma a torta

In un diagramma a torta, le classi sono rappresentate come «fette» di una torta dove l’area di ogni

fetta è proporzionale alla frequenza della classe che rappresenta. Sono generalmente usati per

rappresentare dati di tipo qualitativo (nominali o ordinali).

Diagrammi a dispersione

Un diagramma a dispersione (o scatterplot) è costituito da un insieme di punti, ognuno

corrispondente a un’osservazione del campione dove ogni osservazione è composta da una

coppia di valori, che corrispondono all’ascissa e all’ordinata del punto nel diagramma.

Misure di centralità

Un valore che in qualche modo si trovi nel mezzo di un insieme di dati ne costituisce una misura di

centralità.

Media

La media (aritmetica) di un insieme di dati è una misura di centralità calcolata sommando i valori di

tutti i dati e dividendoli per il numero totale dei dati

Se … , è l’insieme di valori di un campione (dove n rappresenta la taglia del campione),

�1, �2, ��

allora la media del campione si denota con e si calcola come:

� 5

Alice Giussani n

x x x x

+ +..+ ∑

1 2 n i

X = = x è una statistica

n n

i=1

Se … , è l’insieme di valori di una popolazione (dove N rappresenta il numero di elementi

�1, �2, ��

Anteprima

Vedrai una selezione di 3 pagine su 9

Anteprima di 3 pagg. su 9.
Scarica il documento per vederlo tutto.

Scarica

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Alicegi di informazioni apprese con la frequenza delle lezioni di Informatica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Besozzi Daniela.

Appunti correlati