vuoi
o PayPal
tutte le volte che vuoi
Un campione è un sottoinsieme di elementi selezionati da una popolazione e una statistica è una
misura che descrive una caratteristica di un campione
Tipologie di dati
Alcuni insiemi di dati numerici cono costituiti da numeri mentre altri non sono numerici si
distinguono dunque dati quantitativi e dati qualitativi dove i dati quantitativi sono numeri che
rappresentano conteggi o misure mentre i dati qualitativi possono essere suddivisi in differenti
categorie distinte in base a caratteristiche non numeriche.
I dati quantitativi possono essere ulteriormente distinti in discreti e continui. I dati discreti
corrispondono ai casi in cui i valori possibili sono in numero finito o numerabile, invece i dati 1
Alice Giussani
continui emergono da osservazioni in cui i valori possibili sono infiniti e corrispondono a una
qualche scala continua che copre un intervallo di valori senza interruzioni.
È importante quando si opera con dati quantitativi fare uso delle unità di misura.
È possibile classificare le variabili in base a 4 diverse tipologie: nominali, ordinali, intervallari e
rapportabili.
Nominale Sono categorie. i dati non possono essere disposti in alcun ordine
ordinale Le categorie sono ordinate, ma le differenze tra esse non possono essere
calcolate o sono prive di significato
Intervallere Le differenze sono significative, ma non c’è uno zero assoluto e i rapporti sono
privi di senso
rapportabile C’è uno zero di riferimento e i rapporti sono significativi
Disegno degli esperimenti
Un uso efficace della statistica richiede buon senso e piuttosto che concentrarsi su algoritmi di
calcoli conviene focalizzarsi sull’interpretazione dei dati e dei risultati.
Campione volontario
Un campione volontario, o autoselezionato, è costituito cioè da individui che decidono se essere o
non essere inclusi nello studio. Esso non è rappresentativo dell’intera popolazione
La raccolta dei dati
Se i dati di un campione della popolazione sono raccolti in modo inappropriato possono essere
inutili e nessuno studio statistico potrà ricavare conclusioni significative da questi dati.
I dati possono essere raccolti con due modalità:
– Studi osservativi: si osservano/misurano delle caratteristiche senza intervenire sui soggetti
esaminati Esempio: sondaggio d’opinione
– Esperimenti pianificati: i soggetti esaminati vengono osservati/misurati dopo essere stati
trattati Esempio: test clinico per valutare gli effetti di un farmaco (con gruppo di trattamento e
gruppo di controllo) per quanto riguarda gli
esperimenti pianificati bisogna
evitare il fenomeno di
confondimento degli effetti
delle variabili Una variabile di
confondimento maschera o
distorce la stima della relazione
causa-effetto fra le variabili di
interesse valutate nello studio 2
Alice Giussani
Controllare gli effetti delle variabili
uno degli elementi chiave del disegno degli esperimenti riguarda il controllo dell’effetto delle
variabili ed esso può essere effettuato tramite 3 strategie: Cieco, suddivisione in blocchi,
randomizzazione
Cieco
negli esperimenti in cui siamo in presenza di un Gruppo di trattamento a cui viene somministrato il
farmaco e gruppo di controllo a cui viene somministrato il placebo, senza principio attivo può
verificarsi l’effetto placebo: un soggetto trattato senza principio attivo mostra un miglioramento
(reale o immaginario) dei sintomi. Una procedura per ridurre questo effetto si basa sull’utilizzo della
procedura di cieco:
- Singolo cieco: il soggetto non sa se gli viene somministrato il farmaco oppure il placebo
- Doppio cieco: sia il soggetto che il medico non sanno a chi viene somministrato il farmaco
è a chi il placebo
Blocchi
I gruppi, o blocchi, di soggetti su cui viene testato l’effetto di uno o più trattamenti sono formati da
individui con caratteristiche omogenee. Per ogni blocco, si prevede un comportamento analogo
riguardo ai fattori che possono influenzare l’esito dell’esperimento
Randomizzazione
Nell’assegnare i soggetti ai diversi trattamenti, si ricorre a una selezione casuale. Se il disegno è
completamente randomizzato: soggetti e trattamenti sono abbinati in modo del tutto casuale, se
il disegno è randomizzato a blocchi si suddividono i soggetti in blocchi (ognuno con
caratteristiche simili), e per ogni blocco soggetti e trattamenti sono abbinati in modo del tutto
casuale
Replicazione e dimensione del campione
Oltre a controllare gli effetti delle variabili, un altro aspetto fondamentale riguarda la dimensione (o
taglia) del campione: Il campione deve essere sufficientemente numeroso al fine di non
«mascherare» gli effetti di un trattamento dovuti ai comportamenti instabili di un campione esiguo.
La ripetizione di un esperimento viene chiamata replicazione e tramite la replicazione dimensioni
campionarie elevate aumentano la possibilità di distinguere gli effetti dei vari trattamenti.
Strategie di campionamento
Se i dati del campione non sono raccolti in maniera appropriata possono essere del tutto inutili e
nessuno studio statistico può ricavare nulla di significativo da esse.
Definiamo ora lacune delle metodologie di campionamento.
- Campione casuale: ogni singolo individuo della popolazione ha la stessa probabilità degli
altri di essere selezionato
- Campione casuale semplice di taglia n: ciascun campione casuale di taglia n’ha la
stessa probabilità di essere selezionato 3
Alice Giussani
- Sistematico: si sceglie un punto di partenza da cui viene selezionato ogni k-esimo
elemento
- Di convenienza: si usano dati di facile raccolta
- Stratificato: si suddivide la popolazione in almeno due diversi sottogruppi che condividono
le stesse caratteristiche quindi viene estratto un campione da ciascun sottogruppo
- A grappoli: si suddivide in sezioni la popolazione quindi si scelgono alcune sezioni e infine
tutti gli individui delle sezioni.
Errori di campionamento
Si definisce errore di campionamento la differenza fra il risultato relativo al campione e quello
relativo alla popolazione, che è dovuto a fluttuazioni casuali nei campioni.
Analisi esplorativa dei dati
Permette di misurare e descrivere le caratteristiche salienti di un insieme di dati:
– Centro: valore rappresentativo o medio che indica dove si trova il centro dei dati
– Variazione: una misura di quanto i dati sono dispersi
– Distribuzione: la forma di come sono distribuiti i dati
– Valori estremi (o outlier): valori che sono particolarmente discosti dalla maggioranza dei dati
– Tempo: cambiamenti che le caratteristiche dei dati possono subire nel corso del tempo
Quando si lavora con un elevato numero di dati è consigliabile creare una tabella
dei valori con le relative frequenze. Dato un insieme di dati, la frequenza
assoluta di un dato (o di un gruppo di dati) rappresenta il numero di occasioni in
cui tale dato (o il gruppo di dati) si è presentato. Possiamo costruire una tabella
di distribuzione delle frequenze, in cui vengono elencati I dati (individualmente
o raggruppati per intervalli o classi) Le rispettive frequenze. In una tabella di
frequenze il Limite inferiore delle classi è il valore più piccolo di ciascuna classe
(es. 0, 100, 200, 300, 400) , il Limite superiore delle classi è il valore più grande
di ciascuna classe (es. 99, 199, 299, 399, 499) mentre l’ Ampiezza delle classi è la differenza fra
i limiti inferiori di due classi consecutive (es. 200-100=100) .
È importante sottolineare che Le classi scelte devono essere disgiunte, affinché ogni dato
appartenga a una e una sola classe e che Nella tabella vanno incluse anche le eventuali classi
con frequenza uguale a zero.
Costruire una tabella di frequenze
1. Scegliere il numero di classi (in generale, fra 5 e 20)
2. Calcolare la larghezza delle classi:
– (valore massimo dati – valore minimo dati) / numero classi
– Arrotondare per eccesso 4
Alice Giussani
3. Scegliere un punto di partenza
4. Determinare i limiti inferiori di tutte le classi usando i dati dei punti 3 e 2
5. Elencare in colonna i limiti inferiori e associare i relativi limiti superiori
6. Assegnare ogni dato ad una classe e contare quanti dati compaiono in ciascuna classe
La frequenza relativa corrisponde alla proporzione (o percentuale) di dati appartenenti a una
certa classe rispetto al totale dei dati e si calcola dividendo la frequenza (assoluta) di quella classe
rispetto alla somma di tutte le frequenze
La frequenza cumulata di una classe corrisponde alla somma della frequenza assoluta di quella
classe più le frequenze di tutte le classi precedenti
Rappresentazione grafica dei dati
La rappresentazione grafica di un insieme di dati permette di determinarne le caratteristiche più
importanti, cioè studiare la natura della corrispondente distribuzione
Istogramma
Un istogramma è un grafico a barre in cui sulle ascisse sono riportate le classi in cui sono stati
suddivisi i dati, sulle ordinate sono riportati i valori delle frequenze e l’altezza di ogni barra
corrisponde al valore della frequenza della corrispondente classe.
L’ampiezza degli intervalli (o classi) scelta per disegnare l’istogramma può influenzare la forma del
grafico e le conclusioni tratte dall’analisi del grafico stesso tuttavia non esiste una regola universale
o rigorosa per la scelta del numero di classi.
Diagramma a torta
In un diagramma a torta, le classi sono rappresentate come «fette» di una torta dove l’area di ogni
fetta è proporzionale alla frequenza della classe che rappresenta. Sono generalmente usati per
rappresentare dati di tipo qualitativo (nominali o ordinali).
Diagrammi a dispersione
Un diagramma a dispersione (o scatterplot) è costituito da un insieme di punti, ognuno
corrispondente a un’osservazione del campione dove ogni osservazione è composta da una
coppia di valori, che corrispondono all’ascissa e all’ordinata del punto nel diagramma.
Misure di centralità
Un valore che in qualche modo si trovi nel mezzo di un insieme di dati ne costituisce una misura di
centralità.
Media
La media (aritmetica) di un insieme di dati è una misura di centralità calcolata sommando i valori di
tutti i dati e dividendoli per il numero totale dei dati
Se … , è l’insieme di valori di un campione (dove n rappresenta la taglia del campione),
�1, �2, ��
allora la media del campione si denota con e si calcola come:
� 5
Alice Giussani n
x x x x
+ +..+ ∑
1 2 n i
́
X = = x è una statistica
n n
i=1
Se … , è l’insieme di valori di una popolazione (dove N rappresenta il numero di elementi
�1, �2, ��