vuoi
o PayPal
tutte le volte che vuoi
CERTO FENOMENO NATURALE.
2. Metto in atto una sperimentazione (replica) con l’obiettivo di FALSIFICARE L’IPOTESI
formulata.
3. Se non riesco a falsificare l’ipotesi allora ritengo che quella ipotesi rimane una ragionevole
buona spiegazione di quel fenomeno naturale.
ESEMPIO:
1. Da studi preliminari di efficacia è possibile ritenere che essere esposti a stress durante
l’infanzia aumenti la probabilità di disturbo depressivo maggiore in età adulta nella
popolazione generale.
2. “Esperimento”: Nella popolazione generale, misuro l’esposizione allo stress durante
l’infanzia. Valuto prevalenza di disturbo depressivo in età adulta. Osservo una maggiore
prevalenza di disturbo tra coloro che erano stati esposti a stress durante l’infanzia.
3. Conclusione: l’ipotesi iniziale è vera.
Popolazione
▪ insieme di unità statistiche accumunate da una certa caratteristica.
o unità statistiche, non necessariamente persone.
▪ esempio: popolazione di studenti Uninsubria.
Ragionamento induttivo o inferenziale
Dall’esperienza particolare al principio generale.
• Vorrei conoscere un particolare fenomeno biologico in una certa popolazione.
• Studio il fenomeno in un sotto-insieme della popolazione, che chiamo campione.
• Utilizzo inferenza per estendere la conoscenza del fenomeno che ho acquisito nel
campione all’intera popolazione.
Campione
• Insieme di unità statistiche di una certa popolazione, di dimensioni inferiori alla
popolazione, in cui le unità statistiche sono estratte con tecniche appropriate.
• Tecniche appropriate il campione deve essere rappresentativo della popolazione da cui il
campione viene estratto (altrimenti non si possono generalizzare i risultati alla
popolazione).
ESEMPIO:
• Da studi preliminari di efficacia è possibile ritenere che essere esposti a stress durante
l’infanzia aumenti la probabilità di disturbo depressivo maggiore in età adulta nella
popolazione generale.
• “Esperimento”: Estraggo un campione rappresentativo dalla popolazione generale.
Misuro l’esposizione allo stress durante l’infanzia. Valuto prevalenza disturbo depressivo in
età adulta. Osservo una maggiore prevalenza disturbo tra coloro che erano stati esposti a
stress durante l’infanzia.
• Inferenza statistica: procedura che mi consenta di trarre conclusioni sull’ipotesi di partenza
nella popolazione. Conclusione: i dati raccolti supportano (non supportano) l’ipotesi
iniziale.
STATISTICA - LEZIONE 2
Tabulazione dei dati e distribuzione di frequenza
Popolazione insieme di individui che hanno una stessa caratteristica.
Campione insieme di oggetti, di persone (unità statistiche) scelte con tecniche appropriate da un
insieme più grande (popolazione) che rappresenta il vero oggetto di studio. Un sottogruppo
rappresentativo
Unità statistica supporto delle manifestazioni di una molteplicità di fenomeni, alcuni dei quali
sono quelli presi in esame. Il più piccolo oggetto sul quale vogliamo fare delle osservazioni.
Variabile caratteristica o fenomeno rilevabile su un dato insieme oggetto di studio (campione)
quando i valori misurati (manifestazioni) variano tra le unità statistiche o tra i rilievi ripetuti sulla
stessa unità. Ogni fenomeno che si misura è una variabile. Ciò presuppone che ciò che si misura
possa variare (sono interessata a misurarla perché cambia).
Modalità possibili manifestazioni di un fenomeno (caratteristica). L’insieme di tutti i possibili
valori che la variabile può assumere.
Le variabili possono essere:
• Variabili qualitative (nominali/ordinali)
o Nominali: le modalità sono “attributi”, qualità. Non esiste ordinamento oggettivo.
(sesso, gruppo sanguigno)
o Ordinali: le modalità presentano un ordine. Sia attributi che numeri. (titolo di studio
conseguito)
• Variabili quantitative (discrete/continue)
o Discrete: fenomeno espresso su scala numerica discreta.
(giorni di ricovero in ospedale, numero componenti della famiglia) numeri interi
o Continue: fenomeno espresso su scala numerica continua.
permette di rilevare tutti i possibili valori, anche frazionari, di un intervallo. Può
diventare discreta (arrotondando alla cifra più vicina). (anni, peso)
Serie elenco dei valori osservati. La casistica non è ordinata per nessuna variabile.
Seriazione elenco ordinato in modo crescente o decrescente dei singoli valori osservati. La
casistica è ordinata secondo una variabile.
Distribuzione di frequenza prima operazione di sintesi dei dati che consiste nell’associare ad
ogni modalità di una variabile una frequenza, ovvero un numero che descrive quante volte la
modalità è stata osservata nei dati.
• Distribuzione Univariata: una variabile
• Distribuzione Bivariata: due variabili
Rappresentazione Univariata tabella
Valori che si trovano in una tabella:
• K = numero di valori della variabile
• n = frequenza assoluta, ad ogni modalità o valore assunto dalla variabile è associato un
i
numero intero che rappresenta l’intensità con la quale il fenomeno si manifesta.
• f = frequenza relativa, il rapporto tra la frequenza assoluta con cui si manifesta una
i
modalità e la numerosità totale del campione.
• N = frequenza assoluta cumulata, somme parziali delle frequenze assolute.
i
• F = frequenza relativa cumulata, somme parziali delle frequenze relative.
i
Percentuali frequenze relative moltiplicate per 100.
Se la variabile è quantitativa i valori possono essere raggruppati in classi secondo criteri che
riguardano l’ampiezza e il numero delle classi.
Rappresentazione grafica
Diagramma a torta circolare, utilizzato soprattutto per variabili qualitative nominali e
poche modalità. Si realizza dividendo una torta in settori secondo la frequenza relativa.
o Discontinuità dei valori messa in evidenza dallo spazio tra le “fette” della torta.
o “fette” proporzionali alle frequenze relative. Facile individuazione delle modalità
più frequenti.
o Poco adatte per variabili con un numero elevato di modalità.
o Poco indicata in caso di variabile ordinale.
Diagramma a barre orizzontali utilizzato con variabili qualitative.
L’altezza delle barre rappresenta la frequenza assoluta o la frequenza relativa.
l’asse x rappresenta la frequenza relativa semplice, ovvero la percentuale più facilmente
confrontabile. Sull’asse y è rappresentata la discontinuità dei valori delle x.
Diagramma ad aghi utilizzato con variabili quantitative. Se rappresenta variabili
quantitative discrete tra una barra e l’altra c’è spazio (se fossero continue sarebbero
attaccate). Sull’asse y si trovano le frequenze relative semplici. Sull’asse x è rappresentata
la discontinuità dei valori delle x.
Istogramma si usa per rappresentare caratteristiche contigue (età, peso), le cui modalità
sono raggruppate in classi. Se le classi sono di uguale ampiezza l’altezza è proporzionale
alla frequenza delle classi, altrimenti le altezze devono essere adattate ed espresse per
unità di misura della base.
N.B.: è l’area e non l’altezza del rettangolo a coincidere con la frequenza.
Distribuzione bivariata: tabella a doppia entrata permette di classificare le unità
statistiche rispetto a due variabili.
Scatterplot si usa per rappresentare graficamente come due variabili si relazionano l’una
con l’altra. Utile per rappresentazione bivariata di due variabili continue. Ciascun punto
rappresenta un’unità statistica. Una variabile è visualizzata sull’asse delle ascisse e l’altra
sull’asse delle ordinate.
STATISTICA – LEZIONE 3
Misure di tendenza centrale e di simmetria
È necessario sintetizzare per trarre informazione dalla ricchezza dei dati e poter più agevolmente
confrontare due fenomeni o lo stesso fenomeno osservato su casistiche differenti.
Statistica descrittiva: operazione di sintesi estrema
1. Misure di tendenza centrale riassumono in un’unica modalità l’intera serie o seriazione
secondo un criterio specifico.
2. Misure di simmetria descrivono la forma di una distribuzione di frequenza.
3. Misure di dispersione informazioni sulla dispersione dei valori di un insieme di dati.
Misure di tendenza centrale (o posizione) trovare una modalità che le rappresenti tutte.
Moda valore più frequente, il picco della distribuzione, modalità più frequentemente
osservata. Prima informazione che mi comunica la distribuzione di frequenza. Non
necessariamente è una, esistono anche più mode.
o Calcolabile per qualunque tipo di fenomeno.
o Esistono distribuzioni bi- tri-modali – plurimodali.
o È tanto più informativa quanto più è elevata la corrispondente frequenza.
o Non è influenzata dagli estremi.
o Può essere decentrata.
Mediana modalità che lascia il 50% delle osservazioni a destra e il 50% a sinistra, dopo
che le n unità sono state ordinate in ordine crescente rispetto alle modalità medesime. Si
trova al centro della distribuzione.
o Calcolabile per fenomeni almeno con scala ordinale.
o N dispari la mediana è rappresentata dal numero che occupa la posizione
centrale. m[(N+1)/2].
o N pari la mediana è rappresentata dai due numeri centrali. Se il valore è lo stesso,
quella sarà la mediana. Se i valori sono diversi la mediana sarà la loro media.
m[N/2] = m[(N/2)+1]
o È poco sensibile ai valori estremi.
o È utile per scale ordinali.
o Quantile valore della variabile che taglia la distribuzione di frequenza, con un
quanto alla sinistra ed il rimanente alla destra.
▪ 1° quintile lascia il 20% dei valori a sx e l’80% a dx
▪ 3° quartile lascia il 75% dei valori a dx e il 25% a sx
Media aritmetica somma di tutte le modalità osservate, diviso le unità statistiche totali. È
sempre compresa tra la modalità più piccola e la modalità più grande.
o È influenzata da tutti i valori, anche da quelli estremi.
o Sta al centro della distribuzione, alcuni valori prima e altri valori dopo.
o Scarto dalla media x – media = scarto dalla media la somma degli scarti dalla
i
media vale 0.
Indici di simmetria
Misura che è in grado di farmi capire com’è la forma della distribuzione di frequenza che sto
osservando.
Una distribuzione è simmetrica rispetto alla media se le modalità