vuoi
o PayPal
tutte le volte che vuoi
Controllo di qualità (verificare la riproducibilità dei dati)
4) Analisi dei dati:
- Codifica
- Memorizzazione dei dati su supporto adeguato
- Analisi statistica
5) Interpretazione dei risultati e verifica dei dati
6) Conclusioni: Divulgazione dei risultati
Accuratezza: proprietà di un sistema di misura a fornire dati che coincidono con la qualità effettivamente misurata.
Precisione: proprietà di un sistema di misura a fornire dati poco dispersivi o molto vicini al loro valore medio
Campionamento: processo che consente di selezionare un sottoinsieme di unità statistiche per giungere a conclusioni generalizzabili per tutta la popolazione.
Perché eseguirlo:
- Tempo (troppo per studiare l'intera popolazione)
- Costi (risorse spesso limitate)
- Difficoltà e identificare l'intera popolazione
Buon metodo: definire la popolazione oggetto di studio, compilare un elenco dal quale estrarre campioni a caso.
Cattivo metodo:
scegliere il campione su basi e criteri di convenienza.Campionamento casuale semplice: meccanismo di estrazione di 1 campione di popolazione finita, con criterio probabilistico, dove ciascuna unità ha la stessa probabilità di essere inclusa.
Modalità di campionamento:
- Con reintroduzione (1 elemento dopo essere stato selezionato, è reintrodotto nella lista dove ha le stesse probabilità di essere selezionato in estrazioni successive)
- Senza reintroduzione (1 elemento dopo essere stato selezionato, non viene reintrodotto)
Campionamento rappresentativo: come ottenerlo
- Creare una lista che includa ogni unità della popolazione interessata, assegnare a ogni unità un numero tra 1 e N (dimensione totale popolazione)
- Decidere il numero di unità da campionare (n) attraverso dei calcoli
- Usare un generatore di numeri casuali compresi tra 1 e il numero di unità
- Campionare le unità a cui i numeri coincidono con quelli generati
- Scala nominale: si classificano le osservazioni con un valore di etichetta (es. maschio, femmina..)
- Scala ordinale: valori diversi secondo un criterio di ordine (es. 0=nessun titolo, 1=elementari, 2=medie..)
- Scala a intervalli: consente di misurare solo grandezze per le quali il valore zero non indica l'assenza della quantità che si sta misurando. Con queste scale è possibile ordinare le misure e calcolare la distanza tra 2 misure.
- Scala di rapporto: consente di misurare grandezze per le quali il valore zero indica l'assenza della quantità che si sta misurando. Con queste scale è possibile ordinare le misure, calcolare la distanza tra 2 misure e calcolare il rapporto tra 2 misure.
Sintesi dei dati: contare quante volte è stata osservata ogni singola modalità.
Si usa la Tabella di frequenza: si usa per:
- Riassumere un grande insieme di dati
- Ottenere info riguardo i dati esaminati
- Disporre di una base per la costruzione dei grafici
- Ordinare i dati
- L'operazione di spoglio
Frequenza assoluta: (ni o f) il numero di volte in cui una specifica modalità si presenta nel campione.
Frequenza relativa: si calcola quando si vuole conoscere la proporzione delle osservazioni (ni/n assume valori compresi tra 1 e 0).
Frequenza cumulata: si calcola per ottenere info sulle osservazioni che assumono valori inferiori o superiori alla
Modalità di interesse. I Grafici: essenziali nell'analisi preliminare dei dati rilevati e nella rappresentazione dei risultati.
Vantaggi: evidenziano a "colpo d'occhio", suggeriscono le caratteristiche principali di un fenomeno.
Svantaggi: Soggettivi.
Caratteristiche ottimali di un grafico ed elementi necessari: Semplicità, Chiarezza, Accuratezza.
Tipologie:
- X dati Qualitativi:
- Diagramma a Torta: usato per evidenziare il contributo di ciascuna parte rispetto al totale.
- Diagrammi rettangoli distanziati: sull'asse delle ascisse abbiamo i nomi, etichette o simboli (le altezze dei rettangoli sono le frequenze, asse delle ordinate).
- X dati Quantitativi:
- Dot-Plot: per ogni osservazione viene disegnato un punto su un asse a riferimenti numerici, consente di individuare facilmente il valore minimo e il valore massimo della variabile e quelli più frequenti.
- Grafico Ramo-Foglia: il ramo comprende tutte le cifre del valore da rappresentare tranne
La cifra finale che costituisce la foglia; si ordinano i dati in senso crescente, i rami si collocano in colonna con separazione di una linea verticale delle foglie. Per cogliere le caratteristiche più importanti delle distribuzioni di frequenza si utilizzano le statistiche descrittive. Esse sono indici numerici, che con un numero cercano di cogliere le caratteristiche più importanti di una distribuzione di dati. Si possono calcolare in:
- Campione: li indichiamo con le lettere dell'alfabeto romano, le definiamo statistiche.
- Popolazione: li definiamo parametri, alfabeto greco.
Variabili Quantitative:
- Media: rapporto tra la somma dei dati numerici ed il numero dei dati. Campionaria: indicata con il simbolo (x), è data dalla somma (E) di tutte le osservazioni (i) diviso il numero di osservazioni (n).
- Mediana: è il valore centrale tra i dati numerici; Me = (n+1)/2
- Moda: è il valore che si presenta con la maggior frequenza, non è
influenzatada valori estremi.
Definizioni:
- Distribuzione UNImodale: una sola media presente
- Distribuzione Bimodale: due differenti valori della variabile, con stessa frequenza massima
- Distribuzione MULTImodale: se vi sono + di 2 valori diversi della variabile con la frequenza massima stessa
- (Se xi non è ripetuto allora non c'è moda)
I Quartili: dividono in 4 tutte le osservazioni statistiche o sono usati come indice di posizione che fornisce info sulla struttura della distribuzione.
Significato: si ottengono dividendo l'insieme di dati ordinati in 4 parti uguali, più precisamente; il 1° quartile è il valore che lascia alla sua sinistra il 25% degli elementi della distribuzione (detto anche 25esimo percentile). Il 2° quartile coincide con la mediana, lascia alla sua sinistra il 50% dei dati (detto 50esimo percentile). Il 3° quartile è il valore che lascia il 75% a sinistra e il 25% a destra (detto 75esimo percentile).
Calcolo
quartili: (Q1=n+1/4; Q2=2(n+1)/4; Q3=3(n+1)/4)
Misure descrittive di dispersione : importanti per quantificare la variabilità di una distribuzione
- Range: è una misura della dispersione totale dell'insieme dei dati, molto semplice da calcolare ma non tiene conto di come i dati vengono distribuiti tra il valore più piccolo e quello più grande. (Xmax-Xmin).
- Scarto semplice: lo scarto misura quanto ciascun dato si discosta dalla media. (xi-x)
- Varianza: Popolazione / Campione
- Deviazione standard: è una misura di distanza dalla media, ha sempre valore positivo
- Intervallo interquartile: misura di variabilità che fa riferimento a Q2 (la mediana), esso è dato dalla differenza tra il 3° quartile e il 1° quartile. (Q3-Q1)
La forma della distribuzione:
- Asimmetrica positiva (Moda<Mediana<Media)
- Asimmetrica negativa (Moda>Mediana>Media)
- Box-Plot: (il grafico + efficiente per esaminare una distribuzione), è una rappresentazione grafica dei dati composta da un rettangolo situato tra Q1 e Q3, diviso da una linea in corrispondenza della mediana e una che va dal valore minimo a quello massimo.
- Outlier: un'osservazione che dista dal boxplot + di 1,5 volte il range interquartile, per individuarlo si stabilisce un confine superiore e uno inferiore.
- La Probabilità: essa si basa sul paradigma degli esperimenti o dei fenomeni aleatori (il risultato differisce ogni volta). Deve essere chiaro quale sia lo spazio campionario (S), ovvero l'insieme di tutti gli esiti possibili.
- Evento: il risultato di un esperimento casuale che può essere:
- Certo (si verifica sempre)
- Probabile (può verificarsi oppure no)
- Impossibile (non si verifica mai)
- Spazio probabilistico: (p) ad un evento (s), si affianca una probabilità (p)
- Quantificare una
probabilità:
Classica: P(E) = m/n (p(E) = probabilità che l'evento accada / m = casi favorevoli / n = casi possibili)
Frequenzistica: p(E) = f/n (f = frequenza dell'evento / n = totale delle frequenze)
Interpretazione Bayessiana o Soggettiva: usata per gli eventi irripetibili, essa è il grado di fiducia soggettiva che un individuo ripone nel verificarsi di un evento, su basi e convinzioni del momento. P(A) / 1 - P(A)
Assiomi di Kolmogorov: leggi per il calcolo delle probabilità
La probabilità è un numero compreso tra 0 e 1, 0 < 1, 0 non si verifica, 1 si verifica, 0,5 è la probabilità che accada.
Evento composto: un qualsiasi evento da 2 o più eventi semplici
Probabilità condizionata: probabilità di B dato A, rappresenta la probabilità che si verifichi l'evento B a condizione che si verifichi l'evento A. (Indipendentemente se il verificarsi di uno dei due eventi non ha alcun effetto sull'altro).
Misure di Validità
ltagi negativi al test diagnostico.