vuoi
o PayPal
tutte le volte che vuoi
Metodi di campionamento
Buon metodo: definire la popolazione oggetto di studio, compilare un elenco dal quale estrarre campioni a caso.
Cattivo metodo: scegliere il campione su basi e criteri di convenienza.
Campionamento casuale semplice: meccanismo di estrazione di 1 campione di popolazione finita, con criterio probabilistico, dove ciascuna unità ha la stessa probabilità di essere inclusa.
Modalità di campionamento:
- Con reintroduzione (1 elemento dopo essere stato selezionato, è reintrodotto nella lista dove ha le stesse probabilità di essere selezionato in estrazioni successive)
- Senza reintroduzione (1 elemento dopo essere stato selezionato, non viene reintrodotto)
Campionamento rappresentativo: come ottenerlo
- Creare una lista che includa ogni unità della popolazione interessata, assegnare a ogni unità un numero tra 1 e N (dimensione totale popolazione)
- Decidere il numero di unità da campionare (n) attraverso dei calcoli
- Usare un generatore di
Si sta misurando. Con queste scale è possibile ordinare le misure e calcolare la distanza tra 2 misure.
Scala di rapporti: rappresenta il livello più alto di misurazione, quando lo zero è assoluto.
Sintesi dei dati: contare quante volte è stata osservata ogni singola modalità.
Si usa la Tabella di frequenza: si usa per
- Riassumere un grande insieme di dati
- Ottenere info riguardo i dati esaminati
- Disporre di una base per la costruzione dei grafici
Per costruire la distribuzione di frequenza è necessario: Ordinare i dati e L'operazione di spoglio.
Tabella di frequenza: rappresentazione del numero di volte (ni), con cui ciascuna modalità della variabile (X), si presenta in un campione.
Frequenza assoluta: (ni o fi) il numero di volte in cui una specifica modalità si presenta nel campione.
Frequenza relativa: si calcola quando si vuole conoscere la proporzione delle osservazioni (ni/n assume valori compresi tra 1 e...
modalità di interesse. Istogramma: rappresenta la distribuzione di frequenza di una variabile quantitativa discreta o continua, utilizzando rettangoli adiacenti di altezza proporzionale alla frequenza. Boxplot: rappresenta graficamente la distribuzione di una variabile quantitativa attraverso quartili, mediana e valori anomali. Grafico a linee: rappresenta l'andamento di una variabile quantitativa nel tempo o in funzione di un'altra variabile. Scatterplot: rappresenta la relazione tra due variabili quantitative attraverso punti disposti su un piano cartesiano.variabile equelli più frequenti.
Grafico Ramo-Foglia: il ramo comprende tutte le cifre del valore da rappresentare trannela cifra finale che costituisce la foglia; si ordinano i dati in senso crescente , i rami sicollocano in colonna con separazione di una linea verticale delle foglie.
Per cogliere le più importanti caratteristiche delle distribuzioni di frequenza si utilizzano le statistichedescrittive. Esse sono indici numerici, che con un numero cercano di cogliere le più importanticaratteristiche si una distribuzione di dati.
Si possono calcolare in:
- Campioni: li indichiamo con le lettere dell’alfabeto romano, le definiamo statistiche.
- Popolazione: li definiamo parametri, alfabeto greco.
Variabili Quantitative :
- Media: rapporto tra la somma dei dati numerici ed il numero dei dati.
- Campionaria: indicata con il simbolo (x) è data dalla somma (E) di tutte le osservazioni (i)diviso il numero di osservazioni (n).
- Mediana: è
Il valore centrale tra i dati numerici; Me= (n+1)/23)
Moda: è il valore che si presenta con la maggior frequenza, non è influenzata da valori estremi.
Definizioni:
- Distribuzione UNImodale: una sola media presente
- Distribuzione Bimodale: due differenti valori della variabile, con stessa frequenza massima
- Distribuzione MULTImodale: se vi sono + di 2 valori diversi della variabile con la frequenza massima stessa(Se xi non è ripetuto allora non c'è moda)
I Quartili: dividono in 4 tutte le osservazioni statistiche o sono usati come indice di posizione che fornisce info sulla struttura della distribuzione.
Significato: si ottengono dividendo l'insieme di dati ordinati in 4 parti uguali, più precisamente; il 1° quartile è il valore che lascia alla sua sinistra il 25% degli elementi della distribuzione (detto anche 25esimo percentile). Il 2° quartile coincide con la mediana, lascia alla sua sinistra il 50% dei dati (detto 50esimo percentile).
Il 3° quartile è il valore che lascia il 75% a sinistra e il 25% a destra (detto 75esimo percentile). Calcolo quartili: (Q1=n+1/4; Q2=2(n+1)/4; Q3=3(n+1)/4) Misure descrittive di dispersione : importanti per quantificare la variabilità di una distribuzione- Range: è una misura della dispersione totale dell’insieme dei dati, molto semplice da calcolare ma non tiene conto di come i dati vengono distribuiti tra il valore + piccolo e quello + grande. ( Xmax-Xmin).
- Scarto semplice: lo scarto misura quanto ciascun dato si discosta dalla media. (xi-x)
- Varianza: Popolazione / Campione
- Deviazione standard: è una misura di distanza dalla media, ha sempre valore positivo
- Intervallo interquartile: misura di variabilità che fa riferimento a Q2 (la mediana), esso è dato dalla differenza tra il 3° quartile e il 1° quartile. (Q3-Q1)
Spazio probabilistico: (p) ad un evento (s), si affianca una probabilità (p)
Quantificare una probabilità:
- Classica: P(E)= m/n (p(E)=probabilità che l’evento accada/m=casi favorevoli/n=casi possibili)
- Frequenzistica: p(E)= f/n (f=freq dell’evento/n=tot della freq)
- Interpretazione Bayessiana o Soggettiva: usata per gli eventi irripetibili, essa è il grado di fiducia soggettiva che un individuo ripone nel verificarsi di un evento, su basi e convinzioni del momento.
P(A)/1-P(A)
Assiomi di Kolmogorov: leggi per il calcolo delle probabilità
La probabilità è un numero compreso tra 0 e 1, 0<1, 0 non si verifica, 1 si verifica, 0,5 è la probabilità che accada.
Evento composto: un qualsiasi evento da 2 o + eventi semplici
Probabilità condizionata: probabilità di B dato A, rappresenta la probabilità che si verifichi l’evento B a condizione che si verifichi l’evento A.
- (Indipendentemente se il verificarsi di 1 dei 2 eventi non ha alcun effetto sull'altro).
Misure di Validità per un test diagnostico: si usano le tabelle di contingenza
- VP: malati, classificati come malati (esatto)
- VN: sani, classificati come non malati (esatto)
- FP: sani, classificati come malati (errore)
- FN: malati, classificati come non malati (errore)
Sensibilità: probabilità condizionale di essere positivi al test essendo malati.
Specificità: probabilità condizionale di essere negativi al test essendo sani.
Test sensibile: pochi falsi negativi / Test specifico: pochi falsi positivi
Valore predittivo positivo (VPP): misura la probabilità condizionale di essere malati essendo risultati positivi al test diagnostico.
Valore predittivo negativo (VPN): essere sani con risultato negativo al test.
Il Rischio: esso è la probabilità di un esito indesiderato in un intervallo di tempo. Varia per caratteristiche individuali come sesso,
età.. (La probabilità non è la stessa per tutta la popolazione). Può essere: - Assoluto: rapporto tra esposti al fattore di rischio e il totale degli esposti (a/a+b). I limiti dell'assoluto= non fornisce info su quanto quel determinato fattore influisca sullo sviluppo della malattia. - Relativo: rapporto tra incidenza di malattia negli esposti e l'incidenza dei non esposti. (RR=a/(a+b)//c/(c+d). Distribuzione Binomiale: è la distribuzione di probabilità teorica per eventi classificati con una variabile binaria. Distribuzione di Poisson: una distribuzione di probabilità è una v. casuale discreta che può assumere qualsiasi valore intero non-negativo. Può essere derivata in due diversi contesti DA PROVE BERNOULLIANE, quando si considerano moltissime prove ciascuna con probabilità. È un modello probabilistico adottato per modellare il numero di eventi rari in un intervallo di tempo o spazio fissato.