Statistica teoria
La statistica è una disciplina che permette di descrivere e misurare diversi aspetti della natura basandosi su campioni.
Tipi di statistica
Statistica descrittiva = Rappresentazione dei dati attraverso strumenti rapidi di lettura.
Statistica inferenziale = Generalizzando, si fanno conclusioni suggerite dall’analisi dei dati raccolti.
Concetti chiave
Parametro = Grandezza che descrive realmente una popolazione.
Popolazione = Insieme di unità di interesse.
Stima = Processo con cui si inferisce una grandezza incognita di una popolazione usando dati campionari.
Errori e bias
Errore di campionamento = Differenza casuale tra stima e la reale caratteristica della popolazione. Più è piccola la dispersione delle stime, maggiore è preciso il processo statistico. L'obiettivo del campionamento è ridurre l’errore di campionamento e la distorsione.
Distorsione o bias = Discrepanza sistematica tra valore vero e stime (punto di osservazione errato, strumento di calcolo o misure inadeguati).
Tipi di campione
Campione casuale = Campione estratto da una popolazione che soddisfa due criteri: ogni unità deve avere uguale probabilità di essere inclusa nel campione selezionato e la selezione deve essere indipendente l’una dall’altra.
Campione di convenienza = Insieme di individui facilmente disponibili al ricettore.
Bias del volontario = Molte volte ci sono volontari che vogliono essere campionati, ma a volte si viola il criterio dell’indipendenza.
Variabili
Variabile risposta ed esplicativa = Può capitare di relazionare variabili diverse cercando di spiegarne il legame: la variabile risposta sarà quella che vorrà essere prevista dalla variabile esplicativa.
Variabile = Caratteristica o misura che può variare tra le unità studiate (definite dal parametro).
Variabili quantitative (numeriche) = Quelle espresse con valore su scala numerica. Possono essere: continue (qualsiasi valore all’interno dell’intervallo) o discrete (numeri precisi interi).
Variabili qualitative (categoriche) = Hanno un nome, ma non possono essere misurate con un numero. Possono essere: nominali (non è presente un ordine) o ordinali (sono ordinabili con gradienti non numerici).
Dati e studi
Dato = Risultato grezzo delle misurazioni delle variabili.
Studio sperimentale = Il ricercatore assegna gruppi di trattamento differenti e casuali alle unità di studio (fatto dal ricercatore).
Studio osservazionale = Quando la natura offre gruppi di trattamento o valori di una variabile esplicativa (fatto dalla natura e visto dal ricercatore).
Analisi e grafici
Moda o picco = Colonna più alta, area più elevata, preferenza.
Outlier = Valori anormali, estremi, più bassi, da tenere sotto controllo.
- Diagramma a barre = Informazione della frequenza risiede nell’altezza (barre staccate).
- Istogramma = Informazione risiede nell’area della barra (barre attaccate).
Distribuzione di frequenza = Rappresentazione del numero di volte che una variabile si osservi nel campione. Essa può essere anche relativa, se si tratta di una parte della variabile.
Percentile = L’x-esimo percentile è il valore al di sotto del quale si trova l’x% degli individui, oppure al massimo attraverso quantile x/100.
Correlazioni e confronti
- Correlazione tra variabili
- Correlazione tra variabili numeriche
- Correlazione tra variabili categoriche
- Diagramma a dispersione tra gruppi
- Confronto di istogrammi
- Tabelle di contingenza
- Diagramma a barre
- Confronto delle frequenze raggruppate cumulativamente
- Diagramma a linee
- Grafico a mosaico
- Mappe
Medie e dispersioni
Media aritmetica = È la media delle misure del campione data dalla somma delle osservazioni diviso la sua numerosità.
Deviazione standard = Dispersione rispetto alla media di una distribuzione di frequenza campana simmetrica. Il 2/3 delle osservazioni sarà entro 1 deviazione standard, il 95% entro 2 deviazioni, il 99% entro 3 deviazioni standard.
Varianza = Deviazione standard senza la radice quadrata.
Devianza = Differenza tra le osservazioni e la media elevate al quadrato.
Coefficiente di variazione = Deviazione standard espressa in % (più è alto, meno similitudine - più è basso, più similitudine).
Mediana = È la misura centrale di un insieme di osservazioni (si devono porre le osservazioni in ordine crescente).