vuoi
o PayPal
tutte le volte che vuoi
Essa può essere anche relativa, se si tratta di una parte della
variabile.
Percentile = l’x-esimo percentuale è il valore al di sotto del quale si
trova l’x % degli individui, oppure al massimo attraverso quantile x/
100 Correlazione tra una
Correlazione tra variabili Correlazione tra variabile coppia di variabili
categoriche numeriche tra gruppi numeriche
Confronto di istogrammi tra
Tabelle di contingenza Diagramma a dispersione
gruppi
Diagramma a bare Confronto delle frequenze Diagramma a linee
raggruppate comulative
Grafico a mosaico Mappe
Media aritmetica = è la media delle misure del campione data dalla
somma delle osservazioni diviso la sua numerosità
Deviazione standard = dispersione
rispetto alla media di una In un istogramma a
distribuzione di frequenza campana simmetrica, il 2/3
delle osservazioni sarà entro
Varianza = deviazione standard 1 deviazione standard . Il
senza la radice quadrata 95% entro 2 deviazioni. Il
99& entro 3 deviazioni
standard.
Devianza = differenza tra le
osservazioni e la media elevate al
quadrato
Coefficiente di variazione = deviazione standard espressa in %
( più è alto, meno similitudine - più è basso, più similitudine )
Mediana = è la misura centrale di un insieme di osservazioni ( si
devono porre le osservazioni in ordine crescente )
Differenza interquartile =
differenza tra il terzo e il primo
quartile
Se la statistica è unimodale,
simmetrica, non si ha differenza Quartile = un quarto delle
tra le misure che si utilizzano; se osservazioni ( l’25-esimo percentile
la statistica è bimodale, )
asimettrica, estrema, meglio la
mediana e la differenza
interquartile poiché non viene Diagramma box plot =
influenzato dagli estremi. diagramma per evidenziare
mediana, quartili e suoi valori più
facilmente. Si trovano anche altre
caratteristiche tipo simmetrie.
Proporzioni = per una data categoria, rappresenta il rapporto tra il
numero di osservazioni in quella categoria e il numero totale
dell’osservazioni ( il totale di ogni proporzione di una variabile deve
essere 1 )
Stima = è il processo con cui si inferisce ( stabilisce ) un parametro
della popolazione a partire da dati campionari. In ogni tema è insito
un errore e fondamentale è la sua quantificazione.
Distribuzione campionaria della stima = distribuzione di
probabilità di tutti i valori di una stima che si potrebbero ottenere
campionando una popolazione infinite volte.
l’errore standard
Per misurare l’incertezza di una stima si usa: che
è la deviazione standard della distribuzione campionaria della stima;
l’intervallo di confidenza
o che è un intervallo di valori intorno alla
stima campionaria che contiene verosimilmente il parametro della
popolazione ( avvolte si approssima alla regola del 2ES ovvero che
l’intervallo è all’interno di 2 errori standard della media.
Probabilità = è la proporzione di volte che l’evento si verificherebbe
se si ripetere una prova casuale moltissime volte nelle stesse
condizioni.
Distribuzione di probabilità = indica la distribuzione di frequenza
della probabilità degli eventi. ( distribuzioni discrete, ogni valore che
siete, distribuzione continue, determinata da una curva indicante la
densità della popolazione )
Eventi incompatibili = 2 eventi che non si possono verificare
contemporaneamente
Eventi indipendenti = il verificarsi di uno dei due non influenza la
probabilità che si verifichi l’altro. ( possibilità di inserimento
nell’albero dell probabilità dove ogni ramo moltiplica con il
precedente e alla fine i risultati si sommano.
Eventi dipendenti = il verificarsi di un evento influenza la
probabilità che si verifichi l’altro
Teorema di bayes = impiegato per verificare la validità della
probabilità divisa la causa scatenante ( attendibilità del test /
probabilità condizionata )
Verifica dell’ipotesi = verificare i dati ottenuti con ciò che ci
aspettiamo di avere sulla base di un’ipotesi vera.
Ipotesi nulla ( Ho ) = un ipotesi del Processo per la verifica
parametro della popolazione che si dell’ipotesi :
vuole confutare che si spera sia falsa. Formulare le ipotesi
Definire la statistica test
Ipotesi alternativa ( Ha ) = tutti i valori Calcolo del p-value ( per vedere
diversi dall’ipotesi nulla. la probabilità o della statistica
test o dei valori più estremi )
Statistica test = grandezza, calcolata Confronto con il livello di
sui dati, che valuta il grado di significatività ( 0,05 )
Discussione delle ipotesi
compatibilità dei dati con il risultato Conclusioni
che ci aspettiamo se fosse vera la
ipotesi nulla.
Distribuzione nulla = la distribuzione
campionaria dei possibili valori che può assumere una statistica test
quando si ipotizza che sia vera l’ipotesi nulla ( serve per calcolare il
p-value )
P-value = probabilità di ottenere i dati osservati e tutti i suoi
estremi, se l’ipotesi nulla sia vera.
Livello di significatività = valore critico di decisione del p-value
( 0,05 )
< o = rifiutiamo l’ipotesi nulla ( se si accetta -> errore di tipo 2 )
> non rifiutiamo l’ipotesi nulla ( se si rifiuta -> errore di tipo 1 )
Potenza di un test = è la probabilità che un campione casuale
determini il rifiuto di un ipotesi nulla falsa. ( + alta potenza, + basso
la probabilità di rifiuto dell’ipotesi nulla falsa. )
Distribuzione binomiale = fornisce la
Legge dei grandi distribuzione di probabilità di numero di
numeri : successi in un numero fisso di prove
Più è grande una indipendenti, quando la probabilità di
dimensione successo è uguale in ogni prova.
campionaria, più ( sostituisce la distribuzione nulla nella
precisa sarà la stima verifica delle ipotesi, in un test binomiale )
effettuata. Errore standard delle proporzioni =
quando la stima campionaria è
verosimilmente vicina alla proporzione della popolazione
Test di bontà di adattamento = quando questo modello riesca
bene a rappresentare la realtà dei dati raccolti.
Modello proporzionale = un
modello probabilistico semplice nel
quale la frequenza con cui si Assunzioni test del X 2
verificano i diversi eventi è Campione casuale
proporzionale al numero di volte che Nessuna delle categorie deve
essi hanno la possibilità di verificarsi. presentare una frequenza attesa
minore di 1
Non più del 20% delle categorie
Test del X = confronta i dati di
2 deve avere frequenza attese
frequenza osservata e le frequenze minori di 5
previste da un modello casuale che rappresenta l’ipotesi nulla.
( essa si valuta come se fosse la statistica test della V delle I )
Grado di libertà = specifica quale distribuzione, in una famiglia di
distribuzioni, deve essere utilizzata come distribuzione nulla.
Distribuzione dell’X = ha un andamento noto, basandosi sulla
2
forma del chi quadrato. ( vedere appunti )
Valore critico = il valore di una statistica test che identifica il
confine di una specifica area nella coda della distribuzione
assumendo vera l’ipotesi nulla, caratterizzante il valore del livello di
significatività ( 0,05 ) da vedere nella tabella A. ( vedere appunti )
Distribuzione di poisson = descrive il numero di successi in
intervalli spaziali e temporali quando i successi si verificano
indipendentemente l’uno dall’altro e con quale probabilità in ogni
punto del tempo e dello spazio. ( dispersione casuale, e non
raggruppata o dispersa )
Tabelle di contingenza = evidenziano la possibile correlazione tra
due o più variabili categoriche, esplicativa e risposta.
Odds ratio = misura l’entità dell’associazione tra due variabili
categoriche quando ciascuna di esse ha soltanto due categorie.
( odd di successo di un gruppo / odd di successo dell’altro gruppo)
Odds di successo = è la probabilità di successo divisa per ogni
insuccesso.
La distribuzione normale ( o gaussiana ) = è una distribuzione di
probabilità continua che descrive una curva a campana. È una
buona approssimazione della distribuzione di frequenza di molte
variabili biologiche. Essa è simmetrica rispetto alla media ed ha una
singola moda. La densità di probabilità ha il suo valore massimo
esattamente in corrispondenza della media.
- L’aria compresa dalla curva e all’interno di una deviazione
standard è = al 68,5%
- L’aria compresa dalla curva di due deviazioni standard è = 95,4%
- L’aria compresa dalla curva di tre deviazioni standard è = 99,7%
- L’aria compresa dalla curva di 1,97 deviazioni standard è = 95%
istribuzione normale standardizzata
D = è una distribuzione
normale con media 0 e deviazione standard pari a 1
Z = una qualsiasi variabile con distribuzione normale standardizzata
Scarto normale standardizzato = indica quante deviazioni
standard un particolare valore dista dalla media.
Statistica T = in essa viene calcolato l’errore di campionamento
associato alla stima di O ( parametro della deviazione standard )
fatta con s ( deviazione standard )
Test T = confronta la media di un Assunzioni
Campione casuale
campione casuale estratto da una Distribuzione normale
popolazione normale con un valore della della popolazione
media della popolazione definito
dall’ipotesi nulla. Per il confronto delle
medie in 2 campioni
Confronto tra due medie = per il anche
confronto è più giusto avere un disegno Deviazione standard
per dati appaiati poiché ad ogni box si uguale nelle s medie.
attuano entrambi i trattamenti. La
dimensione campionaria è la differenza tra
la coppia delle misure.
Violazione delle assunzioni
Verifica dello scostamento dalla normalità =
- Metodo grafico : riportare in un istogramma i dati per ciascun gruppo
ed osservare l’andamento della distribuzione; realizzare un diagramma
del quantizzi normali; ogni osservazione nel campione viene
confrontata con il suo quantile atteso nella distribuzione normale
standadizzata. Se c’è un retta, è normale; se c’è una curva, è
asimmetrica.
- Test statistici : rispondere alla domanda di Ho “ i dati campionari da
una popolazione sono con distribuzione normale ? “
Test di Shapiro - Wilk
Quando avviene ci sono 3 soluzioni :
- Ignorare le violazioni = si può ignorare tali violazioni quando/
<