Statistica: Esame teorico

Definizioni complete dell'esame di statistica in materie ed università scientifiche/biologiche. comprendono l'insieme dei test e delle definizioni base della statistica. Appunti di …

Esame Statistica

Facoltà Scienze e tecnologie

Dal corso del Prof. Bracchetti Luca

Università Università degli Studi di Camerino

Publisher MarcoMorosetti

A.A. 2019-2020

11 pagine

1 download

Appunto

Vota 4,0 / 5 (2)

Scarica

Estratto del documento

Essa può essere anche relativa, se si tratta di una parte della

variabile.

Percentile = l’x-esimo percentuale è il valore al di sotto del quale si

trova l’x % degli individui, oppure al massimo attraverso quantile x/

100 Correlazione tra una

Correlazione tra variabili Correlazione tra variabile coppia di variabili

categoriche numeriche tra gruppi numeriche

Confronto di istogrammi tra

Tabelle di contingenza Diagramma a dispersione

gruppi

Diagramma a bare Confronto delle frequenze Diagramma a linee

raggruppate comulative

Grafico a mosaico Mappe

Media aritmetica = è la media delle misure del campione data dalla

somma delle osservazioni diviso la sua numerosità

Deviazione standard = dispersione

rispetto alla media di una In un istogramma a

distribuzione di frequenza campana simmetrica, il 2/3

delle osservazioni sarà entro

Varianza = deviazione standard 1 deviazione standard . Il

senza la radice quadrata 95% entro 2 deviazioni. Il

99& entro 3 deviazioni

standard.

Devianza = diﬀerenza tra le

osservazioni e la media elevate al

quadrato

Coeﬃciente di variazione = deviazione standard espressa in %

( più è alto, meno similitudine - più è basso, più similitudine )

Mediana = è la misura centrale di un insieme di osservazioni ( si

devono porre le osservazioni in ordine crescente )

Diﬀerenza interquartile =

diﬀerenza tra il terzo e il primo

quartile

Se la statistica è unimodale,

simmetrica, non si ha diﬀerenza Quartile = un quarto delle

tra le misure che si utilizzano; se osservazioni ( l’25-esimo percentile

la statistica è bimodale, )

asimettrica, estrema, meglio la

mediana e la diﬀerenza

interquartile poiché non viene Diagramma box plot =

influenzato dagli estremi. diagramma per evidenziare

mediana, quartili e suoi valori più

facilmente. Si trovano anche altre

caratteristiche tipo simmetrie.

Proporzioni = per una data categoria, rappresenta il rapporto tra il

numero di osservazioni in quella categoria e il numero totale

dell’osservazioni ( il totale di ogni proporzione di una variabile deve

essere 1 )

Stima = è il processo con cui si inferisce ( stabilisce ) un parametro

della popolazione a partire da dati campionari. In ogni tema è insito

un errore e fondamentale è la sua quantificazione.

Distribuzione campionaria della stima = distribuzione di

probabilità di tutti i valori di una stima che si potrebbero ottenere

campionando una popolazione infinite volte.

l’errore standard

Per misurare l’incertezza di una stima si usa: che

è la deviazione standard della distribuzione campionaria della stima;

l’intervallo di confidenza

o che è un intervallo di valori intorno alla

stima campionaria che contiene verosimilmente il parametro della

popolazione ( avvolte si approssima alla regola del 2ES ovvero che

l’intervallo è all’interno di 2 errori standard della media.

Probabilità = è la proporzione di volte che l’evento si verificherebbe

se si ripetere una prova casuale moltissime volte nelle stesse

condizioni.

Distribuzione di probabilità = indica la distribuzione di frequenza

della probabilità degli eventi. ( distribuzioni discrete, ogni valore che

siete, distribuzione continue, determinata da una curva indicante la

densità della popolazione )

Eventi incompatibili = 2 eventi che non si possono verificare

contemporaneamente

Eventi indipendenti = il verificarsi di uno dei due non influenza la

probabilità che si verifichi l’altro. ( possibilità di inserimento

nell’albero dell probabilità dove ogni ramo moltiplica con il

precedente e alla fine i risultati si sommano.

Eventi dipendenti = il verificarsi di un evento influenza la

probabilità che si verifichi l’altro

Teorema di bayes = impiegato per verificare la validità della

probabilità divisa la causa scatenante ( attendibilità del test /

probabilità condizionata )

Verifica dell’ipotesi = verificare i dati ottenuti con ciò che ci

aspettiamo di avere sulla base di un’ipotesi vera.

Ipotesi nulla ( Ho ) = un ipotesi del Processo per la verifica

parametro della popolazione che si dell’ipotesi :

vuole confutare che si spera sia falsa. Formulare le ipotesi

Definire la statistica test

Ipotesi alternativa ( Ha ) = tutti i valori Calcolo del p-value ( per vedere

diversi dall’ipotesi nulla. la probabilità o della statistica

test o dei valori più estremi )

Statistica test = grandezza, calcolata Confronto con il livello di

sui dati, che valuta il grado di significatività ( 0,05 )

Discussione delle ipotesi

compatibilità dei dati con il risultato Conclusioni

che ci aspettiamo se fosse vera la

ipotesi nulla.

Distribuzione nulla = la distribuzione

campionaria dei possibili valori che può assumere una statistica test

quando si ipotizza che sia vera l’ipotesi nulla ( serve per calcolare il

p-value )

P-value = probabilità di ottenere i dati osservati e tutti i suoi

estremi, se l’ipotesi nulla sia vera.

Livello di significatività = valore critico di decisione del p-value

( 0,05 )

< o = rifiutiamo l’ipotesi nulla ( se si accetta -> errore di tipo 2 )

> non rifiutiamo l’ipotesi nulla ( se si rifiuta -> errore di tipo 1 )

Potenza di un test = è la probabilità che un campione casuale

determini il rifiuto di un ipotesi nulla falsa. ( + alta potenza, + basso

la probabilità di rifiuto dell’ipotesi nulla falsa. )

Distribuzione binomiale = fornisce la

Legge dei grandi distribuzione di probabilità di numero di

numeri : successi in un numero fisso di prove

Più è grande una indipendenti, quando la probabilità di

dimensione successo è uguale in ogni prova.

campionaria, più ( sostituisce la distribuzione nulla nella

precisa sarà la stima verifica delle ipotesi, in un test binomiale )

eﬀettuata. Errore standard delle proporzioni =

quando la stima campionaria è

verosimilmente vicina alla proporzione della popolazione

Test di bontà di adattamento = quando questo modello riesca

bene a rappresentare la realtà dei dati raccolti.

Modello proporzionale = un

modello probabilistico semplice nel

quale la frequenza con cui si Assunzioni test del X 2

verificano i diversi eventi è Campione casuale

proporzionale al numero di volte che Nessuna delle categorie deve

essi hanno la possibilità di verificarsi. presentare una frequenza attesa

minore di 1

Non più del 20% delle categorie

Test del X = confronta i dati di

2 deve avere frequenza attese

frequenza osservata e le frequenze minori di 5

previste da un modello casuale che rappresenta l’ipotesi nulla.

( essa si valuta come se fosse la statistica test della V delle I )

Grado di libertà = specifica quale distribuzione, in una famiglia di

distribuzioni, deve essere utilizzata come distribuzione nulla.

Distribuzione dell’X = ha un andamento noto, basandosi sulla

forma del chi quadrato. ( vedere appunti )

Valore critico = il valore di una statistica test che identifica il

confine di una specifica area nella coda della distribuzione

assumendo vera l’ipotesi nulla, caratterizzante il valore del livello di

significatività ( 0,05 ) da vedere nella tabella A. ( vedere appunti )

Distribuzione di poisson = descrive il numero di successi in

intervalli spaziali e temporali quando i successi si verificano

indipendentemente l’uno dall’altro e con quale probabilità in ogni

punto del tempo e dello spazio. ( dispersione casuale, e non

raggruppata o dispersa )

Tabelle di contingenza = evidenziano la possibile correlazione tra

due o più variabili categoriche, esplicativa e risposta.

Odds ratio = misura l’entità dell’associazione tra due variabili

categoriche quando ciascuna di esse ha soltanto due categorie.

( odd di successo di un gruppo / odd di successo dell’altro gruppo)

Odds di successo = è la probabilità di successo divisa per ogni

insuccesso.

La distribuzione normale ( o gaussiana ) = è una distribuzione di

probabilità continua che descrive una curva a campana. È una

buona approssimazione della distribuzione di frequenza di molte

variabili biologiche. Essa è simmetrica rispetto alla media ed ha una

singola moda. La densità di probabilità ha il suo valore massimo

esattamente in corrispondenza della media.

- L’aria compresa dalla curva e all’interno di una deviazione

standard è = al 68,5%

- L’aria compresa dalla curva di due deviazioni standard è = 95,4%

- L’aria compresa dalla curva di tre deviazioni standard è = 99,7%

- L’aria compresa dalla curva di 1,97 deviazioni standard è = 95%

istribuzione normale standardizzata

D = è una distribuzione

normale con media 0 e deviazione standard pari a 1

Z = una qualsiasi variabile con distribuzione normale standardizzata

Scarto normale standardizzato = indica quante deviazioni

standard un particolare valore dista dalla media.

Statistica T = in essa viene calcolato l’errore di campionamento

associato alla stima di O ( parametro della deviazione standard )

fatta con s ( deviazione standard )

Test T = confronta la media di un Assunzioni

Campione casuale

campione casuale estratto da una Distribuzione normale

popolazione normale con un valore della della popolazione

media della popolazione definito

dall’ipotesi nulla. Per il confronto delle

medie in 2 campioni

Confronto tra due medie = per il anche

confronto è più giusto avere un disegno Deviazione standard

per dati appaiati poiché ad ogni box si uguale nelle s medie.

attuano entrambi i trattamenti. La

dimensione campionaria è la diﬀerenza tra

la coppia delle misure.

Violazione delle assunzioni

Verifica dello scostamento dalla normalità =

- Metodo grafico : riportare in un istogramma i dati per ciascun gruppo

ed osservare l’andamento della distribuzione; realizzare un diagramma

del quantizzi normali; ogni osservazione nel campione viene

confrontata con il suo quantile atteso nella distribuzione normale

standadizzata. Se c’è un retta, è normale; se c’è una curva, è

asimmetrica.

- Test statistici : rispondere alla domanda di Ho “ i dati campionari da

una popolazione sono con distribuzione normale ? “

Test di Shapiro - Wilk

Quando avviene ci sono 3 soluzioni :

- Ignorare le violazioni = si può ignorare tali violazioni quando/

Anteprima

Vedrai una selezione di 4 pagine su 11

Anteprima di 4 pagg. su 11.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 4 pagg. su 11.
Scarica il documento per vederlo tutto.

Scarica

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher MarcoMorosetti di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Camerino o del prof Bracchetti Luca.

Appunti correlati