Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
STATISTICA
- Disciplina che comprende tecniche adatte alla raccolta dei dati e alla loro elaborazione → consente di trarre da essi conclusioni.
- Fasi conduzione studio:
- Definizione quesito di interesse
- Identificazione disegno dello studio adatto
- Selezione campione x analisi
- Identificazione informazioni rilevanti
- Analisi statistica
- Presentazione e interpretazione dati
IDENTIFICAZIONE DISEGNO DELLO STUDIO ADATTO
- Studio osservazionale: è studiato il decorso naturale dei fenomeni. I cambiamenti o le differenze in una o più variabili sono studiati in relazione a cambiamenti o differenze in altre variabili senza l'intervento del ricercatore. Esposizione non è determinata dal ricercatore.
- Studio sperimentale: è condotto in condizioni controllate e implica la manipolazione di una o più variabili indipendenti (esposizione) per esterne determinare effetto su un'altra variabile indipendente (esito). Intervento ricercatore sull’esposizione.
- Possibile verificare se esiste associazione tra mutazione e esito ma non una relazione causale, → possono esserci confondenti.
SELEZIONE CAMPIONI DA UTILIZZARE X ANALISI
- Campione: sottogruppo popolazione originaria selezione casuale unità statistiche rappresentativo della popolazione.
STATISTICA:
analisi quantitativa dei fenomeni collettivi che hanno attitudine a variare allo scopo di descriverli attraverso strumenti grafici e indici e di individuare le leggi e i modelli che permettono di spiegarli e di prevederli.
- Descrittiva o inferenziale (inferire su caratteristiche popolazione)
DESCRITTIVA: insieme di tecniche e strumenti finalizzati a rappresentare in modo obiettivo un campione di dati relativi ad una popolazione di interesse. Forniscono sintesi di dati campione e costituiscono il punto di partenza per le successive analisi inferenziali.
- usa TABELLE DI FREQUENZA per capire quale
- GRAFICI
- INDICI STATISTICA
per usare definire tipi di dati che si vogliono descrivere
1) TABELLA DI FREQUENZA: rappresenta in modo ordinato le modalità che una variabile può assumere e il corrispondente numero di unità che nel campione assumono tali modalità.
- Ripetiamo per ogni modalità: CONTEGGI (FREQ. ASSOLUTE) FREQUENZE RELATIVE FREQUENZE RELATIVE PERCENTUALI FREQUENZE CUMULATE
FREQUENZA ASSOLUTA: n° di volte con cui si presenta una certa modalità della variabile rilevata in N osservazioni
FREQUENZA RELATIVA: n° di volte con cui si presenta una certa modalità della variabile, in rapporto al TOTALE, N delle osservazioni
- Freel = fracassoluta / N osservazioni
FREQUENZA RELATIVA %: frequenza relativa a 100 osservazioni
- Freel % = Freel relativo x 100
vanno in vantaggio rispetto alle frequenze assolute, di permetterci confrontare distribuzioni di frequenza basate su numeri differenti unità statistiche (N).
GRAFICO ⇒ A BARRE: mostra la frequenza assoluta e relativa A TORTA: ogni parte rappresenta la frequenza relativa
Quantile
Il quantile è quel valore di una variabile per quei dati sia ordinale o quantitativa che rispetto all'ordinamento non decrescentedelle osservazioni riesce preceduto da d. 100% osservazioni e seguito da (1-d) 100% osservazioni a meno di effetti dovuti alladiscretizzazione.
Quartile
Dividiamo la distribuzione dei dati in 4 parti uguali
Decile
Dividiamo la distribuzione dei dati in 10 parti di uguale F
Calcolo
Necessario ordinare valori in senso crescente dato dalla modalità che si trova nell'interosuccessivo a (m.a) se e m'intero, oppModalità che si trovano nelle posizioni(m.a) e (m.a)+1 se m.a è intero.
Moda
Valore della variabile che si presenta con la maggiorfrequenza nel campione
Come delta_2 ma classe precedente
Modalità = Limi + Delta_1/Delta_1 + Delta_2 * c
Estremo inferiore della classemodale
Ampiezza classi eccesso della fdella classe modalerispetto f della classesuccessiva
Ampi di variazione
Ampiezza assoluta tra i valori estremi delleosservazioni
Range interquartile
È dato dalla differenza tra il valore delquartile con livello d = 0,75 e d = 0,25. Indica che il 25% didelle osservazioni sono inferiori all'estremo inferiore del range e il 25% sono superiori all'estremo superiore.
Varianza campionaria
Somma dei quadrati degli scarti di semplici osservazioni dal valore medio divisa per il numeroosservazioni meno uno
s2 = ∑i=1M (Xi - ¯X)2/M-1
Gradi di libertà = 6
A1∩A2: evento intersezione di A1 e A2, insieme di eventi semplici che appartengono a entrambi gli eventi
A1−A2: evento differenza, comprende il sottoinsieme degli insiemi elementari che appartengono ad A1 ma non a A2
A1∩A2 = ∅: eventi incompatibili o mutuamente esclusivi che non possono verificarsi insieme
Teoremi:
- P(A1∪A2) = P(A1) + P(A2) − P(A1∩A2)teorema della probabilità totale
- P(A2|A1) = P(A1∩A2) / P(A1)probabilità condizionata: probabilità di osservare l'evento A2 dato che si è verificato evento A1
- P(A1∩A2) = P(A2|A1) ⋅ P(A1)= P(A1|A2) ⋅ P(A2)teorema della probabilità composta
- Se gli eventi A1 e A2 sono stocasticamente indipendenti allora P(A2|A1) = P(A2), dal teorema della probabilità composta viene che cond. necessaria e sufficiente perché A1 e A2 siano indipendenti è P(A1∩A2) = P(A1) ⋅ P(A2)
Da questo teorema discende il teorema di Bayes
P(A|B) = P(A) ⋅ P(B|A) / P(B)con P(B) > 0
Poiché la V.C. normale è definita da μ e σ esistono tante
distribuzioni quante sono le combinazioni dei possibili valori
di μ e σ (infinite), la distribuzione con μ e σ specifica
mentre = 0 e = 1 prende il nome di variabile normale standard
diretta (variabile normale tabulata).
Z = X - μ/σ ≈ N(0,1) X ≈ N(μ,σ2)
TEOREMA DEL LIMITE CENTRALE: la media di una distribuzione campionaria di medie è uguale alla media della popolazione da cui i campioni sono stati estratti; la deviazione standard di una distribuzione campionaria di medie è uguale alla deviazione standard della popolazione da cui i campioni sono stati estratti divisa per la radice quadrata della dimensione campionaria (errore standard). Se la variabile originale è distribuita in modo gaussiano nella popolazione, anche la distribuzione campionaria delle medie sarà gaussiana. Se la variabile non è distribuita in modo gaussiano nella popolazione, la distribuzione campionaria delle medie tenderà ad approssimare un andamento gaussiano all'aumentare della dimensione del campione.
ASSOCIAZIONE TRA VARIABILI CATEGORICHE: le due variabili non sono indipendenti, la presenza di una influenza la presenza dell'altra.
TEST CHI QUADRATO: test per verificare se due variabili categoriche (ad esempio: animali o mammiferi) sono associate. Verifica la bontà di adattamento se indipendenti p(xi|yi) = pi · pj
Oi,j: frequenza osservata dell'i-esima modalità della variabile x e della j-esima modalità di y
Ei,j: frequenza attesa
χ2 = ∑i=1 ∑j=1 ( (Oi,j - Ei,j)² / Ei,j )
• Statistica del test segue una distribuzione χ² → funzione di densità, asimmetrica, la forma della distribuzione dipende dai gradi di libertà → (n° righe - 1), (n° colonne - 1). Saremo portati a rifiutare l'ipotesi nulla se le frequenze osservate sono diverse da quelle tese → alti valori di χ² → test a una coda.