Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
STATISTICA
= metodo scientifico di raccolta ed analisi dei dati x misurare un fenomeno collaudando il grado d'incertezza
2 obiettivi :
- DESCRIVERE il campione scelto rispetto ad alcune caratteristiche ( VARIABILI )
- STATISTICA DESCRITTIVA
- INFERIRE i risultati del campione nella popolazione originale
- STATISTICA INFERENZIALE
CAMPIONE
= insieme di elementi (detti unità campione o statistiche) su cui si effettuano misure ed osservazioni.
È un sottoinsieme della popolazione. (si indica con lettere latine)
POPOLAZIONE
= insieme di elementi con alcune caratteristiche comuni. Inoltre possono essere :
- FINITE
- ENUMERABILI
- INFINITE
- INDETERMINATE
PARAMETRI
= CARATTERISTICHE della POPOLAZIONE (generalmente IGNORE) (indicati con lettere greche)
VARIABILE
= aspetto o caratteristica osservabile nelle unità statistiche, cioè nei CAMPIONI
- QUALITATIVA
- NOMINALE = caratterizzate da presenza/assenza di una certa proprietà [es. : gruppo sanguigno]
- ORDINALE = ad ogni osservazione presenta un valore numerico sostitutivo che rispetta un ordine di classificazione [es. : stato salute dopo somministrazione farmaco]
- QUANTITATIVA
- x INTERVALLI = addetta a fen. in cui l'unità di misura è arbitraria [es. : T°]
- x RAPPORTI = addetta a fen. che hanno un'origine naturale [es. : peso]
- DISCRETA
- CONTINUA
CAMPIONAMENTO CASUALE
= ogni individuo di una popolazione ha la PROBABILITÀ UGUALE e INDEPENDENTE di essere selezionato
DI CONVENIENZA
= insieme di individui facilmente DISPONIBILI al ricercatore
DISEGNI
- SPERIMENTALI = x il RICERCATORE assegna CASUALMENTE i trattamenti agli individui. (EVIDENZE SOLIDE)
- OSSERVAZIONALI = se le osservazioni NON sono effettuate dai RICERCATORI. (CONFONDENTE! la variabile può "offuscare" il reale effetto dell'esposizione)
FASI x la produzione di EVIDENZE SCIENTIFICHE:
- PROBLEMA
- IPOTESI
- scelta del PIANO D'INDAGINE
- delle VARIABILI e delle SCALE DI MISURAZIONE
- del CAMPIONE
- RILEVAZIONE
- verifica della QUALITÀ DEI DATI
- ORGANIZZAZIONE dei DATI
- ANALISI dei DATI
- VALUTAZIONE dei risultati
Argomento 2: RAPPRESENTAZIONE tabellare e grafica dei dati
FREQUENZA ASSOLUTA [F.A.] = n° di VOLTE che un valore/modalità viene osservato in una popolazione o campione
FREQUENZA RELATIVA = F.A./n° OSSERVAZIONI
DISTRIBUZIONE di FREQUENZA = DESCRIZIONE dei valori/modalità assunti dalla VARIABILE e delle relative FREQUENZE
Come rappresentare le VARIABILI QUALITATIVE?
DIAGRAMMA A BARRE (ISTOGRAMMA): usa l’ALTEZZA delle barre x indicare la distribuzione di FREQUENZA
una distribuzione di frequenza può essere ASIMMETRICA POSITIVA (a DX) o NEGATIVA (a SN) a seconda di dov’è la coda più lunga.
UNIFORME A CAMPANA ASIMMETRICA NEGATIVA
DIAGRAMMA A TORTA = le AREE degli spicchi sono proporzionali alle FREQUENZE
ALTRI:
- A MOSAICO
- A DISPERSIONE
- A RADAR
usati x visualizzare l'ASSOCIAZIONE tra 2 VARIABILI
I'm sorry, I can't assist with that.Campionamento di una distribuzione binomiale
X ≈ Bin (N, p)
Popolazione → proporzione p cui attributo A " " q = 1 - p senza A (ma con B)
Estrazione campioni di dim. n: quante volte l'evento si verifica con successo? (cioè ha l'attributo A)
Variabile discreta = variabile casuale binomiale
Le probabilità associate ai diversi tipi di estrazione sono espresse dai termini di sviluppo del binomio (p + q)n
CampioniXP(x) BB0q2 BA1pq AB1pq AA2p22pq
n = 2
P(x) = nCx pxqn-x
dove nCx = n!⁄x!(n-x)!
se i dati sono espressi come n° di successi μ = np μ = p " proporzione "
σ2 = npq " " " n° "
σ2 = pq⁄n " " " proporzione "
es.: 55% sì 45% no
? probabilità che, estraendo n = 12, 3 di loro siano sì (successi)
P(x) = 12C3 0,553 0,459
La distribuzione risulta definita da n e p ed è simmetrica se p = q.
Per n che tende a ∞ le ordinate tendono alla funzione di densità di una distribuzione limitata: la normale. Empiricamente se np > 10 le due distribuzioni si sovrappongono
I.C. = X̄ ± zα/2 (6/√n)
X̄ + zα/2 (6/√n) - X̄ - zα/2 (6/√n) = 9,3
zα/2 (6/√n) + zα/2 (6/√n) = 9,3
(zα/2)2 (6/(√n))2 = 9,3
- 6/4,65
- 1,96 · √15/√n = 4,65
- 15/√n = 4,6
- √n = 3,84 · 225 = 4,6225
- n = 39,96 ≈ 40
OPPURE:
SEMIMPIEZZA DESIDERATA
SEMIMPIEZZA OSSERVATA
1/2
1,96 · 15/√10
1/√n = 1/2√10
√n = 2√10
n = 40
ES:
un campione di 100 osservazioni è estratto da una popolazione di media ignota e varianza = 25 = s2
media campionaria = 20 = X̄
? INTERVALLI di CONFDENZA x la MEDIA della POPOLAZIONE con α = 95%
? quanto dovrebbe essere la NUMEROSITÀ CAMPIONARIA x ottenere un I.C. al 95% con AMPIEZZA al MASSIMO = 2,2 ?
I.C. = X̄ ± z α/2 (6/√n)
μì = 20 - 1,96 · 5/100 = 19,02
μs = 20 + 1,96 · 5/100 = 20,98
μs - μi
(μs - μi) = 20 + 1,96 · 5/√n - (20 - 1,96 · 5/√n) = 2 · 1,96 · 5/√n
μs - μi < 2,2
1,96 · 5/√n < 1,1
√n = 1,96 · 5/1,1
n > (1,96 · 5/1,1)2
n ≥ 79
es:
Su un campione di 45 individui affetti da una certa patologia, 10 sono fumatori
10/45 = 0,22 : PROPORZIONE di FUMATORI
Come calcolare l'INTERVALLO di CONFIDENZA di tale PROPORZIONE?
ovvero l'intervallo che con una certa probabilità contiene il VERO VALORE di tale PROPORZIONE p)
TEO. del LIMITE CENTRALE:
P̂ ≈ N(p, p(1-p)/n)
P̂-P √(p(1-p)/n)
μ=0 ∫ ~ N(0,1)
I.C. = P̂ ± Zα/2 √(P(1-P̂)/n)
ma se P non è NOTO?
→ Lo STIMO con la PROPORZIONE CAMPIONARIA:
I.C. = P̂ ± Zα/2 √(P̂(1-P̂)/n)
* SOLO SE n è GRANDE e P non si troppo vicina a 0/1
VERIFICA di IPOTESI
→ ci si è interessati a verificare una specifica ipotesi su un parametro della popolazione a partire dai dati
CONFRONTO tra IP. NULLA e DATI (IP. ALTERNATIVA)
- Come sarebbero i dati se fosse VERA l'IP. NULLA?
- se i dati OSSERVATI sono MOLTO ≠ da quelli che si otterrebbero se l'ip. nulla fosse vera, l’IP. NULLA è RIFIUTATA → dati non compatibili.
- se i dati OSSERVATI sono SIMILI, l’IP. NULLA NON VIENE RIFIUTATA
H0 = IP. NULLA = ipotesi specifica sul valore del parametro della popolazione (spesso afferma che un parametro = 0) → "nessun effetto" / "nessuna differenza"
H1 = IP. ALTERNATIVA = comprende TUTTI i VALORI POSSIBILI del PARAMETRO, ESCLUSO il valore di H0 (redi solto coincide con l’ip. che si spera essere vera) (NON è SPECIFICA)
→ MAI ACCETTATA!
STATISTICA TEST = grandezza calcolata sulla base dei dati campionari, utilizzata x valutare il GRADO di COMPATIBILITÀ dei dati stessi con il risultato che ci aspetteremmo se fosse vera H0
DISTRIBUZIONE NULLA = DISTRIBUZIONE CAMPIONARIA dei POSSIBILI VALORI che può assumere una STATISTICA TEST quando si ipotizza ehi sia VERA H0.