vuoi
o PayPal
tutte le volte che vuoi
VARIABILI IN UN GRAFICO E OSSERVARNE L'ANDAMENTO
1) Mettere in evidenza la relazione esistente tra le due variabili
2) STABILIRE IL TIPO DI RELAZIONE
Una relazione xy può infatti rispondere a diversi modelli di proporzionalità (lineare, quadratica, cubica, ...)
LINEARE
3) STABILIRE IL GRADO DI TALE RELAZIONE
La relazione infatti può possedere diverse intensità. A rappresentare l'intensità c'è il COEFFICIENTE DI CORRELAZIONE (lineare in questo caso)
Per misurare la correlazione, bisogna stabilire il grado in cui x e y CO-VARIANO, bisogna quindi calcolare la COVARIANZA di x e y, una devianza comune, in quanto scompare il quadrato perché trovano spazio gli scarti dei valori di x dalla media e gli scarti dei corrispettivi valori y dalla media, dividendo il tutto per N (uguale per entrambi).
y n ∑ ( xi - Mx)( yi - My)
i=1 = cov xy N
Questo valore può essere negativo, positivo, o essere uguale a 0. (Se x e y coincidono si)
torna praticamente ad una sola incognita, e si torna a calcolare la varianza) Questo valore però non è facilmente comprensibile, in quanto è espresso nelle stesse unità di misura dei dati, bisogna quindi standardizzarlo. cov xy = cov xy / s * s Si standardizza (come nel caso della gaussiana) dividendo per la deviazione standard, di entrambe le variabili in questo caso. Questo risultato viene chiamato COEFFICIENTE DI CORRELAZIONE LINEARE DI BRAVAIS-PEARSON e viene indicato con la lettera r. REGRESSIONE LINEARE SEMPLICE Permette di investigare l'associazione lineare tra due o più variabili continue, per cui non solo si potrà stabilire la loro correlazione, ma anche predire il valore di una dato il valore dell'altra, avremo quindi una VARIABILE INDIPENDENTE E UNA DIPENDENTE, in una relazione causa-effetto. Per fare ciò abbiamo bisogno di TROVARE LA RETTA CHE MEGLIO POSSA PASSARE TRA I DATI = RETTA DI REGRESSIONE (best-fit line). (x = indip,y = dip) = α + βXi i βα (o ) = intercetta, ovvero punto in cui la retta attraversa l'asse delle y (per il quale cioè si aspetta un valore della x nulla) e per il quale Y = αβ = coefficiente di regressione, il grado della variazione della y al variare della x. Siccome molto spesso non si può venire a conoscenza di parametri della popolazione, la STATISTICA CAMPIONARIA sostituisce (come sempre) le lettere greche a quelle latine. α = a + bY Xi i coefficiente di regressione beta. Per il calcolo del si utilizza il METODO DEI MINIMI QUADRATI: la retta che rende minima la variabilità totale dei dati osservati e la retta stessa (retta dei minimi quadrati), la somma degli scarti teorici e gli scarti osservati. Σ ( )(Yi-My)Xi-Mx Covarianza Covarianza i=1 xy xy = b = n Devianza Varianza Σ x x2( Xi-Mx)i=17 -ba=M My x Se la relazione è forte, troveremo che la Y ricavata dalla X coinciderà con la Y osservata, altrimenti la.La relazione tra le due variabili sarà debole.
INFERENZA STATISTICA: procedimento mediante il quale si inducono le caratteristiche di una popolazione dall'osservazione di una parte di essa (il campione). (dedurre, argomentare, desumere)
LA PROBABILITÀ
Sulla probabilità poggia tutta la statistica inferenziale. Per probabilità si intende il rapporto tra il numero dei casi favorevoli all'evento ed il numero dei casi ugualmente possibili.
k = numero dei casi favorevoli all'evento a / N = numero dei casi possibili
k = P(a) / N
Esistono diverse definizioni di probabilità in base alle impostazioni, troviamo una definizione:
- CLASSICA
- SOGGETTIVISTA
- FREQUENTISTA (approssimazione della probabilità con la frequenza relativa). La probabilità che si verifichi un evento infatti è uguale alla frequenza relativa con cui l'evento si verifica in un numero di prove (identiche) sufficientemente grande.
0 ≤ P ≤ 1
con lim P = P(A) ∈ un A
iriscontrate numero di prove tendentea ∞ → ∞ LEGGE DEI GRANDI NUMERI: all'aumentare del numero delle ripetizioni dell'esperimento, la probabilità definita dalle frequenze relative dell'evento tende ad avvicinarsi alla probabilità effettiva dell'evento.
Anche l'EPIDEMIOLOGIA sfrutta un disegno probabilistico per inferire statisticamente sulla popolazione (inferire = dedurre, argomentare).
IPOTESI STATISTICA: supposizione circa un parametro di popolazione (molto usate in ambito medico)
EVENTI INCOMPATIBILI: se non possono accadere contemporaneamente (A ∩ B) = P(A) + P(B) nella stessa prova (se un bambino nasce maschio non può nascere femmina)
EVENTI QUALSIASI: P(CHE SI VERIFICHI A o B) = P(A) ∪ P(B) - P(A ∩ B)
P(CHE SI VERICICHINO A e B) = P(A) ∩ P(B)
EVENTI INDIPENDENTI: se il verificarsi di uno non influenza il verificarsi dell'altro P(B) = P(A) * P(A ∩ B)
EVENTI DIPENDENTI: considerando due eventi A e B, P(A|B) rappresenta la probabilità condizionata di A intersezione B, B ∙ P(A∪B).
DISTRIBUZIONE DI PROBABILITÀ: insieme delle probabilità associate ai risultati di una prova.
TEOREMA DI BAYES: consente di calcolare le probabilità delle cause che avrebbero potuto produrre un effetto, dato l'effetto.
DISTRIBUZIONI TEORICHE DI PROBABILITÀ: le distribuzioni teoriche più note sono:
- DISTRIBUZIONE NORMALE: se la variabile è di tipo quantitativo continuo.
- DISTRIBUZIONE BINOMIALE: si applica nel caso di variabili casuali dicotomiche. Può assumere solo uno di due valori possibili, mutualmente esclusivi, indicati per semplicità con e P = p | q = 1-p (insuccesso).
- DISTRIBUZIONE DI POISSON: utilizzata come modello matematico per descrivere eventi rari.
- DISTRIBUZIONE χ²: distribuzione di valori al quadrato, continua. χ²(xi-μ)² = χ².
2σi=1Si basa sui v (GdL)= GRADI DI LIBERTA’: il numero di osservazioni liberedi variare, senza che abbianolimitazioni derivanti dal ritorno deiconti. Si calcola sottraendo ad n ivincoli che gli impediscono divariare. Solitamente GdL = (n-1)
La distribuzione non è simmetrica,è sempre positiva, e tende adassumere la forma della normale alcrescere dei GdL. Se aumenta lalibertà aumenta area della curva.
Per calcolare l’area sottesa algrafico, si utilizzèano delle tavolespeciali in cui le righe corrispondonoai valori dei GdL, le colonnecorrispondono ad areedi probabilità cumulateprefissate, incrociorappresenta valore delchi-quadrocorrispondente.
5) DISTRIBUZIONE T DI STUDENT: simile a normale, molto utile nello studiodi fenomeni casuali relativi a campioni piccoli (n<30). Anche qui sonopresenti i GdL, dati da n-1. E’ una curva simmetrica attorno a t=0, i cuivalori sono tabulati in funzione dei GdL. Le ipotesi possono essere monoo
bi-direzionali (a 1 o a 2 code).
IL CAMPIONAMENTO STATISTICO
POPOLAZIONE: insieme di tutti gli elementi cui si rivolge il ricercatore nell’indagine.
CAMPIONE: sottoinsieme degli elementi oggetto di indagine.
CAMPIONE RAPPRESENTATIVO: campione che possiede tutte le caratteristiche della popolazione da cui proviene. Non potrà mai essere perfettamente rappresentativo, ma campioni estratti CASUALMENTE ci permettono di dire che le differenze riscontrate sono dovute al caso.
1) POPOLAZIONE -> CAMPIONAMENTO(tecniche) -> CAMPIONE
2) RACCOLTA ED ELABORAZIONE DATI del campione I-> GENERALIZZAZIONE ->
3) INFERENZA STATISTICA
1) CAMPIONAMENTO CASUALE SEMPLICE: si effettua estraendo a caso da una popolazione, in modo che tutti gli elementi abbiano la stessa probabilità di essere estratti. Può essere CON REINSERIMENTO o SENZA REINSERIMENTO.
- VANTAGGI: semplice, errore campionamento facilmente misurabile
- SVANTAGGI: necessità di avere lista completa delle unità
- CAMPIONAMENTO SISTEMATICO: unità estratte ad "intervalli", in modo tale che la distanza tra esse sia costante. Bisogna calcolare un intervallo di campionamento, estrarre un numero casuale per iniziare e poi iniziare ad estrarre.
- CAMPIONAMENTO CASUALE STRATIFICATO: si esegue suddividendo la popolazione in sub-popolazioni omogenee e poi estraendo dalle sub-popolazioni.
- CAMPIONAMENTO A CLUSTER (grappolo): consiste nel selezionare un certo numero di gruppi mutualmente esclusivi, molto spesso su base spaziale. Nel cluster gli individui vengono selezionati mediante campionamento semplice. Questo campionamento aumenta la varianza (anche tra i vari cluster), per questo le stime sono meno precise.
VANTAGGI: facile da eseguire, anche senza liste esaustive della popolazione.
SVANTAGGI: a causa dell'aumento della variabilità, la numerosità del campione deve essere maggiore.
11 SPERIMENTAZIONE CLINICA RCT (randomized controlled trial):
RCT (Randomized Controlled Trial): studi sperimentali che permettono di valutare l'efficacia di un trattamento nella popolazione. Per trattamento si intende un qualsiasi tipo di intervento, anche un placebo o la sua completa assenza.
Trial: studio sperimentale che permette di verificare l'effetto di un trattamento (tenendo ben presente tutte le possibili variabili di significato prognostico) confrontandolo con l'effetto di un altro trattamento.
Controlled (controllato): prevede la divisione dei soggetti in due gruppi, uno (braccio sperimentale) che riceve il trattamento, ed un altro (braccio di controllo) che non riceve il trattamento o ne riceve uno diverso.
Randomized: prevede l'assegnazione rigorosamente casuale del trattamento ai soggetti. In questo modo si aumenta la probabilità che altre variabili non considerate si distribuiscano in maniera uniforme nel gruppo sperimentale e nel gruppo di controllo. In questo modo, qualsiasi differenza osservata tra i due gruppi potrà essere
attribuita al trattamento.
RANDOMIZZARE CAMPIONARE≠POPOLAZIONE E CAMPIONE: gli studi si effettuano generalmente su un campione, che non potrà mai essere perfettamente rappresentativo della popolazione, nell’A