Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

funzione di probabilità ad essi associata definisce la distribuzione campionaria

della statistica. Considerando la variabile somma campionaria U (U = X X X ),

1 + 2 + n

μ 2

il valore atteso di U è n e la varianza di U è pari a nσ . Standardizzando la

μ

variabile somma campionaria, si ottiene la variabile aleatoria Z = (U - ) : (σ√n),

u

con n = numerosità campionaria. La variabile Z costituisce il teorema del limite

U

centrale, secondo il quale la variabile aleatoria somma campionaria tende a

distribuirsi come una variabile aleatoria normale standardizzata all’aumentare di n,

ovvero all’aumentare della dimensione del campione imprescindibilmente dalla

modalità di distribuzione delle variabili X . Poiché ogni variabile aleatoria X di un

i . i

campione presenta una distribuzione identica a quella della popolazione di

riferimento, è facile dimostrare che il valore della media della distribuzione

μ μ

campionaria e che, di conseguenza, la varianza della media della

x

́ = 2

σ

2

σ

distribuzione campionaria = . Si dimostra che anche sulla distribuzione

x

́ n

della variabile aleatoria media si può applicare il teorema del limite centrale, infatti

all’aumentare della dimensione del campione aumenta la concentrazione del

μ 2

campione attorno al valore medio e diminuisce la sua variabilità σ di errore

standard = σ : √n. Con più precisione, si afferma che una variabile aleatoria

campionaria si distribuisce normalmente per n > 30 (con n < 30 si utilizza la

distribuzione in T). E` da precisare che la varianza campionaria di un campione

bernoulliano presenta delle anomalie rispetto al suo valore atteso, dovute ad una

2

distorsione inevitabile di calcolo matematico. Si definisce con S il valore della

2

varianza campionaria corretto, che corrisponde a [(n – 1) : n] ∙ σ . Nel caso di un

campionamento non bernoulliano in una popolazione finita, occorre moltiplicare i

valori ottenuti per il fattore di riduzione (N – n) : (N – 1)

Per identificare il valore incognito di certi parametri occorre effettuare la procedura di

stima, si definisce stimatore il metodo impiegato per eseguire una stima. Per essere

considerato tale, uno stimatore deve possedere le proprietà di correttezza (valore

atteso coincidente con il parametro verificato); efficienza (scelta dello stimatore con

il minimo valore di varianza nel confronto fra più stimatori); consistenza (valore di

varianza tendente a 0 all’aumentare della dimensione campionaria) e robustezza

(mancanza di sensibile alterazione a seguito della violazione di un assunto). Esistono

due tipi di metodi di stima:

• la stima puntuale si basa sulla stima probabilistica di riconoscere un certo

parametro, i suoi metodi sono:

⁻ il metodo dei minimi quadrati, ovvero la stima del parametro mediante quel

valore che rende minima la somma delle distanza al quadrato tra le osservazioni ed il

parametro stesso: ∑ [X – (m = 1 : n)]

(con i che va da 1 a n) i

⁻ il metodo di massima verosomiglianza seleziona le stime del parametro che con

θ

più probabilità sono congruenti con le osservazioni campionarie: L( ) = ∏ (con i da 1 a

θ

f(x ; ).

N) i

• la stima intervallare si basa sulla possibilità di riconoscere la probabilità di

ͷ

osservare un certo valore campionario in un intervallo calcolabile con e σ noti . Nel

caso di un campione grande o piccolo con media e varianza noti, si può calcolare

l’intervallo di confidenza entro il quale cade in maniera probabilistica la media della

popolazione relativa a quel campione, o viceversa. L’intervallo di confidenza è

x

́

contenuto in due limiti di fiducia: L = – (Z = valore critico standardizzato

1 c

α x

́

relativo alla probabilità ) ∙ (σ : √n); L = + Z ∙ (σ : √n). Nel caso di un

2 c

campione grande o piccolo con varianza ignota, è possibile calcolare l’intervallo di

confidenza sostituendo S a σ, con l’unica differenza che nel caso di n piccolo la

distribuzione teorica non è in punti Z ma in punti T di student.

Per essere certificate, le procedure di stima intervallare hanno bisogno di una verifica

delle ipotesi (ipotesi circa la forma; l’uguaglianza; la tendenza centrale o la

dispersione delle distribuzioni di una o più probabilità) che definisca, attraverso un

test statistico, la decisione probabilistica circa la verità o la falsità di una certa

affermazione sulla popolazione o sul campione da essa derivato. I test statistici sono

procedure formalizzate con le quali si sottopone a falsificazione un’ipotesi H 0

definita nulla, in modo da verificare l’attendibilità di un’ipotesi H definita

1

alternativa e non compatibile con l’ipotesi nulla. I due tipi di ipotesi presentano fra

loro mutua esclusività e l’ipotesi di ricerca può essere bidirezionale (considera la

differenza in termini assoluti) o monodirezionale (considera un termine di paragone

unicamente al negativo o al positivo). Data la natura probabilistica del test statistico,

in questo tipo di procedure è possibile commettere degli errori inversamente

proporzionali tra loro, i quali non possono essere controllati insieme. L’errore di tipo

α

1 o errore consiste nel rifiutare un’ipotesi nulla che in realtà è vera, la

α

probabilità di commettere un errore è uguale alla somma delle probabilità dei

risultati che fanno sì che l’ipotesi nulla venga rifiutata e che sono contenuti nella

β

regione di rifiuto. L’errore di tipo 1 o errore consiste nell’accettare un’ipotesi

β

nulla che in realtà è falsa. La potenza del test è uguale a (1 – errore ). Esistono

diversi metodi di verifica delle ipotesi.

• Nel caso si voglia effettuare un’ analisi statistica sulla media di una popolazione

conosciuta prendendo in esame un singolo campione, occorre svolgere un test

statistico di tipo parametrico, che in questo caso di definisce test della media su

un solo campione. Ponendo come ipotesi nulla il fatto che la media campionaria (

μ

x

́ ) possieda un valore uguale a quello della media della popolazione ), si

¿ 0

definiscono come regioni di rifiuto le aree della distribuzione normale della variabile

standardizzata che si trovano alla destra e alla sinistra di un certo grado di errore

standard. Una volta standardizzato il punteggio della media campionaria, si decide se

accettare o rifiutare l’ipotesi nulla in base al punto del grafico in cui cade quel

punteggio in punti Z.

• In caso di analisi su di una variabile dicotomica con distribuzione binomiale, il test

statistico binomiale da effettuare è di tipo non parametrico e la statistica dipende

dal numero di successi. Le regioni di rifiuto e non rifiuto si definiscono con la

somma cumulata o retrocumulata delle probabilità legate al diverso numero di

successi.

• Il test statistico del chi quadro per la bontà dell’adattamento è di tipo non

parametrico e si effettua con lo scopo di valutare se esistono differenze significative

tra le distribuzioni ottenute empiricamente e quelle attese. La regione di non rifiuto è

α −1 ¿

definita dall’area descritta dal valore probabilità di ( nelle tavole di

distribuzione chi quadrato. Il calcolo del chi quadro verifica la significatività della

2

differenza fra la distribuzione dell’ipotesi nulla e quella dell’ipotesi alternativa: X =

2

n n

̂

− ¿

k k

¿

¿ ; si decide se accettare o meno l’ipotesi nulla in base al punto in cui cade il

¿

k

∑ ¿

k=1

valore del chi quadrato calcolato.

STATISTICA BIVARIATA

Nei calcoli statistici può risultare necessario operare con confronti fra più variabili, al

fine di comprenderne lo stato di relazione. Date due variabili x e y, rilevate a

qualsiasi livello di scala, è possibile affermare che tra loro esiste una relazione se i

valori dell’una variano in modo sistematico al variare dei valori dell’altra. Le

relazioni causali fra due variabili possono essere di natura diretta; indiretta; spuria

(relazione non strettamente causale nelle quali i valori delle variabili confrontate

dipendono da una terza variabile; per valutare se una relazione è spuria o genuina è

opportuno calcolare la componente spuria i =r ∙r , data dal prodotto delle

xy xz yz

correlazioni r di Bravais e di Pearson delle variabili originarie x e y con la terza

variabile z, detta variabile di controllo; la relazione è considerata genuina se il

valore della componente spuria è più prossimo a 0 rispetto alla componente genuina

g = r -i . ); bidirezionale; non osservata e moderata (una terza variabile agisce

xy xy xy

direttamente sul processo di relazione presente fra le variabili confrontate). Le tabelle

di contingenza relative alla statistica bivariata consistono in una distribuzione

doppia di frequenza, nella quale si rappresentano le modalità con le quali si

distribuiscono i casi della variabile x all’interno di ciascuna modalità della variabile y

e viceversa. Ponendo con n il marginale di riga e con n il marginale di colonna di

i j

ogni variabile, ogni frequenza di cella rappresenta la frequenza congiunta di due

modalità (n ) e la sommatoria di tutte le frequenze di cella genera l’ampiezza N del

ij

campione. Il momento che coinvolge due o più variabili è detto momento misto. Si

ha indipendenza tra le variabili se ciascuna frequenza di cella è uguale alla relativa

frequenza di marginale. Le frequenze attese di ogni cella si calcolano moltiplicando

n ∙ n

j i

n

̂ =

fra loro i relativi marginali e dividendo per il totale: . Possiamo inoltre

ij N

affermare che due variabili (con almeno una cardinale) sono indipendenti in media,

se per ogni valore di x la media dei valori di y(cardinale) è costante. Gli operatori

nella statistica bivariata possono misurare la connessione (intensità della relazione

fra le variabili), la concordanza (direzione della relazione fra le variabili), la

determinazione (quota di variabilità riprodotta dalla relazione fra le variabili) e la

forma della relazione (linearità o non linearità della relazione fra le variabili). Nella

statistica bivariata le operazioni di calcolo e misurazione statistica e probabilistica

seguono lo stesso procedimento rispetto alla statistica monovariata, tuttavia, esistono

operatori particolari utilizzati unicamente al fine di stabilire le relazioni fra le

variabili.

• Il Chi quadrato nella statistica bivariata è un operatore di connessione, utile ad

2

osservare l’intensità della relazione fra frequenze attese e frequenze empiriche: X =

ij−̂

n

ij

n

¿

¿

2 α

. Il suo valore critico è definibile sulla base del livello di errore e dei

¿

¿

I J

∑ ∑

❑ ¿

i=1 j=1

gradi di libertà v = (I -1) ∙ (J -1). Un test sul Chi quadrato in statistiche bivariate può

fornire informazioni relative alla casualità dei due campioni in relazione al loro

rapporto ipotetico con le mediane delle variabili. Il valore del Chi quadro è

direttamente influenzato dalla numerosità campionaria (min = 0; max = N(I -1) o

N(J-1), si prende il valore più piccolo fra i due) per questo esiste una misura di

associazione derivata dal Chi quadro ed indipendente dalla numerosità campionaria:

2

X

2 2

Φ Φ

= . Il valore massimo di dipende dal numero di modalità delle variabili,

N

per questo si utilizza anche la statistica T di Tschuprov, la quale ha come valore

2

Φ

massimo 1: T = .

√ J

( )

−1 (I −1)

• L’operatore di concordanza K di Cohen si calcola per variabili categoriali con

uguale numero di modalità, che presentano una specifica affinità da un punto di vista

̂

θ

logico. Quest’operatore considera le frequenze di cella attese ( ) ed osservate (

θ ¿ unicamente poste sulla diagonale principale della tabella di contingenza, la

̂

θ− θ

quale rappresenta le modalità affini fra le due variabili. K = ed il valore

̂

1− θ

̂

θ

massimo di livello di accordo è 1 (min = - ). Per una eventuale verifica della

̂

1− θ K

significatività del valore di K, il suo punteggio standardizzato calcolato è z = =

0

σ K

θ ̂

1− ¿

¿

¿

N ¿ .

̂

θ

¿

¿

K

¿

• L’operatore di concordanza Q di Yule valuta la concordanza nel caso di due variabili

n n −n

11 22 12n 21

dicotomiche, Q = ed il suo valore varia da – 1 (max discordanza o

n n +n

11 22 12 n 21

associazione completa negativa) a + 1 (max concordanza o associazione completa

positiva), se Q = 0 le due varibili presentano completa indipendenza. Nel caso di

dicotomia tra modalità ordinate si può ricorrere al coefficiente di correlazione r =

phi

n n −n

11 22 12n Φ

21 . Il modulo di r è uguale a .

√ n ∙ n ∙ n ∙ n phi

j j i i

• L’operatore coefficiente di correlazione di Spearman o coefficiente di

correlazione per ranghi r , misura la concordanza tra due variabili espresse a livello

s 2

N y

(x − )

∑ i i

0r =1−6

di scala ordinale. , dove il numeratore rappresenta il quadrato

s 2

N N – 1)

(

i=1 r

della differenza fra i due ranghi per ogni modalità. Anche può variare da -1 a 1

s

1

1+ r .

ed in una normale standardizzata z=r∙log ; S

1−r √ n−3

z=

N

1 ∑ x x y y

( )

−́ ( − ́ )

• L’operatore di concordanza covarianza S = varia da

i i

N

xy i=1

-S Sx a + S Sy e rappresenta la media dei prodotti degli scarti dalla media di due

x y x

variabili cardinali. Per rendere il risultato di covarianza maggiormente confrontabile

S xy

si utilizza la correlazione r di Bravais e Pearson r = , che rappresenta la

│ S S │

xy x y

covarianza tra due variabili standardizzate entro i valori di associazione completa

negativa = - 1 e associazione completa positiva = +1. Il valore t di significatività

r √ N

( −2)

calcolato con v = n – 2 è t = ∙ .

√ 2

1−r

• La distribuzione campionaria differenza tra le medie standardizzata è normale per

x x

x ́ ́

́ = - eih

1 2

dove la distribuzione t di Student si considera con un valore medio minore o uguale a

30.

Nel caso si voglia calcolare un valore standardizzato calcolato per un test sulla

x x

( )

́ − ́ −(μ −μ )

1 2 1 2

differenza tra le medie di due variabili, z = .

S −S

́ ́

x1 x2

• Il test di Wilcoxon per campioni dipendenti è un tipo di test non parametrico ed è

volto a valutare se si presenta la stessa tendenza centrale in due popolazioni da cui

sono stati estratti due campioni fra loro dipendenti. In questo test si calcolano le

differenze fra tutti i valori di x ed y dello stesso caso e si dividono tali differenze in

i i

+ -

ranghi positivi T e negativi T . Il valore assoluto di T da confrontare con lo Z è il più

c

n(n+1)

T − 4

basso fra i due e si standardizza con: Z= .

√ n n+1 1)

( ) (2n+

24


ACQUISTATO

1 volte

PAGINE

17

PESO

386.64 KB

PUBBLICATO

10 mesi fa


DESCRIZIONE APPUNTO

Nel corso dei mesi in cui ho frequentato il corso di statistica ho integrato le lezioni e le studio delle dispense del prof con i dettagli basati sul libro "Statistica per la ricerca sociale". Queste 16 pagine di word sono utili per lo studio della statistica in psicologia a prescindere dal corso frequentato. Mi hanno permesso di passare l'esame con un bel 30 e lode e senza studi teorici aggiuntivi. Sei libero di trarne il massimo anche tu!


DETTAGLI
Esame: Statistica
Corso di laurea: Corso di laurea in scienze e tecniche psicologiche
SSD:
Docente: Bo Gianluca
Università: Torino - Unito
A.A.: 2018-2019

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher gerardo.qui di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Torino - Unito o del prof Bo Gianluca.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea in scienze e tecniche psicologiche

Riassunto esame Analisi dei Dati, prof. Ricolfi, libro consigliato Dispense Analisi dei dati, Ricolfi e Testa
Appunto
Riassunto esame Analisi dei Dati, prof. Ricolfi, libro consigliato Analisi dei dati, Ricolfi
Appunto