Estratto del documento

Psicometria

Campionamento

Campionamento = anziché prendere in considerazione tutta la popolazione cerco di utilizzare una procedura che mi permette di ottimizzare tempi e risorse e di ottenere risultati accurati. Piuttosto che intervistare 57745 studenti pensiamo di intervistarne 500. Il problema è come scegliere queste 500 persone; devo avere 500 persone che non sono diverse dalle altre, deve essere quindi un campione rappresentativo, ovvero ciò che deduco da questo campione è abbastanza generalizzabile anche al resto della popolazione di riferimento.

Una volta intervistate le 500 persone vedo che ci sono 272 femmine e 228 maschi (grafico a barre con barre alte tanto quanto la frequenza). La distribuzione dell’età presenta 331 individui con età compresa tra i 18-19 anni, 94 che hanno 20 anni, 55 con età compresa tra 21-25 anni, 9 tra i 26 e i 30 e 11 che hanno più di 30 anni. Distribuzione dell’istituto di provenienza, una grossa maggioranza che viene dal Liceo Scientifico, ecc. Queste sono delle rappresentazioni descrittive dei dati del nostro campione.

Se su 57545 studenti ne estraggo a caso 500 so che il numero di campioni possibili è ottenibile attraverso il coefficiente binomiale → e si legge 57545 su 500. Questa operazione si traduce in: si calcola con il fattoriale, viene fuori un numero molto grande quindi il nostro campione di 500 studenti è solo una delle possibili combinazioni su moltissimi altri possibili campioni.

Quindi il nostro campione di 500 persone è rappresentativo della sottopopolazione degli studenti di psicologia? No, perché può darsi che non ci sia nemmeno uno studente di psicologia in questi 500 ma può darsi che siano tutti di altre facoltà.

Cosa significa popolazione e campione

  • Popolazione = è l’insieme che comprende la totalità di determinati elementi o proprietà specifiche (es. studenti dell’Università di Padova). La popolazione ci fornisce delle informazioni che sono delle variabili (es. età, genere). La popolazione può essere finita (esiste un numero di individui specifico) o infinita (il campionamento è più facile mentre se la popolazione è piccola il campionamento è più problematico).
  • Campione = è una parte limitata e finita presa in esame indipendentemente dal fatto che la popolazione sia finita o infinita. Si caratterizza per la sua numerosità (= numero di elementi che compongono un campione). Come si estraggono i campioni dalla popolazione? Può essere casuale oppure gli individui possono essere scelti in base a certe caratteristiche. Un campione rappresentativo è un'immagine fedele della nostra popolazione. Un campione è casuale quando tutti gli elementi della popolazione hanno la stessa probabilità di essere inseriti nel campione. Il campionamento può avvenire con reinserimento (estraggo un elemento e poi lo rimetto dentro, quindi può darsi che nell’estrazione successiva ricapiti lo stesso elemento) o senza reinserimento (più frequente, prendo un elemento e non lo reinserisco nella popolazione).

Campionamento senza reinserimento

Ω= 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 (Supponiamo di voler estrarre da questi 10 numeri, 6 numeri a caso senza reinserimento)

> Omega<-1:10 # <- significa "assegnazione", ovvero ho creato un oggetto omega a cui inserisco degli elementi
> # 1:10 non è una divisione ma produce una sequenza di 10 numeri, chiamata vettore
> Omega[1] 1 2 3 4 5 6 7 8 9 10
> # [1] è un indicatore
> n<-6 # in questo modo creo un altro oggetto contenente il numero 6
> str(Omega) # str è l'abbreviazione di "struttura"
int [1:10] 1 2 3 4 5 6 7 8 9 10
> # "int" indica che Omega è una scatola di numeri interi da 1 a 10, e poi li elenca
> str(n)
num 6
> # la differenza è che n è un numero solo mentre Omega è un elenco di numeri
> Omega [1:5] # mostra solo i primi 5 numeri
[1] 1 2 3 4 5
> Omega [5] # mi dà il quinto elemento della sequenza
[1] 5
> # Adesso voglio campionare 6 elementi senza reinserimento
> sample(Omega, n)
[1] 4 9 5 7 1 3
> # "sample" è il comando per il campionamento e ci dà 6 elementi senza reinserimento
> sample(Omega, n)
[1] 9 1 8 10 4 5
> sample(Omega, n)
[1] 3 8 6 10 9 5
> # sono sempre diversi
> # Adesso voglio fare un campionamento con reinserimento
> help("sample")
> # ci dice come funziona il comando "sample"
> # l'istruzione "replace = FALSE" all'interno del comando "sample" significa che non deve reinserire, mentre se voglio il reinserimento scrivo "replace = TRUE"
> sample(Omega, 6, replace = TRUE)
[1] 8 5 10 10 4 2
> sample(Omega, 6, replace = TRUE)
[1] 5 10 8 9 7 9
> # con il reinserimento possono venire fuori due numeri uguali

Parametri e statistiche

  • Parametro → è una caratteristica della popolazione, che viene espressa con un certo valore, i parametri sono espressi con lettere greche (per esempio la µ indica la media del campione, è la varianza del campione). Solitamente i parametri sono dei valori incogniti che non sappiamo, mentre ciò che conosciamo sono le statistiche, ovvero i valori che calcoliamo sul campione.
  • Statistica → è una funzione associata a una caratteristica del campione, è una stima dei parametri della popolazione. Le statistiche sono espresse con lettere latine.

N.B. Per esempio, se voglio studiare la media dell’altezza della classe, questo è un parametro (media della popolazione), mentre se prendo a caso un certo numero di studenti all’interno della popolazione e calcolo l’altezza solo a loro, allora questa è una statistica, perché è un dato calcolato su un campione.

> rbinom() # la r sta per "random" ovvero casuale, quindi questo comando produce numeri casuali estraendo da una distribuzione di probabilità binomiale
> rnorm() # genera numeri estratti casualmente da una distribuzione di probabilità normale
> t() # distribuzione campionaria usata molto in psicologia, t di Student
> hist(rnorm(10)) 
> hist(rnorm(100)) 
> hist(rnorm(10000))
> # se campiono solo 10 soggetti non viene una forma a campana nell'istogramma, quindi se aumento n il campione verrà sempre più rappresentato con una campana
> rchisq() # sta per chi quadrato, genera numeri casuali nella distribuzione di chi quadrato, è una distribuzione che dipende da un parametro, come la normale che dipende dalla media e varianza

Se la nostra popolazione è “Omega” se estraggo dei campioni posso avere campioni molto simili ma posso averne anche di molto diversi (può essere molto piccolo e molto simile o molto piccolo e molto diverso, più il campione è numeroso più mi avvicino alla popolazione).

Quali proprietà possiamo trovare nel campione che possono darci informazioni sulla popolazione? Se prendo un campione, che tipo di informazioni mi servono per generalizzare sulla nostra popolazione? → esempio: vogliamo stimare la proporzione di soggetti iscritti alla Facoltà di Psicologia, il mio parametro incognito quindi è la proporzione di maschi. La nostra incognita la chiameremo “π” (uso la lettera greca perché è un parametro della popolazione). Supponiamo che nell’aula ci siano 30 studenti, di cui 5 maschi, quindi = 0.167, questa quindi è la proporzione di maschi nel campione di 30 studenti che ho considerato. Se cambia il campione ovviamente cambiano i risultati. La proporzione è sempre un valore compreso tra 0 e 1.

Venerdì 21 aprile

Il nostro scopo è stimare quanti maschi sono già iscritti a Psicologia, la proporzione è 0.167, immaginiamo che questa sia la proporzione vera. Se il valore del mio parametro è 0.167 cosa succede se campiono tante volte? Faremo una simulazione per capire come funziona il campionamento. Diverse fasi:

  • Prima di tutto dobbiamo descrivere le variabili che ci servono, ovvero: numerosità campionaria (n) e probabilità di avere un maschio (π = 0.167). Bisogna anche stabilire quante volte ripetere il campionamento;
  • Definire il ciclo di campionamento, ovvero estrarre un campione di n elementi, ovvero un insieme formato da M (maschi) e F (femmine), quindi la popolazione che sto studiando ha due manifestazioni, saranno fatte estrazioni con reinserimento. La probabilità di estrarre un maschio è Pr(M) = π, mentre la probabilità di estrarre una femmina è Pr(F) = 1 – π. In questo modo ho stabilito una distribuzione di probabilità.
  • Contare il numero di maschi e calcolare la proporzione, poi ripeto questo processo per p volte e alla fine avrò un certo numero di proporzioni, quindi avrò una distribuzione di valori di p (stime della proporzione).
  • Qual è la proprietà del mio stimatore (stima della proporzione), facciamo fare ad R la stima della proporzione, così capiamo quali sono le caratteristiche campionarie.

Campionamento di binomiale

> # Definiamo la probabilità di estrarre un maschio
> P = 5/30 # non possiamo scrivere il pi greco perché ha già un valore, quindi scrivo P per indicare il parametro della nostra popolazione
> # Adesso estraiamo con il comando "sample" un campione di 30 individui
> sample(c(0,1)) # La nostra popolazione sarebbe (M;F), ma per contarli più facilmente dopo associo il valore 1 ai maschi (M) e 0 alle femmine (F), così per fare la somma R conta semplicemente gli 1. Con il comando "c" creo un oggetto formato da due elementi, crea un vettore. Con questo comando quindi R campione questo vettore che va da 0 a 1
[1] 1 0
> sample(c(0,1),30)
Error in sample.int(length(x), size, replace, prob) : cannot take a sample larger than the population when 'replace = FALSE'
> # Metto 30 che è la numerosità della nostra popolazione. Mi dà errore perché gli sto chiedendo di campionare 30 da una popolazione di 2 senza reinserimento ('replace = FALSE'), che è impossibile perché, avendone due, non posso tirarne fuori 30, quindi gli devo dire che è con reinserimento
> sample(c(0,1),30, replace = TRUE)
[1] 1 1 0 1 0 1 0 0 1 0 1 0 1 1 0 1 1 0 0 0 1 1 0 0 0 0 0 1 1 0
> # Però sotto il campionamento ci deve essere una distribuzione di probabilità, perché per estrarre 0 e 1 il programma deve sapere qual è la probabilità di 0 e di 1. Ma lo ha fatto lo stesso, quindi vuol dire che lui in automatico ha una distribuzione di probabilità, quindi se non gli dico nulla assegna ai due elementi la stessa probabilità, quindi 0.50 e 0.50.
> # Facendo la somma di questo campione vengono fuori tutte cifre circa a metà di 30, quindi vuol dire che campiona metà 0 e metà 1. Così si crea una distribuzione di probabilità diversa rispetto a quella di nostro interesse, perché quella che interessa a noi ha probabilità diverse, ovvero ‘P = probabilità maschi’ e ‘1-P = probabilità femmine’
> sum(sample(c(0,1),30, replace = TRUE))
[1] 18
> sum(sample(c(0,1),30, replace = TRUE))
[1] 13
> sum(sample(c(0,1),30, replace = TRUE))
[1] 16
# Io voglio quindi che usi queste probabilità. Come faccio a dirglielo?
> sample(c(0,1),30, replace = TRUE, prob = c(1-P,P))
[1] 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
> # Sono quasi tutti zeri e gli 1 sono molto più rari
> # Questo risultato poi mi servirà, quindi lo metto dentro un oggetto che chiamo 'y', che conterrà il mio campione
> y=sample(c(0,1),30, replace = TRUE, prob = c(1-P,P))
> # Adesso devo contare la proporzione di maschi, quindi creiamo un altro oggetto che chiamiamo 'pm', che sta per ‘proporzione di maschi’
> pm=sum(y)/30 # sommo tutti i valori del campionamento, o guardo quanti 1 ci sono, ovvero 3, quindi 3/30 = 0.1 è la proporzione di maschi
[1] 0.1
> # Questo rappresenta la stima della proporzione vera della mia popolazione, ed è una stima perché l'ho calcolata su un campione solo. Questa operazione la faccio molte volte, perché i campioni possono variare. Quindi replico questo processo attraverso un determinato comando (simulazione Monte Carlo):
> replicate(2,sample(c(0,1),30, replace = TRUE, prob = c(1-P,P))) # Il comando 'replicate' significa 'ripeti' e vuole come prima informazione quante volte deve ripetere, per esempio ripeto 2 volte. Quindi questo comando significa che deve ripetere 2 volte l'operazione: 'campione di una popolazione fatta di 1 e di 0, di 30 elementi, con reinserimento e con probabilità P e 1-P', con questo comando mi produrrà 2 vettori da 30 elementi
[,1] [,2]
[1,] 1 0
[2,] 0 0
...
> # Produce una MATRICE di dati che ha 30 righe e 2 colonne
> # Adesso voglio replicare per un numero di volte sufficientemente grande, per esempio per 10000 volte
> Y=replicate(10000,sample(c(0,1),30, replace = TRUE, prob = c(1-P,P))) # In questo modo estrae 10000 campioni, in cui R chiama Y ‘large matrix’ formata da 300000 elementi
> str(Y)
num [1:30, 1:10000] 0 1 0 0 0 0 0 0 0 0 ...
> # 1:30 significa che è una matrice numerica con 30 righe, mentre 1:10000 significa che ha 10000 colonne
> # Adesso calcoliamo le proporzioni di ogni campione
> apply(Y,2,sum) # Questo comando significa che deve 'applicare' sulla matrice Y, poi gli devo dire di applicare per colonna, che si scrive '2', mentre per riga si scrive '1', l'operazione 'somma' ('sum’)
[1] 2 3 6 5 7 4 3 5 7 8 6 4 5 7 7 4 4 8 5 5 7 9 8 5 5 4
[27] 2 5 9 6 5 8 8 6 4 3 8 9 9 6 6 8 6 6 5 6 6 4 3 3 2 5
[53] 4 5 7 2 4 3 3 6 3 6 2 4 9 1 3 6 4 4 10 4 2 3 4 7 8 7
... [ reached getOption("max.print") -- omitted 9000 entries ]
> # Così mi produce un vettore di 10000 elementi che contengono ognuno la somma di ognuno, per ogni colonna. Queste somme devo dividerle tutte per 30
> apply(Y,2,sum)/30
[1] 0.06666667 0.10000000 0.20000000 0.16666667 0.23333333 0.13333333 0.10000000
[8] 0.16666667 0.23333333 0.26666667 0.20000000 0.13333333 0.16666667 0.23333333
[15] 0.23333333 0.13333333 0.13333333 0.26666667 0.16666667 0.16666667 0.23333333
... [ reached getOption("max.print") -- omitted 9000 entries ]
> # Questa si chiama DISTRIBUZIONE CAMPIONARIA
> # Tutti questi campioni devo metterli dentro un oggetto
> Pmaschi = apply(Y,2,sum)/30
> str(Pmaschi)
num [1:10000] 0.0667 0.1 0.2 0.1667 0.2333 ...
> # è un vettore numerico di 10000 elementi, se voglio vedere quanti maschi ci sono nel campione 170 faccio:
> Pmaschi[170]
[1] 0.3
> # Posso anche vedere i vari campioni, per esempio se voglio vedere il 200esimo campione faccio:
> Y [,200] # dato che Y è una MATRICE e non un VETTORE devo dargli sia la riga che la colonna, nelle righe non metto nulla (solo la virgola) per fargli capire che voglio solo gli elementi della colonna
[1] 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1 0 0
> # Questo è il campione che si trova nella 200esima colonna
> # Se invece voglio vedere il primo elemento del 300esimo campione scrivo così:
> Y [1,300]
[1] 0
> # Facciamo il grafico della proporzione di maschi
> # Per fare un grafico abbiamo bisogno di una tabella di frequenza
> barplot(table(Pmaschi)) 
> # Questa è una DISTRIBUZIONE BINOMIALE
> # Come leggiamo il grafico? La proporzione di maschi è un numero compreso tra 0 e 1, dato che sto campionando da una popolazione scelta da noi, ovvero la popolazione di maschi abbiamo scelto che è 0.167, il valore modale di questa distribuzione infatti è 0.167; quindi se potessi replicare la proporzione più probabile è proprio quella vera. Per esempio su 10000 volte non è mai successo che ci siano più del 50% dei maschi. Questa viene chiamata DISTRIBUZIONE CAMPIONARIA DELLA PROPORZIONE di maschi.

Solitamente però ne abbiamo solo uno di campione. Questo ci garantisce che se prendo a caso un campione il risultato più probabile è proprio quello vero. La probabilità che un campione abbia il valore vero è la più alta, infatti la barra più alta è quella intorno a 0.167.

Distribuzioni campionarie

Vedremo due distribuzioni campionarie: quella della media e quella della varianza. Supponiamo di avere una popolazione incognita Ω e su questa popolazione abbiamo un certo parametro incognito anch’esso, che indichiamo con la lettera θ (theta = qualunque parametro, ad esempio la media, percentile, deviazione standard, ecc.). Se indico x1, x2, xn (lettera latina, quindi indica dati) sto considerando un campione di osservazioni di numerosità n. Se prendo un oggetto, una funzione dei dati che chiamo t(x) = generica funzione dei dati, anche la media è una t(x), perché si calcola con la somma dei dati diviso n), questa statistica la uso per stimare il parametro θ.

Definizione → La distribuzione di tutti i possibili valori della statistica calcolata su tutti i campioni di dimensione n contenuti da Ω è la distribuzione campionaria di t(x).

Quindi se io ho una popolazione Ω da cui estraggo un campione di dimensione n, quanti sono i campioni che posso estrarre da Ω? Sono infiniti e se potessi calcolarli tutti e di ognuno calcolarne la media, otterrei infinite medie e queste infinite medie costituiscono la distribuzione campionaria della media.

Anteprima
Vedrai una selezione di 11 pagine su 49
Appunti esame di Psicometria, prof. Pastore, libro consigliato Analisi dei dati in psicologia, Pastore Pag. 1 Appunti esame di Psicometria, prof. Pastore, libro consigliato Analisi dei dati in psicologia, Pastore Pag. 2
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti esame di Psicometria, prof. Pastore, libro consigliato Analisi dei dati in psicologia, Pastore Pag. 6
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti esame di Psicometria, prof. Pastore, libro consigliato Analisi dei dati in psicologia, Pastore Pag. 11
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti esame di Psicometria, prof. Pastore, libro consigliato Analisi dei dati in psicologia, Pastore Pag. 16
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti esame di Psicometria, prof. Pastore, libro consigliato Analisi dei dati in psicologia, Pastore Pag. 21
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti esame di Psicometria, prof. Pastore, libro consigliato Analisi dei dati in psicologia, Pastore Pag. 26
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti esame di Psicometria, prof. Pastore, libro consigliato Analisi dei dati in psicologia, Pastore Pag. 31
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti esame di Psicometria, prof. Pastore, libro consigliato Analisi dei dati in psicologia, Pastore Pag. 36
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti esame di Psicometria, prof. Pastore, libro consigliato Analisi dei dati in psicologia, Pastore Pag. 41
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti esame di Psicometria, prof. Pastore, libro consigliato Analisi dei dati in psicologia, Pastore Pag. 46
1 su 49
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze storiche, filosofiche, pedagogiche e psicologiche M-PSI/03 Psicometria

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Saruzza.96 di informazioni apprese con la frequenza delle lezioni di Psicometria e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Padova o del prof Pastore Massimiliano.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community