Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Analisi delle scelte universitarie in base al genere
S I M AM 46% 15% 8% 31% 100%F 64% 9% 18% 9% 100%tot 57% 11% 14% 17%
In questo caso, dato che la variabile genere si presume essere la causa delle scelte universitarie, utilizzeremo una distribuzione congiunta per riga rapportando ogni frequenza assoluta congiunta con il rispettivo totale marginale di riga.
La prima riga ci informa sul fatto che tra i maschi del nostro collettivo il 46% è iscritto ad un corso di scienze umane, il 15% a ingegneria, l'8% a medicina e il 31% ad altre facoltà.
La seconda riga ci informa sul fatto che tra le femmine del nostro collettivo il 64% è iscritto a scienze umane, il 9% a ingegneria (quindi sono meno dei maschi andando contro la stima fatta con le frequenze assolute congiunte), il 18% a medicina e il 9% ad altri corsi.
La terza riga ci informa sul fatto che, indipendentemente dal sesso, il 57% degli studenti del collettivo è iscritto ad un corso di laurea di scienze umane, l'11% a ingegneria, il 14% a medicina e il 17% a altre facoltà.
adaltre facoltà
Possiamo creare la stessa tabella ma condizionata per colonna
S | I | M | A | ||
---|---|---|---|---|---|
M | 30% | 50% | 20% | 67% | 37% |
F | 70% | 50% | 80% | 33% | 63% |
Total | 100% | 100% | 100% | 100% | 100% |
La prima colonna ci permette di affermare che condizionatamente al corso di studi di scienze umane, abbiamo il 30% di studenti maschi e il 70% di studenti femmine e così via per le altre colonne.
L’ultima colonna ci informa che il campione è composto per il 37% da maschi e per il 63% da femmine
Se condizionatamente alla variabile X, la variabile Y non va incontro a modifiche possiamo affermare che le due variabili si trovano in perfetta indipendenza tra loro.
Le tabelle di contingenza sono degli strumenti descrittivi che non permettono di estendere i risultati alla popolazione. Per fare delle inferenze statistiche è necessario immaginare che le nostre osservazioni siano frutto di un processo di campionamento e porre ad analisi la
nostra H0 : X ꓕ Y
Quando due eventi si dicono indipendenti?
Due eventi si dicono indipendenti quando la probabilità che si verifichi l'evento A non modifica la probabilità del verificarsi dell'evento B.
P(B l A) = la probabilità di A condizionato a B consiste nella probabilità che si verifichi B in seguito al verificarsi di A. Quando due eventi sono indipendenti, P(BlA) = P(B).
La probabilità di un evento semplice è data dalla frequenza relativa.
P(X=X1) = ni/n (passo l'esame: si o no)
Xi Ni Fi
30 0.6
No 20 0.4
Tot 50 1
In questo caso ho una probabilità del 60% di passare l'esame!!!
Immaginiamo di introdurre una seconda variabile (genere)
Se il genere e l'esito dell'esame sono indipendenti, P(esito= si lgenere=M) = P(esito=si) la probabilità che l'esame vada bene condizionata al sesso maschile deve essere uguale alla probabilità che l'esame vada bene (il genere non influisce).
sull'andamento dell'esame)SI | NO | TOT | |
---|---|---|---|
M | 42 | 28 | 70 |
F | 18 | 12 | 30 |
TOT | 60 | 40 | 100 |
SI | NO | TOT | |
---|---|---|---|
NOM | 0.6 | 0.4 | 1 |
F | 0.6 | 0.4 | 1 |
TOT | 0.6 | 0.4 |
Si | No | Tot | |
---|---|---|---|
M | 40 | 20 | 60 |
F | 30 | 20 | 50 |
Tot | 70 | 40 | 110 |
Si | No | Tot | |
---|---|---|---|
M | 38,18 | 21,82 | 60 |
F | 31,82 | 18,18 | 50 |
Tot | 70 | 40 | 110 |
Before | After | Total | |
---|---|---|---|
Yes | 30 | 10 | 40 |
No | 70 | 90 | 160 |
Total | 100 | 100 | 200 |
Utilizzare il test del chi quadro, ma si usa il test di McNemar
Questo test è simile al chi quadro, ma opera su una tabella relativa alle variazioni tra pre test e al post test
Before: yes | Before: no | |
---|---|---|
After: yes | 5 | 5 |
After: no | 25 | 65 |
Total | 30 | 70 |
X^2=(IO12-O21I – 0.5)^2/(O12+021)
Alcune misure di associazione particolarmente utili nelle tabelle 2X2 sono il rapporto di quote (odd ratio) e il rischio relativo
Odd ratio= è una misura descrittiva che esprime un rapporto di probabilità una volta che ci siamo condizionati ad una variabile P(B1IA1)/P(B2IA1)
MANAGER | CLERICAL | |
---|---|---|
M | 10 | 30 |
F | 30 | 90 |
Si calcola attraverso i rapporti di probabilità: (n11/n12)/ (n21/n22)
Questa espressione ci indica il rapporto tra la probabilità di essere manager o impiegati se si è maschi, e la probabilità di essere manager o impiegate se si è femmine
L'odd ratio è una misura asimmetrica (non cambia se invertiamo righe e colonne) ed è indipendente
differenza si utilizza il test t di Student. Il test confronta la media della variabile Y tra i due gruppi definiti dalla variabile X. La formulazione dell'ipotesi nulla e alternativa è la seguente: H0: μ1 = μ2 H1: μ1 ≠ μ2 dove μ1 e μ2 sono le medie della variabile Y nei due gruppi definiti dalla variabile X. Per eseguire il test t di Student, si calcola la statistica del test t come: t = (x̄1 - x̄2) / √(s1^2/n1 + s2^2/n2) dove x̄1 e x̄2 sono le medie campionarie della variabile Y nei due gruppi, s1 e s2 sono le deviazioni standard campionarie della variabile Y nei due gruppi, n1 e n2 sono le dimensioni dei due gruppi. La statistica del test t segue una distribuzione t di Student con gradi di libertà dati da: df = n1 + n2 - 2 Si confronta quindi il valore della statistica del test t con il valore critico della distribuzione t di Student al livello di significatività scelto. Se il valore della statistica del test t è maggiore del valore critico, si rifiuta l'ipotesi nulla e si conclude che c'è una differenza significativa tra le medie della variabile Y nei due gruppi. Altrimenti, non si rifiuta l'ipotesi nulla e si conclude che non c'è una differenza significativa tra le medie della variabile Y nei due gruppi.Relazione: si possono usare strumenti grafici come il boxplot categoriale o indici come il t-test per campioni indipendenti.
H0: μ1 = μ2 ; H1: μ1 ≠ μ2
Per questo t-test esistono due versioni:
- Student t-test: questo test opera la differenza tra le medie campionarie dei due campioni e le rapporta con una stima dell'errore standard di tale differenza. Per calcolare t = SE, l'errore standard si ricorre ad una stima del sigma della popolazione, dove w1 = N1-1 e w2 = N2-1. Attraverso questa stima del sigma possiamo calcolare l'errore standard della differenza (−1 −2) = √((1/N1) + (1/N2)). Confrontando il valore empirico del test con il livello di significatività possiamo verificare o smentire H0.
Questo test presenta 3 assunzioni fondamentali:
- Entrambi i gruppi devono distribuirsi normalmente. Per testare questa assunzione possiamo usare più strumenti.
Il plot è uno strumento grafico che confronta i percentili della distribuzione con quelli teorici e rappresenta questo rapporto graficamente con una retta. Se la distribuzione è normale, la retta si approssima ad una bisettrice (rettainclinata a 45°). Un altro strumento è il test di Shapiro-Wilk che assume come H0 la normalità.