Anteprima
Vedrai una selezione di 8 pagine su 32
Appunti e materiale Data Analysis Pag. 1 Appunti e materiale Data Analysis Pag. 2
Anteprima di 8 pagg. su 32.
Scarica il documento per vederlo tutto.
Appunti e materiale Data Analysis Pag. 6
Anteprima di 8 pagg. su 32.
Scarica il documento per vederlo tutto.
Appunti e materiale Data Analysis Pag. 11
Anteprima di 8 pagg. su 32.
Scarica il documento per vederlo tutto.
Appunti e materiale Data Analysis Pag. 16
Anteprima di 8 pagg. su 32.
Scarica il documento per vederlo tutto.
Appunti e materiale Data Analysis Pag. 21
Anteprima di 8 pagg. su 32.
Scarica il documento per vederlo tutto.
Appunti e materiale Data Analysis Pag. 26
Anteprima di 8 pagg. su 32.
Scarica il documento per vederlo tutto.
Appunti e materiale Data Analysis Pag. 31
1 su 32
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Analisi delle scelte universitarie in base al genere

S I M AM 46% 15% 8% 31% 100%F 64% 9% 18% 9% 100%tot 57% 11% 14% 17%

In questo caso, dato che la variabile genere si presume essere la causa delle scelte universitarie, utilizzeremo una distribuzione congiunta per riga rapportando ogni frequenza assoluta congiunta con il rispettivo totale marginale di riga.

La prima riga ci informa sul fatto che tra i maschi del nostro collettivo il 46% è iscritto ad un corso di scienze umane, il 15% a ingegneria, l'8% a medicina e il 31% ad altre facoltà.

La seconda riga ci informa sul fatto che tra le femmine del nostro collettivo il 64% è iscritto a scienze umane, il 9% a ingegneria (quindi sono meno dei maschi andando contro la stima fatta con le frequenze assolute congiunte), il 18% a medicina e il 9% ad altri corsi.

La terza riga ci informa sul fatto che, indipendentemente dal sesso, il 57% degli studenti del collettivo è iscritto ad un corso di laurea di scienze umane, l'11% a ingegneria, il 14% a medicina e il 17% a altre facoltà.

adaltre facoltà

Possiamo creare la stessa tabella ma condizionata per colonna

S I M A
M 30% 50% 20% 67% 37%
F 70% 50% 80% 33% 63%
Total 100% 100% 100% 100% 100%

La prima colonna ci permette di affermare che condizionatamente al corso di studi di scienze umane, abbiamo il 30% di studenti maschi e il 70% di studenti femmine e così via per le altre colonne.

L’ultima colonna ci informa che il campione è composto per il 37% da maschi e per il 63% da femmine

Se condizionatamente alla variabile X, la variabile Y non va incontro a modifiche possiamo affermare che le due variabili si trovano in perfetta indipendenza tra loro.

Le tabelle di contingenza sono degli strumenti descrittivi che non permettono di estendere i risultati alla popolazione. Per fare delle inferenze statistiche è necessario immaginare che le nostre osservazioni siano frutto di un processo di campionamento e porre ad analisi la

nostra H0 : X ꓕ Y

Quando due eventi si dicono indipendenti?

Due eventi si dicono indipendenti quando la probabilità che si verifichi l'evento A non modifica la probabilità del verificarsi dell'evento B.

P(B l A) = la probabilità di A condizionato a B consiste nella probabilità che si verifichi B in seguito al verificarsi di A. Quando due eventi sono indipendenti, P(BlA) = P(B).

La probabilità di un evento semplice è data dalla frequenza relativa.

P(X=X1) = ni/n (passo l'esame: si o no)

Xi Ni Fi

30 0.6

No 20 0.4

Tot 50 1

In questo caso ho una probabilità del 60% di passare l'esame!!!

Immaginiamo di introdurre una seconda variabile (genere)

Se il genere e l'esito dell'esame sono indipendenti, P(esito= si lgenere=M) = P(esito=si) la probabilità che l'esame vada bene condizionata al sesso maschile deve essere uguale alla probabilità che l'esame vada bene (il genere non influisce).

sull'andamento dell'esame)
SI NO TOT
M 42 28 70
F 18 12 30
TOT 60 40 100
Creiamo la distribuzione condizionata per riga
SI NO TOT
NOM 0.6 0.4 1
F 0.6 0.4 1
TOT 0.6 0.4
La probabilità di superare l'esame condizionata al genere non cambia, possiamo affermare che esito e genere sono tra loro indipendenti. Le distribuzioni condizionate ci permettono di individuare se due fenomeni sono indipendenti. Più ci discostiamo dalla perfetta indipendenza e più siamo propensi a cercare relazioni tra variabili. Tuttavia, la tabella si può discostare da tale indipendenza per fattori dovuti al caso. Possiamo quindi immaginare che n sia un campione di una popolazione generica e possiamo costruire un indice che prende il nome di Chi quadro (X^2). Immaginiamo diavere questi valori (frequenze osservate)
Si No Tot
M 40 20 60
F 30 20 50
Tot 70 40 110
Costruiamo la tabella delle frequenze teoriche
Si No Tot
M 38,18 21,82 60
F 31,82 18,18 50
Tot 70 40 110
Le frequenze teoriche rappresentano la perfetta indipendenza delle variabili. Queste frequenze non alterano le distribuzioni marginali, ma modificano solo la distribuzione congiunta tra le variabili simulando un modello di perfetta indipendenza. L'intersezione di 2 eventi P(A ∩ B) = P(A) X P(A|B) dato che P(A|B) = P(B), allora P(A ∩ B) = P(A) X P(B) P(ESITO:SI ∩ GENERE:M) = P(ESITO:SI) X P(GENERE:M) In termini di probabilità questo si esprime con (n.1)/n che moltiplica (n1.)/n = (n1. X n.1) / n^2 Se vogliamo trasformare la probabilità (frequenza relativa) in termini di frequenze devo moltiplicare x n (frequenza relativa in frequenza assoluta) formula della frequenza teorica = frequenze -> che mi aspetterei di trovare se ipotizzo che le due variabili sono perfettamente indipendenti. Il chi quadro.confronta la tabella con una tabella di perfettaindipendenza. Anche il Chi quadro presenta una sua distribuzione, e pertanto possiamo decidere se accettare o meno l'H0 facendo riferimento ai valori critici (α). Caratteristiche del X2: - Il campione deve essere sufficientemente grande. - Le frequenze attese dovrebbero essere almeno > 5 (con un 20% di possibile eccezione). - Nessuna frequenza attesa deve essere = 0 (in questo caso è possibile eliminare o accorpare alcune modalità). - Presenta un fattore di correzione (Yates) per tabelle 2X2. - Presenta un indice di effect size (V di Cramer) che può assumere valori tra 0 e 1 (un valore superiore a 0.3 è indice di una relazione abbastanza forte). V = √(X2/n(k-1)), dove k = min(r,c) e n(k-1) rappresenta il valore massimo di X2. Se abbiamo poche unità all'interno di una cella, possiamo raccogliere un numero maggiore di dati oppure usare il test esatto di Fisher. È un test che...calcola la probabilità di osservare una tabella come la nostra o più estrema, facendo riferimento ai totali marginali di riga e colonna. Se quella che abbiamo ottenuto è una configurazione abbastanza "anomala" possiamo affermare l'esistenza di un qualche tipo di relazione diversa da quella di indipendenza. In psicologia è possibile notare come spesso il numero delle osservazioni che otteniamo (per esempio la presenza o meno di alcuni sintomi prima e dopo un trattamento) è maggiore rispetto alla numerosità campionaria. Ciò è dovuto al fatto che ci troviamo di fronte ad osservazioni non indipendenti.
Before After Total
Yes 30 10 40
No 70 90 160
Total 100 100 200
In questo caso abbiamo ottenuto 200 osservazioni, ma il nostro campione è formato da 100 unità. Ciò è dovuto al fatto che le osservazioni al pre test e quelle al post test sono state effettuate sullo stesso campione. In questo caso non è possibile.

Utilizzare il test del chi quadro, ma si usa il test di McNemar

Questo test è simile al chi quadro, ma opera su una tabella relativa alle variazioni tra pre test e al post test

Before: yes Before: no
After: yes 5 5
After: no 25 65
Total 30 70

X^2=(IO12-O21I – 0.5)^2/(O12+021)

Alcune misure di associazione particolarmente utili nelle tabelle 2X2 sono il rapporto di quote (odd ratio) e il rischio relativo

Odd ratio= è una misura descrittiva che esprime un rapporto di probabilità una volta che ci siamo condizionati ad una variabile P(B1IA1)/P(B2IA1)

MANAGER CLERICAL
M 10 30
F 30 90

Si calcola attraverso i rapporti di probabilità: (n11/n12)/ (n21/n22)

Questa espressione ci indica il rapporto tra la probabilità di essere manager o impiegati se si è maschi, e la probabilità di essere manager o impiegate se si è femmine

L'odd ratio è una misura asimmetrica (non cambia se invertiamo righe e colonne) ed è indipendente

differenza si utilizza il test t di Student. Il test confronta la media della variabile Y tra i due gruppi definiti dalla variabile X. La formulazione dell'ipotesi nulla e alternativa è la seguente: H0: μ1 = μ2 H1: μ1 ≠ μ2 dove μ1 e μ2 sono le medie della variabile Y nei due gruppi definiti dalla variabile X. Per eseguire il test t di Student, si calcola la statistica del test t come: t = (x̄1 - x̄2) / √(s1^2/n1 + s2^2/n2) dove x̄1 e x̄2 sono le medie campionarie della variabile Y nei due gruppi, s1 e s2 sono le deviazioni standard campionarie della variabile Y nei due gruppi, n1 e n2 sono le dimensioni dei due gruppi. La statistica del test t segue una distribuzione t di Student con gradi di libertà dati da: df = n1 + n2 - 2 Si confronta quindi il valore della statistica del test t con il valore critico della distribuzione t di Student al livello di significatività scelto. Se il valore della statistica del test t è maggiore del valore critico, si rifiuta l'ipotesi nulla e si conclude che c'è una differenza significativa tra le medie della variabile Y nei due gruppi. Altrimenti, non si rifiuta l'ipotesi nulla e si conclude che non c'è una differenza significativa tra le medie della variabile Y nei due gruppi.

Relazione: si possono usare strumenti grafici come il boxplot categoriale o indici come il t-test per campioni indipendenti.

H0: μ1 = μ2 ; H1: μ1 ≠ μ2

Per questo t-test esistono due versioni:

  1. Student t-test: questo test opera la differenza tra le medie campionarie dei due campioni e le rapporta con una stima dell'errore standard di tale differenza. Per calcolare t = SE, l'errore standard si ricorre ad una stima del sigma della popolazione, dove w1 = N1-1 e w2 = N2-1. Attraverso questa stima del sigma possiamo calcolare l'errore standard della differenza (−1 −2) = √((1/N1) + (1/N2)). Confrontando il valore empirico del test con il livello di significatività possiamo verificare o smentire H0.

Questo test presenta 3 assunzioni fondamentali:

  1. Entrambi i gruppi devono distribuirsi normalmente. Per testare questa assunzione possiamo usare più strumenti.

Il plot è uno strumento grafico che confronta i percentili della distribuzione con quelli teorici e rappresenta questo rapporto graficamente con una retta. Se la distribuzione è normale, la retta si approssima ad una bisettrice (rettainclinata a 45°). Un altro strumento è il test di Shapiro-Wilk che assume come H0 la normalità.

Dettagli
Publisher
A.A. 2020-2021
32 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher sapedi di informazioni apprese con la frequenza delle lezioni di Data Analysis laboratory e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Palermo o del prof Ferrante Mauro.