Anteprima
Vedrai una selezione di 17 pagine su 78
Statistica per la ricerca sociale Pag. 1 Statistica per la ricerca sociale Pag. 2
Anteprima di 17 pagg. su 78.
Scarica il documento per vederlo tutto.
Statistica per la ricerca sociale Pag. 6
Anteprima di 17 pagg. su 78.
Scarica il documento per vederlo tutto.
Statistica per la ricerca sociale Pag. 11
Anteprima di 17 pagg. su 78.
Scarica il documento per vederlo tutto.
Statistica per la ricerca sociale Pag. 16
Anteprima di 17 pagg. su 78.
Scarica il documento per vederlo tutto.
Statistica per la ricerca sociale Pag. 21
Anteprima di 17 pagg. su 78.
Scarica il documento per vederlo tutto.
Statistica per la ricerca sociale Pag. 26
Anteprima di 17 pagg. su 78.
Scarica il documento per vederlo tutto.
Statistica per la ricerca sociale Pag. 31
Anteprima di 17 pagg. su 78.
Scarica il documento per vederlo tutto.
Statistica per la ricerca sociale Pag. 36
Anteprima di 17 pagg. su 78.
Scarica il documento per vederlo tutto.
Statistica per la ricerca sociale Pag. 41
Anteprima di 17 pagg. su 78.
Scarica il documento per vederlo tutto.
Statistica per la ricerca sociale Pag. 46
Anteprima di 17 pagg. su 78.
Scarica il documento per vederlo tutto.
Statistica per la ricerca sociale Pag. 51
Anteprima di 17 pagg. su 78.
Scarica il documento per vederlo tutto.
Statistica per la ricerca sociale Pag. 56
Anteprima di 17 pagg. su 78.
Scarica il documento per vederlo tutto.
Statistica per la ricerca sociale Pag. 61
Anteprima di 17 pagg. su 78.
Scarica il documento per vederlo tutto.
Statistica per la ricerca sociale Pag. 66
Anteprima di 17 pagg. su 78.
Scarica il documento per vederlo tutto.
Statistica per la ricerca sociale Pag. 71
Anteprima di 17 pagg. su 78.
Scarica il documento per vederlo tutto.
Statistica per la ricerca sociale Pag. 76
1 su 78
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Esercizio sul quaderno 15/11/2021

Caso di una variabile quantitative e una variabile qualitativa con approccio asimmetrico (dipendenza) 2

Come si calcola e si interpreta (eta quadro).η

Zona geografica: qualitativa sconnessa; reddito quantitativa continua in classi.

Range delle classi va da 10000 a 30000. Le ampiezze sono di 5, e hanno uguale ampiezza.

Valore centrale della prima classe: 215+ 20 =17,5

Valore centrale della seconda classe: 220+ 25 =22,5

Valore centrale della terza classe: 225+ 30 =27,5

Valore centrale della quarta classe: 2

Dobbiamo capire se c’è associazione tra zona geografica e reddito. E possiamo utilizzare il Chi quadro e poi calcolare la V di Cramer.

La V di Cramer è uguale a 0.79. Vuol dire che c’è connessione, c’è associazione.

Ora se vogliamo capire se c’è invece una forte dipendenza del reddito rispetto alla zona geografica, la V di Cramer non va bene, perché misura la connessione.

(approcciosimmetrico).Abbiamo una variabile quantitativa Y ed una variabile X che può essere sia quantitativa che qualitativa. Se vogliamo studiare quanto il reddito Y dipende in media dalla zona geografica X bisogna fare lo studio sulla dipendenza in media.

Dobbiamo calcolare le medie condizionate e poi la media generale. Un'altra cosa da tener conto oltre alle medie è come i valori si distribuiscono attorno alla media (indici di variabilità). Se c'è poca variabilità, il fatto che M1 sia diverso da M2 parliamo di due distribuzioni differenti.

Il problema nasce quando abbiamo la stessa media M1=M2, c'è rischio di sovrapposizione. Per questo dobbiamo andare a calcolare quello che è l'indice che si basa non solo sulla media ma anche sulla variabilità delle distribuzioni. 2 si basa quindi sulla scomposizione della varianza.

Significa che possiamo scomporre la devianza o quindi anche la varianza in tre categorie.

La devianza totale si calcola come devianza all'interno di ogni gruppo + devianza tra le medie dei singoli gruppi e la media totale.

Su questa scomposizione si basa l'indice di eterogeneità η, che si calcola facendo:

(B)Dev2 = η )Dev(Y)

L'indice η varia tra 0 e 1. Nel caso in cui sia uguale a 0 c'è indipendenza in media, il che vuol dire che il reddito non dipende dalla zona geografica. Se è uguale a 1 c'è dipendenza perfetta.

Questo grafico si chiama diagramma a dispersione. Ipotizziamo che abbiamo riportato i valori del reddito. Abbiamo tre gruppi, e il punto rosso è la nostra media generale.

Se andiamo a calcolare la differenza di ogni punto (ogni gruppo) rispetto alla media, calcoliamo la devianza totale (dev(Y)).

Se consideriamo i tre gruppi e costruiamo la media dei tre gruppi, notiamo che si sono create 3 croci, le tre rispettive medie.

Possiamo calcolare la distanza di ogni osservazione all'interno di ogni gruppo rispetto alla propria media.

media (Dev(W)).

E poi possiamo calcolarci la distanza di ogni gruppo rispetto alla media generale.(Dev(B))

Quindi Dev (Y)Dev(W)Dev(B)Quindi

ESERCIZIO SUL QUADERNO18/11/2021

Caso di due variabili quantitative sia approccio simmetrico che asimmetrico

Approccio simmetrico (rho); approccio asimmetrico modello diρregressione

Approccio simmetrico

Abbiamo due variabili quantitative, se abbiamo informazioni a priori che permettono di stabilire quale è la variabile antecedente, e quella conseguente possiamo utilizzare il modello di regressione (es all’aumentare del reddito aumentano anche i consumi, quindi sappiamo che c’è una relazione antecedenza e conseguenza, freccia unidirezionale);

Se invece non sappiamo chi dipende da chi, e abbiamo quindi una freccia bidirezionale studiamo la correlazione.

Per capire se c’è una correlazione possiamo analizzare il diagramma di dispersione

Questo grafico ci indica che all’aumentare del punteggio del test aumenta il voto

In matematica. Tra test e voto può esserci correlazione. Che tipo di relazione possiamo avere tra due variabili? Possiamo avere una relazione positiva, negativa, non avere relazione, o un tipo particolare di relazione.

Il concetto di correlazione è legato a due concetti: concordanza e discordanza.

Concordanza: tra due variabili X e Y c'è concordanza se al crescere di X cresce anche Y, oppure al decrescere di X decresce anche Y (correlazione lineare positiva) es. all'aumentare degli anni di lavoro aumentano i punteggi.

Discordanza: all'aumentare di una variabile l'altra diminuisce (correlazione lineare negativa) es. all'aumentare degli anni di lavoro diminuiscono il numero di errori sul posto di lavoro.

Possiamo anche trovare che tra una variabile X e Y non c'è relazione, oppure possiamo trovare che se c'è un legame non è lineare.

La concordanza e la discordanza sono legate al calcolo della codevianza. Se prevalgono prodotti tra le variabili, allora c'è concordanza, altrimenti c'è discordanza.

scarti di segno uguale la covarianza sarà positiva,e vuol dire che è maggiore di 0, e che alla crescita di X cresce anche Y.

Se prevalgono prodotti tra scarti di segni differenti, vuol dire che sarà minore di 0 e alla crescita di X diminuirà Y.

Se è uguale a 0 non c’è correlazione.

La covarianza sarà

Se X e Y sono indipendenti la covarianza è uguale a 0. Se la covarianza è uguale a 0 vuol dire che c’è assenza di dipendenza lineare, ma non si esclude altro tipo di relazione.

Media test: 10,75 media voto: 6,87

Poi

Quindi la codevianza è positiva, quindi la relazione è positiva, c’è concordanza.

ρ è uguale al valore della covarianza fratto gli scarti quadratici medi.

Gli scarti quadratici medi

Il coefficiente di variazione varia tra 0 e 1, la V di Cramer varia tra 0 e 1, Chi quadro ha un minimo che è 0 e non ha un limite superiore, l’eta quadro varia tra 0 e 1.

ρ varia

tra due variabili X e Y può essere rappresentata da un modello di regressione. In generale, un modello di regressione può essere espresso come: Y = f(X) + ε Dove Y rappresenta la variabile dipendente, X rappresenta la variabile indipendente, f(X) rappresenta la funzione che lega le due variabili e ε rappresenta l'errore residuo. Il modello di regressione può essere utilizzato per stimare il valore di Y dato un valore di X. La funzione f(X) può essere lineare o non lineare, a seconda della relazione tra le variabili. Nel caso di una relazione lineare, il modello di regressione può essere espresso come: Y = β0 + β1X + ε Dove β0 e β1 sono i coefficienti di regressione che rappresentano l'intercetta e la pendenza della retta di regressione, rispettivamente. Il modello di regressione viene stimato utilizzando i dati osservati, e l'obiettivo è trovare i valori ottimali dei coefficienti di regressione che minimizzano l'errore residuo. Una volta stimato il modello di regressione, è possibile utilizzarlo per fare previsioni su nuovi dati e valutare l'importanza delle variabili indipendenti nella spiegazione della variabilità della variabile dipendente. In conclusione, il modello di regressione è uno strumento statistico utile per analizzare e comprendere le relazioni tra le variabili e per fare previsioni sulla base di dati osservati.

lineare èRelazione statisticaEpsilon è tutto quello che resta fuori dal nostro studio, il residuo. Il residuo non lo sipuò studiare.Il problema è trovare la retta che passi attraverso questa nube di punti. E possiamotrovare diverse rette, ma quale è la migliore? La retta migliore è quella che passa pertutti i punti rendendo minime le distanze di tutti i punti.Segno di b dipende dalla covarianzaIl grafico ci dice che c'è concordanza, correlazione positivaScegliamo la funzione lineare y=a+bxScegliamo la retta che minimizza la somma dei quadrati degli scarti tra valori osservatie valori teoriciIl metodo dei minimi quadrati ci permette di ottenere soluzioni ottenendo a e bB dipende dalla codevianza se c'è concordanza tra le variabili sarà positivo e maggioredi 0; se c'è discordanza sarà minore di 0, se è nulla b sarà uguale a 0, non c'èrelazione.L'ultimo

Il passaggio è capire se la retta costruita è buona o no, la bontà di adattamento alla nube di punti. E lo si fa attraverso quello che viene chiamato coefficiente di determinazione lineare. Varia tra 0 e 1. 0 non si approssima bene, più va verso 1 più è buona.

Scomposizione della devianza

22/11/2021 (TERZO E ULTIMO BLOCCO)

Statistica inferenziale

Popolazione: quando analizziamo tutto il collettivo preso in esame

Campione: una parte del collettivo

Con la statistica descrittiva noi volevamo sintetizzare un fenomeno, prendevamo la popolazione di riferimento e attraverso tabelle, grafici, indici andavamo a sintetizzare il fenomeno e avevamo dei risultati.

Ora invece il procedimento cambia. L'obiettivo è stimare o verificare un'ipotesi, prendo un campione casuale e tramite strumenti che sono variabili casuali, metodi di stime e test d'ipotesi poi ottengo il risultato.

Censimento: indagine fatta su tutta la popolazione

Indagine campionaria:

Fatta su una parte del campione

Obbiettivo dell'inferenza è: una volta analizzato il campione estendere il risultato del campione all'intera popolazione.

Partendo dalla popolazione, prendiamo un campione su questo campione svolgo le mie analisi. L'inferenza sta nel fatto che dal risultato che abbiamo trovato nel campione lo estendiamo all'intera popolazione.

Due processi: processo deduttivo che parte dalla popolazione per arrivare a ottenere il campione. Entra in gioco la teoria della probabilità.

Processo induttivo: entra in gioco l'inferenza statistica, perché dal campione dobbiamo risalire alla popolazione.

Es. Per evitare tutte queste problematiche, sottoponiamo a tampone solo una parte della popolazione, il nostro campione. Su questo campione stimiamo la percentuale di asintomatici ma con un certo grado di incertezza.

Come costruiamo il campione incide sul risultato, incide anche quante persone valutiamo, più persone analizziamo

più c’è affidabilità.La statistica inferenziale è l’insieme di teorie e tecniche che consentono diestendere i risultati ottenuti sul campione su tutta la popolazione con uncerto grado di incertezza.

Come quantificare il grado di incertezza? Quantificare il grado di incertezzasignifica affidare ai risultati una probabilità.

Probabilità

La vita quotidiana è piena di situazioni che generano incertezza nelle scelte da fare (lapioggia, chi vince una gara…)

I concetti di base della probabilità sono:prova (i) esperimento soggetto a incertezza; evento uno dei possibili esitidella prova (E); probabilità numero

Dettagli
Publisher
A.A. 2022-2023
78 pagine
1 download
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher rosscom di informazioni apprese con la frequenza delle lezioni di Statistica per la ricerca sociale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Napoli Federico II o del prof Cataldo Rosanna.