Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Esercizio sul quaderno 15/11/2021
Caso di una variabile quantitative e una variabile qualitativa con approccio asimmetrico (dipendenza) 2
Come si calcola e si interpreta (eta quadro).η
Zona geografica: qualitativa sconnessa; reddito quantitativa continua in classi.
Range delle classi va da 10000 a 30000. Le ampiezze sono di 5, e hanno uguale ampiezza.
Valore centrale della prima classe: 215+ 20 =17,5
Valore centrale della seconda classe: 220+ 25 =22,5
Valore centrale della terza classe: 225+ 30 =27,5
Valore centrale della quarta classe: 2
Dobbiamo capire se c’è associazione tra zona geografica e reddito. E possiamo utilizzare il Chi quadro e poi calcolare la V di Cramer.
La V di Cramer è uguale a 0.79. Vuol dire che c’è connessione, c’è associazione.
Ora se vogliamo capire se c’è invece una forte dipendenza del reddito rispetto alla zona geografica, la V di Cramer non va bene, perché misura la connessione.
(approcciosimmetrico).Abbiamo una variabile quantitativa Y ed una variabile X che può essere sia quantitativa che qualitativa. Se vogliamo studiare quanto il reddito Y dipende in media dalla zona geografica X bisogna fare lo studio sulla dipendenza in media.
Dobbiamo calcolare le medie condizionate e poi la media generale. Un'altra cosa da tener conto oltre alle medie è come i valori si distribuiscono attorno alla media (indici di variabilità). Se c'è poca variabilità, il fatto che M1 sia diverso da M2 parliamo di due distribuzioni differenti.
Il problema nasce quando abbiamo la stessa media M1=M2, c'è rischio di sovrapposizione. Per questo dobbiamo andare a calcolare quello che è l'indice che si basa non solo sulla media ma anche sulla variabilità delle distribuzioni. 2 si basa quindi sulla scomposizione della varianza.
Significa che possiamo scomporre la devianza o quindi anche la varianza in tre categorie.
La devianza totale si calcola come devianza all'interno di ogni gruppo + devianza tra le medie dei singoli gruppi e la media totale.
Su questa scomposizione si basa l'indice di eterogeneità η, che si calcola facendo:
(B)Dev2 = η )Dev(Y)
L'indice η varia tra 0 e 1. Nel caso in cui sia uguale a 0 c'è indipendenza in media, il che vuol dire che il reddito non dipende dalla zona geografica. Se è uguale a 1 c'è dipendenza perfetta.
Questo grafico si chiama diagramma a dispersione. Ipotizziamo che abbiamo riportato i valori del reddito. Abbiamo tre gruppi, e il punto rosso è la nostra media generale.
Se andiamo a calcolare la differenza di ogni punto (ogni gruppo) rispetto alla media, calcoliamo la devianza totale (dev(Y)).
Se consideriamo i tre gruppi e costruiamo la media dei tre gruppi, notiamo che si sono create 3 croci, le tre rispettive medie.
Possiamo calcolare la distanza di ogni osservazione all'interno di ogni gruppo rispetto alla propria media.
media (Dev(W)).
E poi possiamo calcolarci la distanza di ogni gruppo rispetto alla media generale.(Dev(B))
Quindi Dev (Y)Dev(W)Dev(B)Quindi
ESERCIZIO SUL QUADERNO18/11/2021
Caso di due variabili quantitative sia approccio simmetrico che asimmetrico
Approccio simmetrico (rho); approccio asimmetrico modello diρregressione
Approccio simmetrico
Abbiamo due variabili quantitative, se abbiamo informazioni a priori che permettono di stabilire quale è la variabile antecedente, e quella conseguente possiamo utilizzare il modello di regressione (es all’aumentare del reddito aumentano anche i consumi, quindi sappiamo che c’è una relazione antecedenza e conseguenza, freccia unidirezionale);
Se invece non sappiamo chi dipende da chi, e abbiamo quindi una freccia bidirezionale studiamo la correlazione.
Per capire se c’è una correlazione possiamo analizzare il diagramma di dispersione
Questo grafico ci indica che all’aumentare del punteggio del test aumenta il voto
In matematica. Tra test e voto può esserci correlazione. Che tipo di relazione possiamo avere tra due variabili? Possiamo avere una relazione positiva, negativa, non avere relazione, o un tipo particolare di relazione.
Il concetto di correlazione è legato a due concetti: concordanza e discordanza.
Concordanza: tra due variabili X e Y c'è concordanza se al crescere di X cresce anche Y, oppure al decrescere di X decresce anche Y (correlazione lineare positiva) es. all'aumentare degli anni di lavoro aumentano i punteggi.
Discordanza: all'aumentare di una variabile l'altra diminuisce (correlazione lineare negativa) es. all'aumentare degli anni di lavoro diminuiscono il numero di errori sul posto di lavoro.
Possiamo anche trovare che tra una variabile X e Y non c'è relazione, oppure possiamo trovare che se c'è un legame non è lineare.
La concordanza e la discordanza sono legate al calcolo della codevianza. Se prevalgono prodotti tra le variabili, allora c'è concordanza, altrimenti c'è discordanza.
scarti di segno uguale la covarianza sarà positiva,e vuol dire che è maggiore di 0, e che alla crescita di X cresce anche Y.
Se prevalgono prodotti tra scarti di segni differenti, vuol dire che sarà minore di 0 e alla crescita di X diminuirà Y.
Se è uguale a 0 non c’è correlazione.
La covarianza sarà
Se X e Y sono indipendenti la covarianza è uguale a 0. Se la covarianza è uguale a 0 vuol dire che c’è assenza di dipendenza lineare, ma non si esclude altro tipo di relazione.
Media test: 10,75 media voto: 6,87
Poi
Quindi la codevianza è positiva, quindi la relazione è positiva, c’è concordanza.
ρ è uguale al valore della covarianza fratto gli scarti quadratici medi.
Gli scarti quadratici medi
Il coefficiente di variazione varia tra 0 e 1, la V di Cramer varia tra 0 e 1, Chi quadro ha un minimo che è 0 e non ha un limite superiore, l’eta quadro varia tra 0 e 1.
ρ varia
tra due variabili X e Y può essere rappresentata da un modello di regressione. In generale, un modello di regressione può essere espresso come: Y = f(X) + ε Dove Y rappresenta la variabile dipendente, X rappresenta la variabile indipendente, f(X) rappresenta la funzione che lega le due variabili e ε rappresenta l'errore residuo. Il modello di regressione può essere utilizzato per stimare il valore di Y dato un valore di X. La funzione f(X) può essere lineare o non lineare, a seconda della relazione tra le variabili. Nel caso di una relazione lineare, il modello di regressione può essere espresso come: Y = β0 + β1X + ε Dove β0 e β1 sono i coefficienti di regressione che rappresentano l'intercetta e la pendenza della retta di regressione, rispettivamente. Il modello di regressione viene stimato utilizzando i dati osservati, e l'obiettivo è trovare i valori ottimali dei coefficienti di regressione che minimizzano l'errore residuo. Una volta stimato il modello di regressione, è possibile utilizzarlo per fare previsioni su nuovi dati e valutare l'importanza delle variabili indipendenti nella spiegazione della variabilità della variabile dipendente. In conclusione, il modello di regressione è uno strumento statistico utile per analizzare e comprendere le relazioni tra le variabili e per fare previsioni sulla base di dati osservati.lineare èRelazione statisticaEpsilon è tutto quello che resta fuori dal nostro studio, il residuo. Il residuo non lo sipuò studiare.Il problema è trovare la retta che passi attraverso questa nube di punti. E possiamotrovare diverse rette, ma quale è la migliore? La retta migliore è quella che passa pertutti i punti rendendo minime le distanze di tutti i punti.Segno di b dipende dalla covarianzaIl grafico ci dice che c'è concordanza, correlazione positivaScegliamo la funzione lineare y=a+bxScegliamo la retta che minimizza la somma dei quadrati degli scarti tra valori osservatie valori teoriciIl metodo dei minimi quadrati ci permette di ottenere soluzioni ottenendo a e bB dipende dalla codevianza se c'è concordanza tra le variabili sarà positivo e maggioredi 0; se c'è discordanza sarà minore di 0, se è nulla b sarà uguale a 0, non c'èrelazione.L'ultimo
Il passaggio è capire se la retta costruita è buona o no, la bontà di adattamento alla nube di punti. E lo si fa attraverso quello che viene chiamato coefficiente di determinazione lineare. Varia tra 0 e 1. 0 non si approssima bene, più va verso 1 più è buona.
Scomposizione della devianza
22/11/2021 (TERZO E ULTIMO BLOCCO)
Statistica inferenziale
Popolazione: quando analizziamo tutto il collettivo preso in esame
Campione: una parte del collettivo
Con la statistica descrittiva noi volevamo sintetizzare un fenomeno, prendevamo la popolazione di riferimento e attraverso tabelle, grafici, indici andavamo a sintetizzare il fenomeno e avevamo dei risultati.
Ora invece il procedimento cambia. L'obiettivo è stimare o verificare un'ipotesi, prendo un campione casuale e tramite strumenti che sono variabili casuali, metodi di stime e test d'ipotesi poi ottengo il risultato.
Censimento: indagine fatta su tutta la popolazione
Indagine campionaria:
Fatta su una parte del campione
Obbiettivo dell'inferenza è: una volta analizzato il campione estendere il risultato del campione all'intera popolazione.
Partendo dalla popolazione, prendiamo un campione su questo campione svolgo le mie analisi. L'inferenza sta nel fatto che dal risultato che abbiamo trovato nel campione lo estendiamo all'intera popolazione.
Due processi: processo deduttivo che parte dalla popolazione per arrivare a ottenere il campione. Entra in gioco la teoria della probabilità.
Processo induttivo: entra in gioco l'inferenza statistica, perché dal campione dobbiamo risalire alla popolazione.
Es. Per evitare tutte queste problematiche, sottoponiamo a tampone solo una parte della popolazione, il nostro campione. Su questo campione stimiamo la percentuale di asintomatici ma con un certo grado di incertezza.
Come costruiamo il campione incide sul risultato, incide anche quante persone valutiamo, più persone analizziamo
più c’è affidabilità.La statistica inferenziale è l’insieme di teorie e tecniche che consentono diestendere i risultati ottenuti sul campione su tutta la popolazione con uncerto grado di incertezza.
Come quantificare il grado di incertezza? Quantificare il grado di incertezzasignifica affidare ai risultati una probabilità.
Probabilità
La vita quotidiana è piena di situazioni che generano incertezza nelle scelte da fare (lapioggia, chi vince una gara…)
I concetti di base della probabilità sono:prova (i) esperimento soggetto a incertezza; evento uno dei possibili esitidella prova (E); probabilità numero