Anteprima
Vedrai una selezione di 13 pagine su 57
Riassunto esame Analisi dei dati, Prof. Rosato Rosalba, libro consigliato Analisi dei dati. Tecniche multivariate per la ricerca psicologica e sociale, 2° ed, LED (capitoli 2, 3), C. Barbaranelli  Pag. 1 Riassunto esame Analisi dei dati, Prof. Rosato Rosalba, libro consigliato Analisi dei dati. Tecniche multivariate per la ricerca psicologica e sociale, 2° ed, LED (capitoli 2, 3), C. Barbaranelli  Pag. 2
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Riassunto esame Analisi dei dati, Prof. Rosato Rosalba, libro consigliato Analisi dei dati. Tecniche multivariate per la ricerca psicologica e sociale, 2° ed, LED (capitoli 2, 3), C. Barbaranelli  Pag. 6
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Riassunto esame Analisi dei dati, Prof. Rosato Rosalba, libro consigliato Analisi dei dati. Tecniche multivariate per la ricerca psicologica e sociale, 2° ed, LED (capitoli 2, 3), C. Barbaranelli  Pag. 11
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Riassunto esame Analisi dei dati, Prof. Rosato Rosalba, libro consigliato Analisi dei dati. Tecniche multivariate per la ricerca psicologica e sociale, 2° ed, LED (capitoli 2, 3), C. Barbaranelli  Pag. 16
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Riassunto esame Analisi dei dati, Prof. Rosato Rosalba, libro consigliato Analisi dei dati. Tecniche multivariate per la ricerca psicologica e sociale, 2° ed, LED (capitoli 2, 3), C. Barbaranelli  Pag. 21
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Riassunto esame Analisi dei dati, Prof. Rosato Rosalba, libro consigliato Analisi dei dati. Tecniche multivariate per la ricerca psicologica e sociale, 2° ed, LED (capitoli 2, 3), C. Barbaranelli  Pag. 26
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Riassunto esame Analisi dei dati, Prof. Rosato Rosalba, libro consigliato Analisi dei dati. Tecniche multivariate per la ricerca psicologica e sociale, 2° ed, LED (capitoli 2, 3), C. Barbaranelli  Pag. 31
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Riassunto esame Analisi dei dati, Prof. Rosato Rosalba, libro consigliato Analisi dei dati. Tecniche multivariate per la ricerca psicologica e sociale, 2° ed, LED (capitoli 2, 3), C. Barbaranelli  Pag. 36
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Riassunto esame Analisi dei dati, Prof. Rosato Rosalba, libro consigliato Analisi dei dati. Tecniche multivariate per la ricerca psicologica e sociale, 2° ed, LED (capitoli 2, 3), C. Barbaranelli  Pag. 41
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Riassunto esame Analisi dei dati, Prof. Rosato Rosalba, libro consigliato Analisi dei dati. Tecniche multivariate per la ricerca psicologica e sociale, 2° ed, LED (capitoli 2, 3), C. Barbaranelli  Pag. 46
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Riassunto esame Analisi dei dati, Prof. Rosato Rosalba, libro consigliato Analisi dei dati. Tecniche multivariate per la ricerca psicologica e sociale, 2° ed, LED (capitoli 2, 3), C. Barbaranelli  Pag. 51
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Riassunto esame Analisi dei dati, Prof. Rosato Rosalba, libro consigliato Analisi dei dati. Tecniche multivariate per la ricerca psicologica e sociale, 2° ed, LED (capitoli 2, 3), C. Barbaranelli  Pag. 56
1 su 57
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Il modello di regressione e la previsione media

Quando facciamo un modello di regressione cerchiamo attraverso l'equazione della retta di riprodurre il valore della variabile dipendente per ogni soggetto. Questa previsione è una previsione media, perché tiene in considerazione i valori di tutti i soggetti!

Data l'equazione della retta quindi io faccio una previsione in media della variabile dipendente in funzione della variabile indipendente.

Il valore di a è un valore di Ŷi riprodotto se x=0! Quindi se noi nella equazione della retta poniamo b=0, vediamo che Ŷi=a!!

Quindi a, coefficiente intercetta, non è un coefficiente di relazione ma è una costante, una misura di livello perché dipende dall'unità di misura della variabile dipendente. Ne consegue che se io cambio unità di misura nella mia variabile dipendente, ad esempio aggiungendo una costante, ecco che la mia intercetta cambia!

Quindi l'intercetta è un parametro della retta che è una costante quindi.

Rappresenta il valore medio della variabile dipendente quando la variabile indipendente assume valore 0!

L'intercetta è un parametro invariante di scala, quindi varia se cambio la scala dell'unità di misura.

Il coefficiente b esprime la relazione tra le due variabili indipendenti, ed è il coefficiente di regressione lineare.

Se volessimo rappresentare b graficamente, ecco che questo coefficiente angolare, è il coefficiente che esprime la FORZA della relazione tra le due variabili, ed indica quindi di quanto cambia in media il valore della variabile dipendente se io mi sposto di una unità di misura sulla variabile indipendente. Detto in altre parole mi dice per ogni variazione unitaria della variabile indipendente x qual è l'entità della relazione che esiste sulla variabile dipendente.

Proviamo a rappresentarlo sul piano cartesiano per due diversi valori della variabile x (x=0; x=1).

b rappresenta il delta sulla variabile indipendente. Per ogni variazione unitaria di x, cosa succede sulla variabile dipendente? Quindi il coefficiente che misura la relazione tra la variabile dipendente e la variabile indipendente è il coefficiente b, che è espresso in termini di unità di misura della variabile dipendente, perché mi dice di quanto varia in media la variabile dipendente per ogni variazione unitaria della variabile indipendente. Il coefficiente è sempre lo stesso, è costante! Ma come si calcolano questi due coefficienti? Abbiamo detto che quando consideriamo l'intercetta, noi valutiamo il valore della intercetta come il valore medio della variabile dipendente quando la variabile indipendente vale 0. Quando rappresentiamo una nuvola di punti attraverso una retta, la retta di regressione è quella che viene scelta per essere la retta che meglio interpola la nuvola di punti! Affinché questa retta sia la migliore.

Interpolazione di tale nuvola di punti, sicuramente questa deve passare per il baricentro della distribuzione, ovvero per il valore medio di x e y. Io quindi posso prevedere il valore medio di y in funzione di quello che è il valore medio di x.

Il valore dell'intercetta è pari al valore medio di y quando io faccio assumere alla variabile indipendente il valore 0! Per rappresentare questo valore, lo calcoliamo come uno scarto tra il valore medio della variabile indipendente rispetto al valore medio della variabile dipendente quando x=0.

Quindi, io parto dall'equazione della retta e rappresento il valore medio della variabile dipendente quando la variabile indipendente vale 0. Se io manipolo un po' l'equazione ecco che posso calcolare a come uno scarto tra il valore della media della variabile indipendente, e il valore della y quando x=0.

a è lo scarto tra la media complessiva della variabile - b per xmedio, dove b per xmedio è la pendenza della retta.

ovvero il passaggio che io ho tra il valore medio della variabile dipendente e il valore medio della variabile indipendente quando x=0. Quindi si calcola come il valore medio di y meno il valore riprodotto sulla retta, per il valore di x medio. OK non ho capito. Per calcolare poi il coefficiente di regressione b, questo dipende dalla forza della relazione tra le due variabili, quindi se queste sono tanto correlate la retta avrà una pendenza maggiore, mentre l'inclinazione più vicina allo 0 si ha quando le due variabili sono poco correlate. Il coefficiente angolare può essere calcolato a partire dalla relazione lineare tra x e y, quindi dalla covarianza! La covarianza però è una misura simmetrica, mentre noi abbiamo imposto un verso nella relazione! Vogliamo vedere come varia y per ogni variazione unitaria di x. Per ogni variazione unitaria di x vuol dire che io devo rapportare la misura di covarianza alla variabilità della variabile indipendente.

[tengo ferma quindi la variabilità della variabileindipendente.]

Il coefficiente angolare b è dato dal rapporto tra la COV(xy) / S2(x).

A questo punto semplifico 1/N-1, quindi uso la codevianza di x e y e la devianza di x!

Il massimo del coefficiente di regressione è = 1!

Regressione semplice - parliamo di semplice quando mettiamo in relazione una variabileindipendente e una variabile dipendente

Regressione multipla - parliamo di regressione multipla quando abbiamo due o piùvariabili indipendenti che ci aiutano a predire il comportamento della variabile dipendente.

diagramma di dispersione

Il è molto utile perchè ci permette di rappresentaregraficamente la relazione tra due variabili.

Quando facciamo un modello di regressione lineare e usiamo l’equazione della retta perstimare la relazione che esiste tra V.D. V.I. assumiamo una relazione di questo tipo:

In A il coefficiente angolare avrà un segno positivo, perchè all’aumentare

di x aumenta anche y, mentre in B abbiamo un coefficiente angolare con segno negativo, perché all'aumentare della x diminuisce la y. Quando abbiamo una retta di questo tipo: ci fa presupporre che non esiste relazione lineare tra le due variabili, perché per ogni variazione di x io non ho un pattern di variazione su y che rimane sempre uguale, le due variabili non sono tra loro correlate!

Le altre rappresentazioni grafiche ci danno un'idea su una relazione che non può più essere rappresentata attraverso l'equazione della retta! Richiedono funzioni con parametri diversi. Possiamo fare un modello di regressione lineare solo quando la relazione è lineare!

Scopo della regressione lineare: La regressione si fa per cercare di comprendere gli effetti di una o più variabili indipendenti sulla variabile dipendente, quindi con uno scopo esplicativo per capire se effettivamente una variabile influenza o modifica l'altra. La regressione si fa anche

con scopo predittivo, per individuare una combinazione lineare di variabili indipendenti per predire il valore assunto dalla variabile dipendente. Questo perché se io identifico questo tipo di relazione, la conoscenza dei pattern di covariate mi dà la possibilità di avere già una informazione su quello che avviene sulla mia variabile dipendente. Modello teorico della regressione L'equazione della retta può essere scritta così: L'uso delle lettere greche è motivato dal fatto che in questo caso ci si riferisce alla retta di regressione nella popolazione, quindi abbiamo α, che è il coefficiente a dell'intercetta, e abbiamo β che è b. Se tutti i punti cadessero esattamente sulla retta la previsione sarebbe perfetta, non avremmo dispersione. Ma se tutti i punti cadessero su questa retta vuol dire che conoscere il valore della variabile indipendente coincide esattamente con il conoscere il valore della variabile dipendente - non cisarebbe residuo tra i valori di x e y! Ma quando noi usiamo i dati campionari per stimare il modello di regressione lineare, dobbiamo tenere conto anche della presenza di un errore. Quindi il modello sarà questo:

Su questo termine erratico vengono fatte una serie di assunzioni, che sono le stesse fatte sulla variabile dipendente.

RIVEDIAMO QUELLO CHE ABBIAMO VISTO PRIMA.

Torniamo quindi ai coefficienti della retta di regressione, che sono a e b.

Per rappresentarli bisogna partire dal loro significato:

  • a = intercetta, che è un valore condizionale della variabile dipendente che dipende da un determinato valore della VD. Infatti, l'intercetta è il valore atteso della VD quando x=0.
  • b = coefficiente angolare, questo ci permette di valutare la pendenza della retta e di vedere per ogni variazione unitaria della VI, cosa succede sulla VD.

Quale metodo viene usato per stimare i parametri della retta? Il metodo è il metodo dei minimi quadrati.

Data una nuvola di punti,

posso far passare tantissime rette! Come scelgo la retta che meglio interpola la nuvola di punti? Uso questo metodo che dice: per ogni valore osservato della VI vengono scelti quei valori di alfa e beta che minimizzano la somma degli scarti al quadrato tra il valore osservato della variabile dipendente, e il valore che viene previsto usando i parametri della retta. Il metodo quindi trova diversi valori di alfa e beta e sceglie quelle stime che rendono minime le somme dei quadrati tra Yi [=valore osservato di VD] e Ŷi [=valore stimato di VD]. RICORDA - quando parliamo di valori predetti parliamo di MEDIE!! Perché è una previsione in media. Se io usassi semplicemente la somma degli scarti tra valore osservato e valore stimato sarebbe come fare la somma degli scarti da una media, che per definizione è sempre 0. Per questo eleviamo gli scarti alla seconda. Il coefficiente di regressione e l'intercetta sono espressi nell'unità di misura della

variabiledipendente e indipendente. Talvolta quindi, soprattutto se vogliamo usare più VI, può diventare difficile interpretare il valore del coefficiente angolare [che Ricorda - esprime la relazione tra la Vd e la VI nell'unità di misura delle due variabili, perché mi dice quando cambia in media y per ogni variazione unitaria di x]! Quindi se io voglio confrontare due coeff. angolari per due VI misurate su scale diverse, non posso confrontarli direttamente, perché risentono dell'unità di misura delle variabili! Per questo, per esprimere la relazione su una scala immediatamente comprensibile si sceglie di lavorare con variabili standardizzate! Quando vogliamo variabili standardizzate, togliamo da quella variabile l'effetto della media e della deviazione standard. Produciamo numeri adimensionali. Quindi, il coefficiente angolare che viene calcolato lavorando sulle variabili standardizzate peso beta viene chiamato, che è un indice

adimensionale che esprime il grado di relazione

Dettagli
Publisher
A.A. 2021-2022
57 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Alessia_c_ di informazioni apprese con la frequenza delle lezioni di Analisi dei dati e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Rosato Rosalba.