Estratto del documento

Analisi multivariata

Un modello statistico è una rappresentazione compatta ed efficiente dei dati raccolti per descrivere un fenomeno empirico, e quindi per descrivere la relazione tra due variabili. La media è il valore centrale di una distribuzione di dati. La bontà di un modello dipende dal suo errore di approssimazione, ovvero dalla sua varianza: più è piccola, più è buono il modello.

L'inferenza statistica ci consente di trarre delle conclusioni su una popolazione di riferimento, un campione. Per costruire un modello, però, dobbiamo sapere:

  • Che scopo ha il modello;
  • Che tipo di variabili abbiamo;
  • Che tipo di relazioni ci interessano;
  • Quali sono le unità di misura dei dati;
  • Come sono strutturati i dati.

Modello di regressione

La retta di regressione ha lo scopo di rappresentare la relazione lineare tra la variabile indipendente e quella dipendente. È la retta che meglio interpola tutti i punti dello scatter-plot. Per costruire una retta si utilizzano due coefficienti: y = a+b.

Tutti i punti del grafico che si sovrappongono alla retta corrispondono a quello che è il valore predetto; ma quasi sempre i punti hanno un certo margine di scostamento dalla retta. La a è il valore costante, o intercetta, ed è il punto dell'asse delle y in cui asse e retta si incrociano. In pratica l'intercetta ci dice qual è il valore atteso di y se abbiamo x uguale a zero. La b, invece, è il coefficiente di regressione (il coefficiente angolare), e ci indica il cambiamento atteso di y al variare di una unità di x.

In SPSS, la a è indicata alla prima riga nella seconda colonna, e la b alla seconda riga della stessa colonna (indicata con B). Dato che molto spesso le unità di misura sono incompatibili tra le variabili o molto complesse, solitamente si utilizza il coefficiente di regressione standardizzato, che si riscontra nella colonna "Beta" della regressione e che corrisponde al coefficiente che si otterrebbe operando una regressione tra le due stesse variabili ma standardizzate. Tale coefficiente ci permette di non conoscere l'unità di misura, e corrisponde al coefficiente di correlazione di Pearson. Esso varia da -1 a 1: più si avvicina a zero, più la correlazione tra le variabili è debole. Questo coefficiente standardizzato ci permette di capire di quante deviazioni standard varia la variabile dipendente al variare di una deviazione standard della variabile indipendente. Nella regressione tra variabili standardizzate non abbiamo intercetta, perché essa è sempre zero (in Beta, infatti, non è segnata la costante).

Nella tabella della regressione troviamo anche una colonna relativa al t test. Campionando una popolazione in cui la relazione tra le variabili sia zero (coefficiente pari a zero), otterremmo una distribuzione nota, chiamata t di Student. Questo test ci permette di capire se siamo stati solo "fortunati": se la significatività del valore del t test è inferiore a 0.05, allora l'effetto è significativo, e significa che non siamo stati fortunati ma che abbiamo individuato una relazione reale. Se, invece, il valore di significatività è superiore, allora l'effetto è frutto di un campionamento "fortunato". Per essere più sicuri, potremmo anche usare un valore di .01 (1% di probabilità di errore).

Questo vale per qualunque test statistico: se il valore è maggiore di .05 accettiamo l'ipotesi nulla (non c'è effetto), se il valore è minore, rifiutiamo l'ipotesi nulla e accettiamo quella alternativa (esiste l'effetto). Non tutte le rette di regressione hanno lo stesso potere predittivo, ovvero la stessa capacità di adattarsi ai dati osservati. La retta è molto rappresentativa se tutti i punti del grafico sono ad essa vicini, poco rappresentativa se i punti sono più dispersi; questo non cambia in base all'angolazione della retta, che potrebbe essere la stessa. Questa si chiama bontà di adattamento, misurabile attraverso l'errore di regressione. L'errore per ogni punteggio corrisponde alla distanza tra il valore predetto dalla retta e il valore osservato: se la retta prevede y pari a cinque per una certa x e il dato osservato è sette o tre (è indifferente sbagliare in più o in meno), ho un errore di regressione di due.

I valori di y, quindi, possono essere espressi come (valore predetto – valore osservato). Sommando tutte queste discrepanze, elevandole al quadrato e dividendole per n-1, ottengo la varianza, che chiameremo varianza di errore. La varianza minima è zero (corrispondenza perfetta), ma c'è sempre un errore che impedisce di raggiungerla. Più piccolo è l'errore, migliore sarà l'adattamento del modello. Senza usare la regressione, l'unica predizione possibile di Y è la sua media. Le deviazioni dalla media (varianza) non saremmo in grado di spiegarle. La retta del grafico sarebbe piatta, perché useremmo lo stesso valore di riferimento per ogni singolo caso. Se usiamo i dati di una variabile indipendente (che abbia un significato per quello che vogliamo misurare) e facciamo una regressione, otterremo una retta non piatta, ma con una certa angolazione, che si interpola meglio con i punti del grafico. L'errore della retta di regressione sarà quindi minore di quello compiuto utilizzando solo la media, e ci sarà quindi uno "scarto" tra i due errori.

Per capire quanto è il divario, compio una divisione tra la varianza di errore precedente (la varianza dalla media) e la varianza di errore ottenuta con la regressione. Se noi sottraiamo a tutta la varianza di Y il rapporto tra la varianza di errore ottenuta con la regressione e la varianza dalla media, otteniamo R2: la parte di varianza che non è di errore, ovvero la varianza che possiamo spiegare attraverso la regressione. Per capire quanto è forte la relazione, in SPSS, vado a vedere la tabella di "riepilogo del modello", in cui l'ipotesi nulla è che R sia zero. Se l'R quadrato è pari a .06, significa che noi, con il nostro modello, spieghiamo solo il 6% della varianza totale della variabile dipendente. Più alto è il valore, più spieghiamo la variabile, e quindi migliore è la bontà del nostro modello. Se il valore è basso, significa che la varianza della nostra variabile dipendente è per la maggior parte spiegata da altre variabili, diversa dalla nostra indipendente.

Regressione multipla

Nel caso in cui la variabile dipendente può essere spiegata da più variabili, parleremo di regressione multipla. Essa è rappresentabile tramite path diagram, uno schema in cui utilizziamo frecce unidirezionali per indicare l'influenza di una variabile indipendente su una dipendente, e frecce bidirezionali per indicare influenza reciproca. All'inizio dello studio, la direzione delle fecce è scelta da noi in maniera teorica o arbitraria, quindi non è detto che essa sia corretta.

Con la regressione multipla si considera l'effetto di più variabili indipendenti nello stesso contesto, ovvero contemporaneamente. È diverso dal fare più regressioni lineari, perché si considera l'effetto di altre variabili sulla dipendente. Si aggiungono quindi altri termini lineari alla retta di regressione; prima avevamo Y = a + bX, ora avremo Y = a + bX + bW. Il coefficiente di regressione multipla si considera come l'effetto diretto di una variabile indipendente su una dipendente al netto dell'effetto di altre variabili indipendenti, ovvero togliendo l'effetto che passa indirettamente per altre variabili indipendenti. Modificando X, infatti, osservo una modificazione a+bX in Y. Ma questa modificazione potrebbe essere dovuta anche al fatto che modificando X sono andato a modificare anche W, che a sua volta ha un effetto a+bW su Y.

Eliminare l'effetto delle altre variabili indipendenti significa parzializzare l'effetto di tali variabili, ovvero calcolare l'effetto di X su Y tenendo costanti tutte le altre variabili. In questo modo posso sapere qual è l'effetto "pulito" (diretto) di X su Y. Un sinonimo di parzializzare è co-variare. Se voglio verificare l'effetto di X su Y in tutti i soggetti di vent'anni di età, posso fare una regressione multipla, in cui vado a calcolare l'effetto di X su Y parzializzando l'effetto dell'età su Y (perché vado a tenere costante l'età).

Dal punto di vista geometrico non avremo più una retta, ma un piano di regressione, che avrà sull'asse Y la variabile dipendente, sull'asse X la prima variabile indipendente e sull'asse Z la seconda variabile indipendente. In questo caso, quindi, l'intercetta indica il valore atteso di Y nel caso in cui le variabili indipendenti abbiano entrambe valore zero. Anche con la regressione multipla, osservo l'effetto standardizzato di ogni variabile indipendente nella colonna “Beta”, e ad ogni valore è associato un valore di significatività. Ogni effetto riportato è considerato al netto delle altre variabili indipendenti. Nella tabella di riepilogo del modello è da osservare il valore dell'R quadrato, che ci spiega ancora una volta quanta varianza della variabile dipendente è spiegata da tutte le variabili indipendenti considerate. Se nella tabella dell'Anova abbiamo un valore di significatività minore di .05, allora le variabili indipendenti spiegano (insieme) quel valore di varianza della dipendente (il valore di R quadro). La varianza non spiegata, o varianza di errore, si ottiene facendo 1 – R2. Più alto è R quadro, più bassa è la varianza di errore, o coefficiente di alienazione.

Una variabile che risulta avere un effetto sulla dipendente nella regressione semplice, ma perde la significatività di quell'effetto nella regressione multipla, è una variabile il cui effetto sulla dipendente era dovuto in realtà all'altra variabile indipendente considerata. Rimossa la seconda variabile indipendente, infatti, quell'effetto sparisce. Più alta è la “quantità” di varianza spiegata da più variabili indipendenti insieme, più alta sarà la correlazione tra quelle variabili: se X e W spiegano la stessa quantità di varianza, significano che covariano perfettamente. R2 ci spiega quanto il nostro modello, nel suo insieme, spiega la variabile dipendente. Però potremmo voler sapere qual è il contributo unico di ogni variabile indipendente, cioè quanta varianza spiega realmente una singola variabile indipendente. Due variabili, infatti, potrebbero spiegare il 40% della varianza della dipendente, ma magari la prima spiega il 38% e la seconda il restante 2%.

Possiamo considerare la varianza come “informazione”. Nel caso di un modello con due sole variabili, l'informazione condivisa tra le due è la semplice sovrapposizione dell'informazione di ogni variabile. Nel caso di tre variabili, invece, avremo una certa informazione condivisa da X e Y, una certa informazione condivisa solo da Y e W, una certa informazione condivisa solo da X e W e una certa informazione condivisa da tutte le variabili. Nel nostro modello, quest'ultima componente apparirà una volta sola (non una per ogni informatore). Se consideriamo il contributo unico, però, dobbiamo eliminare questa parte, perché non è possibile attribuirla solo a una variabile o solo a un'altra. Calcolando l'effetto unico di X, quindi, devo eliminare (parzializzare) l'effetto condiviso da X con W su Y. L'effetto congiunto, invece, sarà dato dalla somma degli effetti diretti delle variabili indipendenti più l'effetto condiviso.

La correlazione semplice al quadrato indica quanto una variabile spiega una variabile dipendente (elevando il Beta ottenuto al quadrato). A questo valore, però, dovrò sottrarre una certa porzione di varianza, che corrisponde alla varianza spiegata in maniera condivisa da quella variabile indipendente e dall'altra variabile indipendente considerata. Con questa sottrazione ottengo il coefficiente di correlazione parziale, un coefficiente che indica proprio la quantità di varianza di Y spiegata da X una volta che è stata parzializzata la varianza di Y spiegata da X e W insieme. Quello che tale coefficiente misura, in pratica, è la quantità di varianza di Y spiegata solo da X dopo che è stata eliminata tutta la parte di varianza spiegata da altre variabili (si va a eliminare l'effetto di ogni altra variabile indipendente considerata). Più le altre variabili spiegano varianza di Y, più il coefficiente di correlazione parziale di X aumenterà, perché il rapporto tra varianza spiegata da X e varianza totale aumenta, se la varianza totale rimasta diminuisce (se la varianza prima era di 10/100, se vado a togliere 20 dalla varianza totale ottengo 10/80).

Il coefficiente semi-parziale, invece, esprime quanta varianza di Y è spiegata da una sola variabile considerando, però, tutta la varianza di Y. Mentre nella correlazione parziale eliminiamo dal totale la varianza spiegata dalle altre indipendenti, in quella semi-parziale consideriamo tutta la varianza. Il semi-parziale, quindi, è più basso del parziale. Nel caso di prima, in cui si considerava l'età, il coefficiente parziale andrebbe a misurare l'effetto di X su Y “come se” l'età fosse parzializzata (costante). Il semi-parziale, invece, ammette che quella variabile esiste e crea una certa varianza, e considera quindi il contributo unico di X su Y considerando tutta la varianza.

Su SPSS, nell'opzione della regressione multipla, posso chiedere nel menu “Statistiche” i coefficienti di ordine zero e i parziali, che vengono inseriti nella tabella di output. In questa tabella, i parziali (r) sono indicati con “parziali”, e i semi-parziali (pr) con “parziali indipendenti”. Tutti questi coefficienti sono correlazioni, quindi bisogna elevare al quadrato i valori per ottenere la proporzione di varianza spiegata (R2) di quella variabile, sia nei parziali che nei semi-parziali.

Analisi avanzate basate sulla regressione

A seconda dello status delle variabili indipendenti, possiamo differenziare diversi tipi di tecniche statistiche: analisi della mediazione e path analysis (satura). Per variabile mediatrice intendiamo una variabile che è responsabile dell'effetto di un'altra variabile sulla variabile dipendente. Le variabili indipendenti sono organizzate teoricamente in cause endogene e cause esogene; quelle endogene sono variabili esplicative la cui variabilità è parzialmente spiegata dal modello, quelle esogene sono variabili esplicative la cui variabilità è data e non spiegata dal modello (proviene dall'esterno, non da variabili del modello). In pratica le cause endogene subiscono l'effetto di quelle esogene, sempre interne al modello, mentre quelle esogene non hanno una variabilità predetta dal modello. Le variabili dipendenti, infine, sono le variabili di cui vogliamo spiegare la variabilità. Parlare di “cause”, comunque, è opinabile: siamo noi a teorizzare quali siano cause e “conseguenze”. Il modello potrebbe essere opposto a quello che pensiamo noi.

Il modello di mediazione è un modello statistico che ci consente di stabilire se i nostri dati supportano l'idea che l'effetto di una causa esogena su una variabile dipendente sia mediato dall'effetto di una variabile mediatrice. Il mediatore “trasporta” l'effetto dalla causa esogena a quella dipendente. Dopo aver stabilito l'esistenza di un effetto tra la variabile esogena e quella dipendente, la prima condizione che devo verificare è l'esistenza di un effetto tra la variabile indipendente esogena e la variabile mediatrice (o interveniente). La seconda condizione, invece, è l'esistenza di un effetto tra la variabile mediatrice e la variabile dipendente, indipendentemente dal valore dell'indipendente esogena. Altrimenti potremmo avere non una variabile mediatrice e una dipendente, ma due dipendenti senza effetto tra loro. Quindi dobbiamo verificare che l'indipendente esogena abbia un proprio effetto, non dovuto solamente all'effetto dell'indipendente esogena.

Si va quindi a decomporre l'effetto diretto della variabile esogena a quella dipendente: una parte di questo effetto è realmente diretto, una parte viene mediata dalla variabile mediatrice. Se l'effetto mediato è piccolo o non significativo, la variabile mediatrice non sarà davvero una mediatrice. Mettiamo il caso di un effetto diretto della variabile esogena sulla dipendente pari a 10. Inserendo una variabile mediatrice e compiendo una regressione semplice tra variabile esogena e variabile mediatrice, osservo che ho un effetto di tre: ogni unità in più di X (esogena) porta a un aumento di tre unità di W (mediatrice). A questo punto, però, compio una regressione multipla tra X, W e la variabile dipendente Y, per andare a valutare l'effetto di W su Y al netto di X (devo verificare l'effetto indipendentemente da X). Questo effetto è pari a due: per ogni unità in più di W, Y aumenta di due. Ma se l'effetto di X su W è tre, allora l'aumento di una unità di X porterà, attraverso W, a un aumento di Y di sei unità. Questo significa che l'effetto diretto di X su Y è quattro, e l'effetto mediato di X su Y è sei.

Per verificare se l'effetto mediato è significativo, devo andare a capire che né l'effetto di X su W, né l'effetto di W su Y sono pari a zero. Per farlo, vado a vedere la significatività di questi due effetti.

Anteprima
Vedrai una selezione di 8 pagine su 33
Lezioni, Analisi Multivariata dei Dati Pag. 1 Lezioni, Analisi Multivariata dei Dati Pag. 2
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Lezioni, Analisi Multivariata dei Dati Pag. 6
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Lezioni, Analisi Multivariata dei Dati Pag. 11
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Lezioni, Analisi Multivariata dei Dati Pag. 16
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Lezioni, Analisi Multivariata dei Dati Pag. 21
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Lezioni, Analisi Multivariata dei Dati Pag. 26
Anteprima di 8 pagg. su 33.
Scarica il documento per vederlo tutto.
Lezioni, Analisi Multivariata dei Dati Pag. 31
1 su 33
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Zanna15 di informazioni apprese con la frequenza delle lezioni di Analisi multivariata dei dati e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Gallucci Marcello.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community