Estratto del documento

Statistica multivariata

Capitolo 1: Il modello lineare

Modello statistico: è una rappresentazione efficiente e sintetica di una variabile o delle relazioni fra variabili. Esso estrae dalla variegata e complessa informazione contenuta nelle variabili osservate quella parte maggiormente utile a comprendere l’oggetto di studio.

Modello di misurazione: rappresentazioni delle possibili fonti di variabilità catturate dalle variabili misurate. Ossia quanto le variabili svolgano bene il loro ruolo di rappresentanti delle caratteristiche del fenomeno.

Modello di relazione: estrapola dalla variabilità delle variabili quei pattern sistematici che associano una variabile alle altre, rientra in questa categoria il modello lineare.

I modelli statistici sono delle rappresentazioni sintetiche delle relazioni fra variabili e dunque comportano necessariamente un margine di errore (alcune informazioni andranno perse: distorsione da variabile omessa).

Il modello lineare può essere utilizzato per analizzare la relazione tra due o più variabili mediante lo studio di un campione. Le principali operazioni svolte sono i valori stimati nel modello lineare: la media calcolata nel modello rappresenta la stima, cioè il valore che nelle nostre previsioni dovrebbe descrivere al meglio i punteggi calcolati. Il modello e le stime ad esso associate servono a descrivere e predire un fenomeno.

  • Essendo la media il valore centrale della distribuzione, essa la descrive al meglio di altri valori.
  • Essendo la media il valore atteso, essa predice il fenomeno, nel senso che indica quale sia il voto che più ragionevolmente si attende se campionassimo di nuovo la stessa popolazione. Il valore atteso si indica con ^, quindi che in questo caso è uguale al valore medio.

Essendo un modello semplice, esso predice che tutti i soggetti del campione ottengano risultato uguale al valore medio. Dunque, per ogni soggetto il modello commetterà un errore, ossia vi saranno delle informazioni non considerate, dette residue. Tale errore è dato dalla differenza del valore realmente osservato e il valore predetto.

A questo punto possiamo calcolare l’errore che si commette quando si prende la media come modello dei risultati del campione. È necessario sommare tutti gli errori per tutti i casi, ottenendo la quantità detta somma dei quadrati dei residui, o somma dei quadrati dell'errore (SQe).

Capitolo 2: La regressione lineare

Nell’applicare il modello lineare generale, possiamo considerare variabili continue tutte quelle variabili i cui punteggi sono numerici, ordinabili e per cui è sensato calcolare il valore della media e della varianza. Dato che i punteggi delle variabili continue sono ordinabili e le loro differenze di facile interpretazione, la loro relazione può essere quantificata semplicemente come il cambiamento atteso nei punteggi di una variabile al variare dell’altra variabile di un'unità.

Il modello di relazione che consente di stimare il cambiamento di una variabile continua al variare di un’altra variabile si può ottenere mediante la regressione semplice, l’applicazione più semplice del modello generale.

Regressione: tipo di legame funzionale tra una o più variabili indipendenti e una variabile dipendente.

Per comprendere meglio la relazione tra le variabili risulta utile rappresentare i punteggi in un grafico (tramite piano cartesiano) detto diagramma di dispersione (nuvola di punti) o scatterplot. La variabile definita sull’asse Y è detta dipendente, quella sull’asse X indipendente.

Un’ottima approssimazione della nuvola di punti può essere ottenuta mediante la retta che interpola i punti del diagramma. Tale retta è detta retta di regressione, essa:

  • Lega la variabile dipendente e quella indipendente.
  • È definita come quella retta che meglio interpola i punti dello scatterplot, composto dai punteggi delle due variabili.
  • È descritta da un’equazione semplice che mette a confronto i valori predetti della variabile dipendente (\(\hat{y}\)) con i valori osservati della variabile indipendente (x).

L’equazione è: \(\hat{y} = a + b\cdot x\)

La retta è definita mediante due coefficienti: a detto coefficiente costante o intercetta e b detto coefficiente angolare o regressione tra y e x.

  1. Il coefficiente costante o intercetta: indica il valore atteso della variabile dipendente quando la variabile indipendente è uguale a 0. Geometricamente, il coefficiente costante indica in quale punto la retta di regressione interseca l’asse Y.
    • Esprime una stima puntuale, ossia una quantità della variabile dipendente.
    • È espresso nella stessa unità di misura della variabile dipendente.
    • Indica un valore condizionale ossia una previsione che dipende dal valore 0 della variabile indipendente. Se si aggiunge una costante alla variabile indipendente, il valore dell’intercetta cambierà; tale proprietà è detta varianza di scala.
  2. Il coefficiente di regressione: indica la relazione tra la variabile dipendente e quella indipendente. Quantifica quindi l’effetto della variabile indipendente su quella dipendente. Esso rappresenta la pendenza, ossia l’inclinazione della retta di regressione.
    • Indica il cambiamento atteso nella variabile dipendente per ogni cambiamento di unità nella variabile indipendente. Se il cambiamento della variabile dipendente è di una unità, il valore atteso della variabile dipendente sarà uguale al coefficiente di regressione.
    • È espresso nell’unità di misura della variabile dipendente.
    • Indica un cambiamento non condizionato dai valori specifici della variabile indipendente (se aggiungiamo o sottraiamo una costante alla variabile indipendente, il valore del coefficiente non cambia) e ciò si chiama invarianza di scala.

Nei casi in cui il cambiamento di unità della variabile indipendente non sia unitario (aumenta o diminuisce di 1), si applica la seguente formula:

Δ y = b Δ x

Dove:

  • Δy: è la varianza di y
  • Δx: è la varianza di x
  • b: è il coefficiente di regressione

Linearità: per ogni variazione in X si determina sempre la stessa variazione in Y, qualunque sia il valore di X sull'asse delle ascisse.

A volte il coefficiente di correlazione non risulta facile da interpretare, quindi è possibile utilizzare la sua forma standardizzata. Per fare in modo che il valore num

Anteprima
Vedrai una selezione di 4 pagine su 14
Riassunto esame Statistica Multivariata, prof. Naldi, libro consigliato Modelli statistici per le scienze sociali, Gallucci, Leone Pag. 1 Riassunto esame Statistica Multivariata, prof. Naldi, libro consigliato Modelli statistici per le scienze sociali, Gallucci, Leone Pag. 2
Anteprima di 4 pagg. su 14.
Scarica il documento per vederlo tutto.
Riassunto esame Statistica Multivariata, prof. Naldi, libro consigliato Modelli statistici per le scienze sociali, Gallucci, Leone Pag. 6
Anteprima di 4 pagg. su 14.
Scarica il documento per vederlo tutto.
Riassunto esame Statistica Multivariata, prof. Naldi, libro consigliato Modelli statistici per le scienze sociali, Gallucci, Leone Pag. 11
1 su 14
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Fradraken di informazioni apprese con la frequenza delle lezioni di Statistica multivariata e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Libera Università Maria SS.Assunta - (LUMSA) di Roma o del prof Naldi Maurizio.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community