Anteprima
Vedrai una selezione di 4 pagine su 13
Domande esame risolte Analisi statistica multivariata Pag. 1 Domande esame risolte Analisi statistica multivariata Pag. 2
Anteprima di 4 pagg. su 13.
Scarica il documento per vederlo tutto.
Domande esame risolte Analisi statistica multivariata Pag. 6
Anteprima di 4 pagg. su 13.
Scarica il documento per vederlo tutto.
Domande esame risolte Analisi statistica multivariata Pag. 11
1 su 13
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Si scelgono le variabili pertinenti al fenomeno, specificando le variabili dipendenti e le

covariate (ad esempio, indicatori quantitativi di insufficienza respiratoria, fumo, peso,

età, struttura genetica). Si specifica il tipo di funzione che lega le variabili (ad

esempio, lineare o esponenziale), sulla base della teoria probabilistica e di proprietà

matematiche, tenendo conto di determinate assunzioni come la distribuzione degli

errori e le proprietà delle variabili coinvolte.

Una volta formulato il modello, si procede con le fasi deduttive:

Si seleziona la popolazione di studio (ad esempio, i pazienti di un ospedale).

Si estrae un campione casuale dalla popolazione, in linea con la teoria dei campioni.

Si elaborano statistiche descrittive a partire dai dati raccolti (come grafici, serie e

analisi statistiche). Si applica il modello al campione e si stimano i parametri del

modello statistico.

Si estendono i risultati ottenuti al campione all'intera popolazione sulla base della

teoria dell'inferenza statistica. Si valuta la bontà del modello, bilanciando

l'adattamento ai dati con la parsimonia, cioè l'uso di un modello con un numero

minore di covariate o di funzioni più semplici, al fine di minimizzare gli errori

complessivi.

Questo processo riflette un approccio metodologico completo per la costruzione e la

valutazione dei modelli statistici, fondamentale per l'analisi e l'interpretazione dei dati

nei vari ambiti di studio.

Infine, la statistica fornisce un approccio rigoroso per affrontare l'incertezza,

consentendo di quantificare la variabilità nei dati e di trarre inferenze significative

dalle evidenze empiriche. La sua importanza nel progresso scientifico risiede nel

contributo alla comprensione dei fenomeni naturali e sociali, nonché nel guidare la

presa di decisioni informate in vari ambiti della società.

Domanda 1.3 Modelli empirici

I modelli statistici, in particolare quelli di tipo empirico, rappresentano uno strumento

fondamentale per comprendere le relazioni tra variabili dipendenti e covariate. Questi

modelli possono essere classificati in modelli parametrici e non parametrici, a seconda

delle assunzioni sulla forma funzionale del modello.

Tra i modelli parametrici, la distinzione principale è data dalla metrica delle variabili e

dalla forma funzionale che le lega. Si possono distinguere modelli intrinsecamente non

lineari e non linearizzabili, come quello rappresentato dall'equazione:

e modelli linearizzabili, come quelli di tipo polinomiale:

o non lineare in più variabili:

Inoltre, esistono modelli non lineari di diversi tipi, come quelli basati su trasformazioni

logaritmiche:

Tra i modelli più comuni vi sono i modelli lineari, come l'analisi della covarianza che è

abbastanza flessibile e interpretabile, esplicitando chiaramente il legame tra i

predittori e la variabile dipendente mediante l'equazione:

Per le variabili dipendenti dicotomiche o politomiche, si utilizza il modello logit

rappresentato dall'equazione:

dove \( \pi(x_i) \) è la proporzione di persone o

oggetti che ha la caratteristica \( i \).

Nel caso di più variabili dipendenti, si ricorre al

modello di regressione multipla che dà origine

al modello lineare multivariato con \( k \)

variabili dipendenti rappresentato

dall'equazione:

Infine, se i dati presentano una struttura

gerarchica, si applica il modello multilevel,

un'estensione del modello di analisi della

covarianza rappresentato dall'equazione:

Tutti questi modelli rappresentano strumenti

potenti per l'analisi dei dati

empirici, consentendo di

comprendere e interpretare le

relazioni tra le variabili coinvolte.

omanda 1.4 D

odelli causali, M

achine learning m

Il testo discute l'applicazione di

modelli statistici empirici e metodi di

inferenza causale, oltre a fornire una panoramica sul machine learning e la costruzione

di modelli statistici. Ecco il riassunto rielaborato:

La statistica, disciplina fondamentale, trova applicazione in svariati campi scientifici,

analizzando dati empirici per interpretare fenomeni collettivi. Il suo sviluppo, dalle

prime tavole statistiche del XVIII secolo, ha visto figure come Karl Pearson contribuire

all'analisi dei dati e alla formulazione di teorie testabili. Modelli statistici come la

regressione lineare forniscono strumenti per comprendere le relazioni tra variabili,

distinguendo tra modelli parametrici e non parametrici. Nella ricerca scientifica, si

distingue tra covariazione e causazione, dove la causal inference si basa sulla teoria

controfattuale per determinare gli effetti causali.

In termini di modelli, si considerano diverse forme funzionali, come i modelli lineari e

non lineari, inclusi quelli con variabili latenti. La path analysis, ad esempio, scompone

la correlazione tra variabili in effetti causali diretti e indiretti. Si distingue tra studi

sperimentali e osservazionali per valutare gli effetti causali, con l'importanza della

randomizzazione nei primi.

Nel contesto del machine learning, si utilizzano insiemi di dati di training per allenare i

modelli e insiemi di validazione per valutarne l'accuratezza. La regressione lineare è

comunemente usata per la sua flessibilità e interpretabilità, mentre altri metodi come

bagging e boosting sono più flessibili ma meno interpretabili.

La costruzione di modelli segue diverse fasi, dalla scelta delle variabili alla stima dei

parametri. La regressione lineare multipla, ad esempio, è un metodo di supervised

learning per prevedere valori di risposta in base a variabili esplicative. Nel machine

learning, si parla di statistical learning per la stima della funzione, con metodi come

regressione e cluster analysis.

In sintesi, l'analisi statistica e l'inferenza causale forniscono strumenti cruciali per

comprendere i fenomeni naturali e sociali, mentre il machine learning offre approcci

flessibili per la costruzione di modelli. La costruzione di modelli segue procedure ben

definite, fornendo una base solida per l'analisi dei dati e la previsione dei risultati.

Domanda 2.1 Specificazione modello

regressione multipla

La disposizione matriciale dei dati consente di identificare ogni unità statistica

per riga e di distinguere i caratteri rivelati nelle colonne. Si tratta di

un'organizzazione efficace per analizzare le relazioni tra le variabili. Nel

contesto di una trattazione statistica, si considera un campione finito di

osservazioni per ogni unità statistica \( i \), interpretate come realizzazioni di

una variabile casuale \( Y \), assunta come variabile assolutamente continua. Il

vettore \( y = (y_1, y_2, \ldots, y_n) \) rappresenta queste realizzazioni. Inoltre,

ci sono realizzazioni riferite alle covariate o variabili esplicative denotate con \

.

( x_1, x_2, \ldots, x_p \)

Un modello statistico di regressione multipla permette di descrivere il costo

delle automobili aziendali rispetto alle caratteristiche informative sulla flotta e

di spiegarne la variabilità, consentendo anche di effettuare previsioni sui costi

attesi in base a valori specifici del numero di auto e dei chilometri previsti per

.

la flotta

Nel modello di regressione, si identifica una variabile risposta, conseguente

temporalmente o logicamente alle variabili esplicative. Le variabili esplicative

sono anche denominate covariate o predittori, e nel modello di regressione

lineare multipla si ipotizza una precisa forma funzionale che lega la variabile

.

risposta a una combinazione lineare delle covariate

La specificazione del modello richiede di individuare la variabile dipendente (\

( y \)), le variabili esplicative (\( x_1, x_2, \ldots, x_k \)), e la forma funzionale

:

della relazione tra di esse. Il modello è rappresentato dall'equazione

[\ y_i = \beta X_i + \varepsilon_i ]\

:

Dove

.

rappresenta la variabile dipendente osservata per l'unità \( i \)-esima (\ y_i )\ -

.

rappresenta le variabili esplicative osservate per l'unità \( i \)-esima (\ X_i )\ -

.

rappresenta l'errore per l'unità \( i \)-esima (\ varepsilon_i \ )\ -

La componente non nota da stimare è rappresentata dal vettore \( \beta \), i

parametri del modello, mentre la componente di errore \( \varepsilon_i \) non è

.

stimabile e resta ignota

I modelli di regressione possono essere semplici, multipli o multivariati, a

seconda del numero di variabili dipendenti e esplicative considerate. La stima

dei parametri (\( \beta \)) e degli errori (\( \varepsilon \)) avviene attraverso i

.

vettori delle variabili dipendenti e delle variabili esplicative

Domanda 2.2 Stima

Il metodo dei minimi quadrati è utilizzato per stimare i coefficienti di

regressione in un modello di regressione multipla. Iniziamo con il modello di

:

regressione a due variabili

[\ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \varepsilon ]\

Per stimare i parametri del modello, si cerca il valore dell'interpolante che

meglio rappresenta l'associazione multivariata osservata nei dati. Il metodo dei

minimi quadrati, insieme al metodo di massima verosimiglianza, permette di

ottenere le stime dei parametri minimizzando la distanza euclidea tra la

.

variabile risposta e l'interpolante

Le stime dei minimi quadrati dei parametri del modello sono i valori che

minimizzano la somma degli scostamenti al quadrato tra valori osservati ed

:

interpolati. Il sistema di equazioni normali nel caso del piano di regressione è

[\ X'X\beta = X'y ]\

dove \( \beta \) rappresenta il vettore dei parametri da stimare. Utilizzando il

:

metodo dei minimi quadrati, si ottiene

[\ hat{\beta} = (X'X)^{-1}X'y \ ]\

dove \( \hat{\beta} \) rappresenta lo stimatore dei minimi quadrati del vettore

dei parametri \( \beta \). Ogni parametro \( \beta_j \) indica la variazione di \

( y \) al variare unitario di \( x_j \) mentre gli altri \( x_l \) rimangono costanti

.

(con \( l \neq j \))

:

In sintesi, il metodo dei minimi quadrati

Minimizza la somma dei quadrati degli scarti tra i valori osservati della -

.

variabile risposta e la combinazione lineare delle variabili esplicative

Utilizza il criterio dei minimi quadrati ordinari per formulare il problema di -

stima come la ricerca del vettore \( \beta \) che rende minima una norma del

.

vettore degli scarti

Risolve il sistema di equazioni normali per ottenere le stime dei parametri \( -

.

\beta \)

Questo metodo fornisce stime dei parametri che rappresentano il piano di

.

regressione più adatto, massimamente aderente ai dati osservati

Domanda 2.3 Bontà di adattamento

Nel contesto della regressione lineare multipla, i residui rappresentano le

discrepanze tra i valori osservati della variabile dipendent

Dettagli
Publisher
A.A. 2023-2024
13 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher alelodo di informazioni apprese con la frequenza delle lezioni di Analisi Statistica Multivariata e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Vittadini Giorgio.