vuoi
o PayPal
tutte le volte che vuoi
Si scelgono le variabili pertinenti al fenomeno, specificando le variabili dipendenti e le
covariate (ad esempio, indicatori quantitativi di insufficienza respiratoria, fumo, peso,
età, struttura genetica). Si specifica il tipo di funzione che lega le variabili (ad
esempio, lineare o esponenziale), sulla base della teoria probabilistica e di proprietà
matematiche, tenendo conto di determinate assunzioni come la distribuzione degli
errori e le proprietà delle variabili coinvolte.
Una volta formulato il modello, si procede con le fasi deduttive:
Si seleziona la popolazione di studio (ad esempio, i pazienti di un ospedale).
Si estrae un campione casuale dalla popolazione, in linea con la teoria dei campioni.
Si elaborano statistiche descrittive a partire dai dati raccolti (come grafici, serie e
analisi statistiche). Si applica il modello al campione e si stimano i parametri del
modello statistico.
Si estendono i risultati ottenuti al campione all'intera popolazione sulla base della
teoria dell'inferenza statistica. Si valuta la bontà del modello, bilanciando
l'adattamento ai dati con la parsimonia, cioè l'uso di un modello con un numero
minore di covariate o di funzioni più semplici, al fine di minimizzare gli errori
complessivi.
Questo processo riflette un approccio metodologico completo per la costruzione e la
valutazione dei modelli statistici, fondamentale per l'analisi e l'interpretazione dei dati
nei vari ambiti di studio.
Infine, la statistica fornisce un approccio rigoroso per affrontare l'incertezza,
consentendo di quantificare la variabilità nei dati e di trarre inferenze significative
dalle evidenze empiriche. La sua importanza nel progresso scientifico risiede nel
contributo alla comprensione dei fenomeni naturali e sociali, nonché nel guidare la
presa di decisioni informate in vari ambiti della società.
Domanda 1.3 Modelli empirici
I modelli statistici, in particolare quelli di tipo empirico, rappresentano uno strumento
fondamentale per comprendere le relazioni tra variabili dipendenti e covariate. Questi
modelli possono essere classificati in modelli parametrici e non parametrici, a seconda
delle assunzioni sulla forma funzionale del modello.
Tra i modelli parametrici, la distinzione principale è data dalla metrica delle variabili e
dalla forma funzionale che le lega. Si possono distinguere modelli intrinsecamente non
lineari e non linearizzabili, come quello rappresentato dall'equazione:
e modelli linearizzabili, come quelli di tipo polinomiale:
o non lineare in più variabili:
Inoltre, esistono modelli non lineari di diversi tipi, come quelli basati su trasformazioni
logaritmiche:
Tra i modelli più comuni vi sono i modelli lineari, come l'analisi della covarianza che è
abbastanza flessibile e interpretabile, esplicitando chiaramente il legame tra i
predittori e la variabile dipendente mediante l'equazione:
Per le variabili dipendenti dicotomiche o politomiche, si utilizza il modello logit
rappresentato dall'equazione:
dove \( \pi(x_i) \) è la proporzione di persone o
oggetti che ha la caratteristica \( i \).
Nel caso di più variabili dipendenti, si ricorre al
modello di regressione multipla che dà origine
al modello lineare multivariato con \( k \)
variabili dipendenti rappresentato
dall'equazione:
Infine, se i dati presentano una struttura
gerarchica, si applica il modello multilevel,
un'estensione del modello di analisi della
covarianza rappresentato dall'equazione:
Tutti questi modelli rappresentano strumenti
potenti per l'analisi dei dati
empirici, consentendo di
comprendere e interpretare le
relazioni tra le variabili coinvolte.
omanda 1.4 D
odelli causali, M
achine learning m
Il testo discute l'applicazione di
modelli statistici empirici e metodi di
inferenza causale, oltre a fornire una panoramica sul machine learning e la costruzione
di modelli statistici. Ecco il riassunto rielaborato:
La statistica, disciplina fondamentale, trova applicazione in svariati campi scientifici,
analizzando dati empirici per interpretare fenomeni collettivi. Il suo sviluppo, dalle
prime tavole statistiche del XVIII secolo, ha visto figure come Karl Pearson contribuire
all'analisi dei dati e alla formulazione di teorie testabili. Modelli statistici come la
regressione lineare forniscono strumenti per comprendere le relazioni tra variabili,
distinguendo tra modelli parametrici e non parametrici. Nella ricerca scientifica, si
distingue tra covariazione e causazione, dove la causal inference si basa sulla teoria
controfattuale per determinare gli effetti causali.
In termini di modelli, si considerano diverse forme funzionali, come i modelli lineari e
non lineari, inclusi quelli con variabili latenti. La path analysis, ad esempio, scompone
la correlazione tra variabili in effetti causali diretti e indiretti. Si distingue tra studi
sperimentali e osservazionali per valutare gli effetti causali, con l'importanza della
randomizzazione nei primi.
Nel contesto del machine learning, si utilizzano insiemi di dati di training per allenare i
modelli e insiemi di validazione per valutarne l'accuratezza. La regressione lineare è
comunemente usata per la sua flessibilità e interpretabilità, mentre altri metodi come
bagging e boosting sono più flessibili ma meno interpretabili.
La costruzione di modelli segue diverse fasi, dalla scelta delle variabili alla stima dei
parametri. La regressione lineare multipla, ad esempio, è un metodo di supervised
learning per prevedere valori di risposta in base a variabili esplicative. Nel machine
learning, si parla di statistical learning per la stima della funzione, con metodi come
regressione e cluster analysis.
In sintesi, l'analisi statistica e l'inferenza causale forniscono strumenti cruciali per
comprendere i fenomeni naturali e sociali, mentre il machine learning offre approcci
flessibili per la costruzione di modelli. La costruzione di modelli segue procedure ben
definite, fornendo una base solida per l'analisi dei dati e la previsione dei risultati.
Domanda 2.1 Specificazione modello
regressione multipla
La disposizione matriciale dei dati consente di identificare ogni unità statistica
per riga e di distinguere i caratteri rivelati nelle colonne. Si tratta di
un'organizzazione efficace per analizzare le relazioni tra le variabili. Nel
contesto di una trattazione statistica, si considera un campione finito di
osservazioni per ogni unità statistica \( i \), interpretate come realizzazioni di
una variabile casuale \( Y \), assunta come variabile assolutamente continua. Il
vettore \( y = (y_1, y_2, \ldots, y_n) \) rappresenta queste realizzazioni. Inoltre,
ci sono realizzazioni riferite alle covariate o variabili esplicative denotate con \
.
( x_1, x_2, \ldots, x_p \)
Un modello statistico di regressione multipla permette di descrivere il costo
delle automobili aziendali rispetto alle caratteristiche informative sulla flotta e
di spiegarne la variabilità, consentendo anche di effettuare previsioni sui costi
attesi in base a valori specifici del numero di auto e dei chilometri previsti per
.
la flotta
Nel modello di regressione, si identifica una variabile risposta, conseguente
temporalmente o logicamente alle variabili esplicative. Le variabili esplicative
sono anche denominate covariate o predittori, e nel modello di regressione
lineare multipla si ipotizza una precisa forma funzionale che lega la variabile
.
risposta a una combinazione lineare delle covariate
La specificazione del modello richiede di individuare la variabile dipendente (\
( y \)), le variabili esplicative (\( x_1, x_2, \ldots, x_k \)), e la forma funzionale
:
della relazione tra di esse. Il modello è rappresentato dall'equazione
[\ y_i = \beta X_i + \varepsilon_i ]\
:
Dove
.
rappresenta la variabile dipendente osservata per l'unità \( i \)-esima (\ y_i )\ -
.
rappresenta le variabili esplicative osservate per l'unità \( i \)-esima (\ X_i )\ -
.
rappresenta l'errore per l'unità \( i \)-esima (\ varepsilon_i \ )\ -
La componente non nota da stimare è rappresentata dal vettore \( \beta \), i
parametri del modello, mentre la componente di errore \( \varepsilon_i \) non è
.
stimabile e resta ignota
I modelli di regressione possono essere semplici, multipli o multivariati, a
seconda del numero di variabili dipendenti e esplicative considerate. La stima
dei parametri (\( \beta \)) e degli errori (\( \varepsilon \)) avviene attraverso i
.
vettori delle variabili dipendenti e delle variabili esplicative
Domanda 2.2 Stima
Il metodo dei minimi quadrati è utilizzato per stimare i coefficienti di
regressione in un modello di regressione multipla. Iniziamo con il modello di
:
regressione a due variabili
[\ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \varepsilon ]\
Per stimare i parametri del modello, si cerca il valore dell'interpolante che
meglio rappresenta l'associazione multivariata osservata nei dati. Il metodo dei
minimi quadrati, insieme al metodo di massima verosimiglianza, permette di
ottenere le stime dei parametri minimizzando la distanza euclidea tra la
.
variabile risposta e l'interpolante
Le stime dei minimi quadrati dei parametri del modello sono i valori che
minimizzano la somma degli scostamenti al quadrato tra valori osservati ed
:
interpolati. Il sistema di equazioni normali nel caso del piano di regressione è
[\ X'X\beta = X'y ]\
dove \( \beta \) rappresenta il vettore dei parametri da stimare. Utilizzando il
:
metodo dei minimi quadrati, si ottiene
[\ hat{\beta} = (X'X)^{-1}X'y \ ]\
dove \( \hat{\beta} \) rappresenta lo stimatore dei minimi quadrati del vettore
dei parametri \( \beta \). Ogni parametro \( \beta_j \) indica la variazione di \
( y \) al variare unitario di \( x_j \) mentre gli altri \( x_l \) rimangono costanti
.
(con \( l \neq j \))
:
In sintesi, il metodo dei minimi quadrati
Minimizza la somma dei quadrati degli scarti tra i valori osservati della -
.
variabile risposta e la combinazione lineare delle variabili esplicative
Utilizza il criterio dei minimi quadrati ordinari per formulare il problema di -
stima come la ricerca del vettore \( \beta \) che rende minima una norma del
.
vettore degli scarti
Risolve il sistema di equazioni normali per ottenere le stime dei parametri \( -
.
\beta \)
Questo metodo fornisce stime dei parametri che rappresentano il piano di
.
regressione più adatto, massimamente aderente ai dati osservati
Domanda 2.3 Bontà di adattamento
Nel contesto della regressione lineare multipla, i residui rappresentano le
discrepanze tra i valori osservati della variabile dipendent