vuoi
o PayPal
tutte le volte che vuoi
V(T)
Nei test l’errore di secondo tipo è:
Accettare l’ipotesi nulla quando è falsa
La probabilità dell’evento certo Ω è:
1
La probabilità dell’unione di due eventi, P(AUB) è:
P(A)+P(B)-P(A∩B) ᵢ
Cosa rappresenta il termine di errore w nel modello di regressione lineare? ᵢ ᵢ
Incorpora le variabili omesse e le imperfezioni della relazione lineare che intercorre tra y e x e ha
4 proprietà: si distribuisce come una normale, ha media zero, è omoschedastico e le osservazioni
sono indipendenti
Date due variabili x e y incorrelate, la stima del coefficiente di regressione lineare risulta:
Uguale a zero
Un p-value parti a 0.00:
Ci porta a rifiutare l’ipotesi nulla
In un modello Logit, ha senso assumere per la variabile risposta una distribuzione Normale?
No in quanto in questo modello la variabile y assume come valori 0 e 1, quindi si utilizza una
distribuzione di Bernoulli, la quale distribuisce la probabilità su due stessi valori, e non una
normale
Nell’outpu 1 ricostruire il valore mancante della statistica F:
MSM/MSR
Date 10 variabili, estraiamo la prima componente principale ed osseviamo che ha correlazione pari
a 0,5 con ognuna delle dieci variabili osservate. Cosa possiamo dedurre?
La sua varianza è 2,5
Le distanze tra unità calcolate sulle componenti principali sono:
Uguali a quelle calcolate sulle variabili originali (se vengono estratte tutte le componenti)
La varianza della prima componente principale:
è sempre maggiore di 1
La somma degli autovalori di tutte le componenti principali è:
Uguale alla somma delle varianze di tutte le variabili originali
Come si decompone la devianza totale?
È la somma tra Devianza Between (variabilità delle medie) e Devianza Within (variabilità dentro i
gruppi)
Il criterio di informazione BIC serve per:
Verificare la bontà di adattamento del modello
Un valore della DURBIN-Watson pari a 3,63 indica:
Autocorrelazione di lag 1 dei residui negativa
In riferimento all’output 2 possiamo accettare l’ipotesi nulla che tutti i coefficienti di regressione
sono pari a zero?
No
Il metodo di cluster analysis di Ward:
è un metodo gerarchico dove ad ogni passo si minimizza l’incremento di devianza within
In riferimento all’output 2 e sapendo che LEX indica gli anni di istruzione, cosa possiamo dedurre?
All’aumentare degli anni di istruzione diminuisce la probabilità di non essere assunti
In riferimento all’output 3, calcolare la percentuale di corretta classificazione
75,10%
Nell’output 1 possiamo accettare l’ipotesi nulla che tutti i coefficienti di regressione sono
simultaneamente uguali a zero?
No perché la Prob. > F =0, quindi il modello è significativo
La somma delle correlazioni al quadrato tra le componenti principali e la j-ma variabile osservata è:
La comunalità della j-ma variabile (sempre minore o uguale a 1)
La specificity:
Dipende in maniera diretta dal valore di cut-off
Quali sono gli indici utilizzati per la scelta del numero di gruppi?
Sono la pseudo-F e la pseudo-T²
In riferimento all’output 2 e sapendo che sex indica la dummy UOMO, cosa possiamo concludere?
Gli uomini hanno maggiori probabilità di non essere assunti rispetto alle donne
In riferimento all’output 2 possiamo accettare l’ipotesi nulla che tutti i coefficienti di regressione
siano zero?
No
La somma degli autovalori di tutte le componenti principali è:
Uguale alla somma delle varianze di tutte le variabili originali.
La probabilità di un evento è un numero:
Compreso tra 0 e 1
La probabilità dell’unione di due eventi incompatibili P(AUB) è:
P(A)+P(B)
La probabilità dell’intersezione di due eventi indipendenti P(A∩B) è:
P(A)P(B)
La varianza di una variabile aleatoria è definita come:
Il valore atteso degli scarti dalla media al quadrato
Uno stimatore è:
Una variabile aleatoria funzione dei dati campionari
Nei test l’errore di primo tipo è:
Rifiutare l’ipotesi nulla quando è vera
Data la variabile aleatoria:
X -1 0 1
P(x) 0,3 0,4 ?
Completare la funzione di probabilità e calcolare il valore atteso:
0,3
Nel modello di regressione lineare omoschedastico il termine di errore:
Ha distribuzione normale con media zero e varianza costante
Quale relazione lega le tre quantità SSM, SSR E SST?
SST=SSM+SSR
La funzione logistica è:
Non lineare ma monotona
A cosa serve il coefficiente di determinazione R²?
è una misura della bontà di adattamento del modello ai dati, indica quella parte di variabilità della Y
spiegata dal modello e ha sempre un valore compreso tra 0 (minimo adttamento) e 1 (massimo
adattamento)
La distanza euclidea tra due unità può essere interpretata come:
Una dissimilarità
Le componenti principali sono:
A media zero
Uno dei criteri per la scelta del numero di componenti seleziona quelle con varianza:
Maggiore di 1
La somma delle varianze delle componenti principali è:
Pari a K (numero di variabili originali)
Nel modello di regressione lineare cosa distingue il test t da quello F?
Il test t misura la significatività delle singole variabili, mentre l’F la significatività del modello nel suo
complesso
Nel modello AR1 le osservazioni sono:
Correlate
Se le osservazioni sono indipendenti, ci aspettiamo un valore del DW pari a:
Due
Il criterio di informazione AIC serve per:
Selezionare il modello
Un malore del Durbin-Watson pari a 0,63 indica:
Autocorrelazione di lag 1 dei residui positiva
In riferimento all’output 1, calcolare i valori Z mancanti:
Z=Coeff/StError
In riferimento all’output1 e sapendo che USOL indica la dummy “uso privato”, possiamo
concludere:
I prestiti per uso privato hanno minor probabilità di andare in default rispetto a quelli per altro uso
Un p-value pari a o,80:
Ci porta ad accettare l’ipotesi nulla
Con quale modello/i possiamo analizzare la dipendenza di una variabile continua Y da una
variabile categorica X?
Con la regressione lineare o il modello Anova
In riferimento all’output 2, la percentuale di corretta classificazione è:
75,70
In un modello logit o probit ha senso assumere la variabile risposta come omoschedastica?
No perché la variabile risposta è di Bernoulli e ha una varianza che dipende dalla media e quindi
non p costante.
Quali sono le ipotesi sulla distribuzione della variabile risposta nel modello logit?
La variabile risposta è una Bernoulli con osservazioni indipendenti, la cui probabilità dipende da i
Con quale modello possiamo analizzare la dipendenza di una variabile continua Y da una variabile
categorica X?
Nel caso in cui le variabili indipendenti siano categoriche si utilizza il modello ANOVA, verificando
la presenza di differenze significative tra medie condizionate
K-Medie
E’ un metodo NON GERARCHICO dove il numero di cluster è deciso a priori e l’algoritmo è:
scelgo G centri iniziali; assegno unità ai vari centri secondo la minima distanza; ricalcolo i G centri
come baricentri; continuo fino a quando i baricentri risultano non significativamente diversi dai
precedenti.
Quali sono le due assunzioni distribuzionali adottate per il termine di errore del modello lineare di
utilità?
Per il modello LOGIT la distribuzione è la logistica; per il PROBIT la distribuzione è la normale
standard
Le componenti principali sono:
A media zero, varianza decrescente, la varianza totale=somma varianza delle componenti
Le componenti principali sono incorrelate con le variabili di partenza?
No, infatti sono incorrelate
La sensitivity è:
La quota di eventi osservati che sono predetti come evento
La sensitivity
Dipende in maniera inversa dal cut-off
La specificity
E’ la quota di non eventi predetti come non eventi