vuoi
o PayPal
tutte le volte che vuoi
Lo stepwise esplora ogni singola variabile esplicativa prima di inserirla nel modello e ad ogni
step la procedura può eliminare una delle variabili già incluse nel modello se non c’è una
diminuzione significativa del valore F; la regressione forward lavora come la stepwise ma le
variabili vengono solo inserite e non eliminate; la regressione backward inizia includendo tutte
le variabili eliminando ad ogni step la variabile che provoca il minor decremento nel valore F.
14. Quanti tipi di funzione discriminante posso stimare?
Il numero esatto di funzioni discriminanti è uguale al minore tra (g-1) dove g è il numero di
categorie nella classificazione e k che è il numero di variabili dipendenti.
Differenze tra dati primari e secondari
15. I dati primari sono i dati raccolti specificatamente per un dato test, mentre i dati secondari sono
dati raccolti che sono stati raccolti per un altro test che vengono adattati a quello che vogliamo
fare ora
Metodo del centroide: cosa misura, la distanza tra elementi o cluster?
16. Definisce la distanza fra due cluster come la distanza fra i due centrodi dei cluster
Cos’è l’inerzia totale?
17. È una misura dell’associazione complessiva fra X e Y, uguale alla somma degli autovalori,
corrisponde al valore del Chi-quadro diviso per il numero di osservazioni. Per una adeguata
rappresentazione ci si aspetta un’inerzia totale superiore a 0,20
Cos’è l’analisi delle corrispondenze?
18. Tecnica statistica multivariata che guarda all’associazione di due o più variabili categoria e le
visualizza congiuntamente su un grafico bivariato 2
Precisione, validità e affidabilità: differenze
19. Precisione (precision): Quanto dettagliate sono le misure? Se si prendono misure ripetute, qual
è la variabilità intorno alla misurazione media?
Affidabilità (reliability): quando più item sono utilizzati per misurare lo stesso costrutto mediante
questionari compilati da persone diverse o nel corso del tempo, gli stessi sono coerenti?
Validità (validity): se la scala di misurazione rappresenta adeguatamente il concetto latente non
osservabile
20. Test sulla mediana: quando lo uso? e il Run Test?
Il test sulla mediana (Wilcoxon signed rank test) lo uso quando voglio capire se le osservazioni
che differiscono dalla mediana ipotizzata sono classificate in accordo alla loro distanza dalla
mediana, mentre il Run test lo uso per testare se l’ordine nel campione è casuale (un gruppo) o
se i due campioni sono campioni indipendenti estratti dalla stessa popolazione (due gruppi).
Obiettivo dell’analisi discriminante?
21. È una procedura statistica che permette di spiegare l’allocazione delle osservazioni in due o
più gruppi sulla base di un insieme di variabili indipendenti caratteristiche chiamate predatori o
variabili discriminanti. (variabile target nominale o ordinale)
Obiettivo dell’analisi delle corrispondenze?
22. Tecnica statistica multivariata che guarda all’associazione di due o più variabili categoria e le
visualizza congiuntamente su un grafico bivariato.
23. Analisi della varianza: quando rifiuto l’ipotesi di validità?
Se la varianza spiegata dal diverso fattore fra i gruppi è significativamente più rilevante della
varianza dentro i gruppi, allora il fattore è assunto essere statisticamente rilevante nello
spiegare le differenze. (es. rifiuto quando F > 3.0) Il rifiuto dell’ipotesi nulla significa che almeno
due medie sono diverse, ma non dice quali in realtà differiscono.
Analisi fattoriale, la comunalità rappresenta?
24. Le comunità relative sono comprese fra zero e uno e ci dicono - per ogni variabile- quale
percentuale della variabilità originale è spiegata dai fattori estratti
25. Nell’analisi discriminante multipla, la funzione discriminante com maggior potere
discriminante è..?
Nell’analisi discriminante multipla la prima funzione discriminante è quella con la più alta
variabilità tra i gruppi, la seconda funzione discriminante è indipendente dalla prima e
massimizza la rimanente variabilità tra i gruppi e così via
Nel modello della regressione logistica, la funzione logistica lega..?
26. La funzione legame specifica la relazione fra Z e Y attraverso il valore atteso dell’appropriata
funzione di distribuzione per la generica osservazione yi 3
Nell’analisi dei cluster, l’obiettivo principale è..?
27. L’analisi dei cluster è fatto per classificare i casi in gruppi che sono relativamente omogenei al
loro interno e eterogenei fra di loro.
28. L’errore legato al rifiuto di rispondere da una parte di unità selezionata per il
campionamento è..?
E’ un errore NON CAMPIONARIO. Correggibile tramite regressione o sostituzione con la
media ma comunque sono previsioni fatte da un modello
29. Se voglio verificare l’ipotesi nulla che un campione casuale sia estratto da una
distribuzione normale..?
Uso il test di Kolgorov-Smironov.
Se il coefficiente di correlazione lineare r tra X e Y osservato su 100 unità campionarie è
30. 0,3 con un p-value pari a 0,045, possiamo affermare che..?
C’è poca correlazione ma è significativa al 95%
31. Se si osserva una variabile target con 4 categorie di risposta e si hanno 5 variabili
esplicative, quante funzioni discriminanti potranno essere stimate al massimo?
Al massimo potranno essere stimate (g-1) = 3 funzioni discriminanti
Il campionamento per quote è..?
32. Un tipo di campionamento non probabilistico: definisce le categorie di controllo (quote) per gli
elementi delle popolazione (come sesso, età..) e applica un campione di giudizio ristretto in
modo che le quote nel campione siano le stesse di quelle della popolazione
L’errore standard dello stimatore è una misura di..?
33. L’errore standard è una misura di precisione che fa riferimento alla variabilità dello stimatore
La tecnica dell’ANOVA con quali tipi di variabili si utilizza?
34. Nell’analisi dell’ANOVA si utilizzano variabili quantitative continue.
MANOVA: più di una variabile target: permette di verificare se i fattori portano a differenze
significative in un insieme di variabili.
Se voglio verificare l’ipotesi nulla che la mediana sia uguale ad un valore specificato,
35. uso..?
Uso il Wilcoxon Signed Rank Test che testa se la mediana (o la differenza fra due mediane) sia
uguale a qualche valore specificato, posto che la distribuzione sia simmetrica
Nell’analisi fattoriale, un autovalore rappresenta..?
36. Rappresentano il peso della nuova variabile in base alla varianza che essa spiega delle
variabili indipendenti
37. Il sampling frame corrisponde..?
Corrisponde lista di tutte le unità della popolazione, che può essere usata per estrarre un
campione ed è necessaria per garantire un’estrazione probabilistica 4
Nella teoria del test d’ipotesi, la potenza del test corrisponde..?
38. La potenza statistica di un test . la probabilità di rifiutare correttamente l’ipotesi nulla quando .
falsa e corrisponde a 1- β (con β uguale all’errore di secondo tipo).
39. Se si considera una variabile esplicativa e una dipendente, si utilizza il termine
regressione logistica..?
La trasformazione logistica di Y in Z è ottenuta applicando la funzione legame logit al valore
atteso di Y. Il legame logit permette di trasformare la variabile binaria Y in una variabile
continua Z. La regressione logistica è così chiamata perché il punto di partenza è la
trasformazione logistica di Y, da qui l’assunzione che l’errore segua una distribuzione logistica.
40. Nell’analisi del cluster, l’algoritmo di Ward è..?
L’algoritmo di Ward, nell’analisi dei cluster gerarchici, procede scegliendo l’aggregazione fra
due cluster che genera il più piccolo incremento nella somma totale dei quadrati delle distanze.
Analisi della varianza, quando rifiuto l’ipotesi di validità?
41. L’analisi della varianza permette di testare se la variabilità in una variabile è attribuibile a uno o
più fattori. Se la varianza spiegata dal fattore FRA i gruppi è significativamente più grande della
varianza NEI gruppi, allora il fattore risulta statisticamente rilevante nello spiegare le differenze.
Nell’analisi fattoriale, la comunalità rappresenta..?
42. Esprime quella parte della variabilità originale spiegata dalle componenti scelte.
Nell’analisi discriminante multipla, la funzione discriminante con maggior potere
43. discriminante è..?
La funzione discriminante con maggior potere discriminante è quella con Lambda di Wilks più
piccolo.
Nel modello della regressione logistica, la funzione logistica lega..?
44. La variabile dipendente binaria a una variabile latente metrica continua.
Utilità della funzione logistica: le probabilità che Y=1 (sull’asse verticale) si concentrano attorno
allo zero per valori di X sotto una certa soglia, poi vanno velocemente verso uno quando X è
superiore alla soglia.
45. Nell’analisi dei cluster, l’obiettivo principale è..?
Creare gruppi di osservazioni la cui varianza all’interno è minima rispetto alla varianza tra i
gruppi.
Analisi della varianza: com’è la variabile target e quella dipendente?
46. La variabile target è METRICA e la variabile dipendente è CATEGORIALE. L’analisi della
varianza permette di testare se la variabilità di una variabile è dovuta a uno o più fattori.
47. Regressione multipla, cosa è e cosa misura la collinearità?
Il principio di collinearità si verifica quando due variabili sono correlate. Una collinearità perfetta
corrisponde a una correlazione perfetta tra due variabili (-1 e +1). Una forte collinearità rende le
stime inaffidabili e inefficienti perché gli errori standard sono sovrastimati. 5
Indicatori di tolleranza e VIF: come devono essere?
48. I valori di tolleranza devono essere vicini a 1 come i valori di VIF. Se sono buoni, indicano che
la collinearità non è un problema.
49. Metodi di rotazione dei fattori: quali sono?
ORTOGONALI: Varimax (varianza loading fattore) Quartimax (varianza loading variabile)
OBLIQUI: Orthoblique, Protomax (prima ortogonale e poi obliqua)
Il sampling frame rappresenta..?
50. Una lista delle unità della popolazione da cui poter campionare
Regressione logistica, quando la utilizzo?
51. Quando ho una variabile dipendente qualitativa/categoriale DICOTOMICA, mentre le variabili
indipendenti possono essere quantitative o trasformate in dicotomiche. I modelli a scelta