TIPOLOGIA DI VARIABILI
Le variabili si suddividono in due tipologie:
1) Qualitative (o categoriche)
nominali (in R: factor), se non esiste nessun ordinamento naturale tra le categorie;
• ordinali (in R: ordered), se esiste un ordinamento naturale tra le categorie.
•
2) Quantitative (o numeriche)
discrete (in R: integer), quando sono esprimibili da numeri interi.
• continue (in R: numeric), quando sono esprimibili da numeri reali
•
Variabili Dicotomiche: quando le categorie sono solamente due
VALORI MANCANTI (missing value)
In R, i valori mancanti vengono codificati con NA (Not available), quindi la tabella diventerà:
Problema: le tecniche di analisi multivariata che andremo a considerare prevedono osservazioni con tutti i valori presenti.
Come possiamo comportarci allora?
1) Esclusione di variabili incomplete
2) Esclusione di osservazioni incomplete
Vediamo nel particolare ciascun caso:
ESCLUSIONE DI VARIABILI INCOMPLETE:
Diminuisce la dimensionalità p dei nostri dati. Però le variabili escluse potrebbero essere proprio quelle di interesse per l’analisi
Quindi magari io voglio vedere se c'è relazione tra il qi e gli occhi ma non avendo tutti i dati potrei avere problemi
ESCLUSIONE DI osSERVAZIONI INCOMPLETE:
ANALISI ESPLORATIVA Pagina 6
Diminuisce la numerosità n dei nostri dati.
DOMANDA: Vi vengono in mente altri potenziali problemi?
Avendo meno dati l'analisi non sarà completa soprattutto nel caso in cui i dati sono già pochi
WWII
Quanto segue è realmente accaduto durante la seconda guerra mondiale
• Obiettivo: proteggere gli aerei da caccia degli alleati negli scontri con i caccia della Luftwaffe
• Un caccia (Savoia-Marchetti S.M.79) è un velivolo leggero e agile
• Per evitare l’abbattimento, questi aerei venivano corazzati con robuste lastre di ferro
• Problema: quante corazze e dove le mettiamo? Se un aereo non è corazzato, è facile da abbattere; se è troppo corazzato, è difficile da manovrare
• Per un aereo abbiamo 4 settori:
• (A) ali
-
- (B) alimentazione
- (C) fusoliera
(D) motore
-
Possiamo mettere la corazza in un solo settore. Dove la mettiamo?
• Per rispondere alla domanda guardiamo i dati degli aerei
•
Come possiamo vedere gli aerei che sono ritornati in campo sono 4 e tutte quante
Nonostante sono state colpite alle ali, all'alimentazione, alla fusoliera hanno resistito ai colpi nemici e sono riuscite
A tornare in campo, quindi probabilmente quelle scomparse saranno state colpite al motore
TABELLA DEI DATI
Nota: la media delle densità di colpi (numero di colpi per decimetro quadrato) è calcolata escludendo i valori (aerei) mancanti
Grazie a questa tabella, lo statistico Abraham Wald fu in grado di posizionare la protezione nel punto più rischioso Ossia il motore
Fonte: D. Hand (2019) Il tradimento dei numeri. I dark data e l’arte di nascondere la verità. Rizzoli
L'opinione di uno statistico
The armor doesn’t go where the bullet holes are.
It goes where the bullet holes aren’t.
The observed holes showed where the planes were strongest;
that’s where the planes could be shot and still survive the flight home.
The missing holes showed where the planes were weaker;
that’s where the planes that didn’t make it back were hit.
Abraham Wald
DOMANDA
Pensate di far visita ad un ospedale militare durante una guerra:
vi aspettate di osservare più feriti alle gambe o alla testa?
RISPOSTA
Molto probabilmente alla gamba perché quelli che ricevono colpi alla testa muoiono sul colpo …
VALORI MANCANTI-NON A CASO ANALISI ESPLORATIVA Pagina 7
IN QUESTO CASO I VALORI SO
-
Appunti Analisi statistica multivariata - Analisi esplorativa
-
Appunti di Analisi esplorativa - Analisi statistica multivariata
-
Appunti ed esercitazioni di Analisi Esplorativa - Analisi Statistica Multivariata
-
Laboratori + Soluzioni esami di Analisi Esplorativa