Estratto del documento

TIPOLOGIA DI VARIABILI

Le variabili si suddividono in due tipologie:

1) Qualitative (o categoriche)

nominali (in R: factor), se non esiste nessun ordinamento naturale tra le categorie;

• ordinali (in R: ordered), se esiste un ordinamento naturale tra le categorie.

2) Quantitative (o numeriche)

discrete (in R: integer), quando sono esprimibili da numeri interi.

• continue (in R: numeric), quando sono esprimibili da numeri reali

Variabili Dicotomiche: quando le categorie sono solamente due

VALORI MANCANTI (missing value)

In R, i valori mancanti vengono codificati con NA (Not available), quindi la tabella diventerà:

Problema: le tecniche di analisi multivariata che andremo a considerare prevedono osservazioni con tutti i valori presenti.

Come possiamo comportarci allora?

1) Esclusione di variabili incomplete

2) Esclusione di osservazioni incomplete

Vediamo nel particolare ciascun caso:

ESCLUSIONE DI VARIABILI INCOMPLETE:

Diminuisce la dimensionalità p dei nostri dati. Però le variabili escluse potrebbero essere proprio quelle di interesse per l’analisi

Quindi magari io voglio vedere se c'è relazione tra il qi e gli occhi ma non avendo tutti i dati potrei avere problemi

ESCLUSIONE DI osSERVAZIONI INCOMPLETE:

ANALISI ESPLORATIVA Pagina 6

Diminuisce la numerosità n dei nostri dati.

DOMANDA: Vi vengono in mente altri potenziali problemi?

Avendo meno dati l'analisi non sarà completa soprattutto nel caso in cui i dati sono già pochi

WWII

Quanto segue è realmente accaduto durante la seconda guerra mondiale

• Obiettivo: proteggere gli aerei da caccia degli alleati negli scontri con i caccia della Luftwaffe

• Un caccia (Savoia-Marchetti S.M.79) è un velivolo leggero e agile

• Per evitare l’abbattimento, questi aerei venivano corazzati con robuste lastre di ferro

• Problema: quante corazze e dove le mettiamo? Se un aereo non è corazzato, è facile da abbattere; se è troppo corazzato, è difficile da manovrare

• Per un aereo abbiamo 4 settori:

• (A) ali

-

- (B) alimentazione

- (C) fusoliera

(D) motore

-

Possiamo mettere la corazza in un solo settore. Dove la mettiamo?

• Per rispondere alla domanda guardiamo i dati degli aerei

Come possiamo vedere gli aerei che sono ritornati in campo sono 4 e tutte quante

Nonostante sono state colpite alle ali, all'alimentazione, alla fusoliera hanno resistito ai colpi nemici e sono riuscite

A tornare in campo, quindi probabilmente quelle scomparse saranno state colpite al motore

TABELLA DEI DATI

Nota: la media delle densità di colpi (numero di colpi per decimetro quadrato) è calcolata escludendo i valori (aerei) mancanti

Grazie a questa tabella, lo statistico Abraham Wald fu in grado di posizionare la protezione nel punto più rischioso Ossia il motore

Fonte: D. Hand (2019) Il tradimento dei numeri. I dark data e l’arte di nascondere la verità. Rizzoli

L'opinione di uno statistico

The armor doesn’t go where the bullet holes are.

It goes where the bullet holes aren’t.

The observed holes showed where the planes were strongest;

that’s where the planes could be shot and still survive the flight home.

The missing holes showed where the planes were weaker;

that’s where the planes that didn’t make it back were hit.

Abraham Wald

DOMANDA

Pensate di far visita ad un ospedale militare durante una guerra:

vi aspettate di osservare più feriti alle gambe o alla testa?

RISPOSTA

Molto probabilmente alla gamba perché quelli che ricevono colpi alla testa muoiono sul colpo …

VALORI MANCANTI-NON A CASO ANALISI ESPLORATIVA Pagina 7

IN QUESTO CASO I VALORI SO

Anteprima
Vedrai una selezione di 3 pagine su 8
Analisi esplorativa, appunti Pag. 1 Analisi esplorativa, appunti Pag. 2
Anteprima di 3 pagg. su 8.
Scarica il documento per vederlo tutto.
Analisi esplorativa, appunti Pag. 6
1 su 8
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher ibty_05 di informazioni apprese con la frequenza delle lezioni di Analisi statistica multivariata e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Monti Gianna.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community