lunedì 24 febbraio 2025 09:26
Libro : JW 1.1, 1.2, 1.3, EH 1.3, 1.3.1
Appunti 24/02/2025
Introduzione al corso. La matrice dei dati
Che cos'è l'Analisi multivariata?
Riguarda l’analisi congiunta di più variabili misurate sul medesimo insieme di unità statistiche
-
- In qualche caso ha senso l’analisi delle singole variabili raccolte, molto più spesso le variabili sono legate in modo tale che solo
un’analisi congiunta di esse permette di rilevare pienamente la struttura dei dati
--> ESEMPIO: l'altezza, larghezza, profondità hanno più senso analizzate insieme
Le tecniche per l’analisi di dati multivariati possono avere una natura descrittiva/esplorativa oppure inferenziale
- Per gli scopi di questo corso, ci occuperemo principalmente delle tecniche descrittive/esplorative, lasciando gli aspetti
- inferenziali a corsi più avanzati
Obiettivi
Fra i molteplici obiettivi dell’analisi multivariata considereremo:
1) Esplorazione di dati multidimensionali (exploratory analysis)
2) Riduzione della dimensionalità dei dati (dimensionality reduction)
Analisi delle componenti principali (principal component analysis)
• Analisi fattoriale (factor analysis)
•
3) Raggruppamento delle unità statistiche (cluster analysis)
k-medie (k-means)
• analisi dei gruppi gerarchica (hierarchical clustering)
•
Unsupervised learning
Nella nomenclatura della letteratura machine learning questi temi vanno
sotto il nome di unsupervised learning
Significa che l’apprendimento non è guidato da una variabile risposta,
come invece accade nei problemi di supervised learning
DOMANDA: qual è la differenza tra supervised learning & Unsupervised learning?
Obiettivo 2 :riduzione della dimensionalità
Input ×
matrice X n p con p variabili quantitative
Output ×
matrice Y n q con q < p variabili quantitative
Obiettivo
Ridurre la dimensione perdendo meno informazione possibile
ESEMPIO - Dati heptathlon
L’eptathlon è una specialità dell’atletica leggera che contempla p = 7 gare di discipline diverse:
· hurdles: 100 metri ostacoli
· highjump: salto in alto
· shot: getto del peso
· run200m: 200 metri piani
· longjump: salto in lungo
· javelin: tiro del giavellotto
· run800m: 800 metri piani I dati che abbiamo a disposizione riguardano i risultati di n = 25 atlete alle
Olimpiadi di Seul del 1988
ANALISI ESPLORATIVA Pagina 1 I dati che abbiamo a disposizione riguardano i risultati di n = 25 atlete alle
Olimpiadi di Seul del 1988
OBIETTIVO: Determinare un pu
-
Insiemi - introduzione all'analisi matematica
-
Introduzione all'analisi di bilancio
-
Introduzione
-
Introduzione