Anteprima
Vedrai una selezione di 20 pagine su 115
Appunti di Analisi dei Dati e Data Mining Pag. 1 Appunti di Analisi dei Dati e Data Mining Pag. 2
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 6
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 11
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 16
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 21
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 26
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 31
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 36
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 41
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 46
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 51
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 56
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 61
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 66
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 71
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 76
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 81
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 86
Anteprima di 20 pagg. su 115.
Scarica il documento per vederlo tutto.
Appunti di Analisi dei Dati e Data Mining Pag. 91
1 su 115
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

ECCO DIMOSTRATO TALE DUPLICE RISULTATO

Parte 2.1: LE MATRICI DEI DATI.

La MATRICI DI DATI è l’elemento alla base di ogni ANALISI STATISTICA APPLICATA.

• Le matrice dei dati possono essere classificate in:

o MATRICI UNITÀ – VARIABILI;

o MATRICI UNITÀ – UNITÀ;

o MATRICI VARIABILI – VARIABILI.

Analizziamole singolarmente:

• MATRICI UNITÀ – VARIABILI: è la tipologia più utilizzata di matrice di dati.

Come detto in precedenza, convenzionalmente, la matrice genera

,

due tipi di vettori:

- RIGA ( vettori in );

- COLONNA ( vettori in ).

Convenzionalmente abbiamo detto anche che i vettori (o punti) sono

indicati dalle colonne. In linea di massima però, quando si effettua

un’analisi statistica e si costruisce la matrice dei dati in modo unità –

variabili, ciò che interessa è il comportamento della unità statistica

che sono convenzionalmente posizionate sulle righe quindi

nell’analisi statistica si possono immaginare due tipi di lettura, ovvero si

può privilegiare la LETTURA PER RIGA o la LETTURA PER COLONNA

(quindi il punto o vettore è indicato o da una riga o da una colonna).

Distinguiamo diversi tipi di matrici unità – variabili:

1) MATRICI DI INTENSITÀ: per ciascuna unità statistica si rilevano delle misure quantitative (delle

quantità). Ad esempio, se misuro i tempi necessari agli atleti per correre i 100m ecco che ho una

misura quantitativa.

2) TABELLE DI CONTINGENZA (o di ASSOCIAZIONE o a DOPPIA ENTRATA): si costruiscono a partire da

una coppia di variabili qualitative (caratteri statistici qualitativi);

3) TABELLE DEI PUNTEGGI: ad ogni unità statistica viene chiesto di esprimere un PUNTEGGIO circa

l’apprezzamento su un certo aspetto (ad esempio sulla qualità della vita o sullo stato di salute). Il

punteggio varia tra un minimo e un massimo noti;

4) TABELLE DI PREFERENZE: ad ogni unità statistica viene chiesto di esprimere un LIVELLO DI

GRADIMENTO circa un aspetto (ad esempio un prodotto acquistato). Anche in questo caso il

punteggio è espresso su una scala di cui sono noti il minimo e il massimo.

Sia per le tabelle dei punteggi che per le tabelle di preferenze viene usata la SCALA DI RICHTER.

5) TABELLE DI RANGHI: ogni unità statistica è ordinata in base ai risultati di una prova e di

14

conseguenza le viene assegnato un RANGO (posto) in graduatoria;

14 Il rango è un numero che mi dà la posizione in una graduatoria.

24 – Appunti a cura di Mario Giorno.

6) TABELLE BOOLEANE: esprimo la preferenza o l’assenza di una certa caratteristica. Sono composte

da variabili misurate su determinate unità statistiche; tali variabili possono assumere solo due

valori: 1 quando c’è la presenza di una caratteristica che mi interessa, viceversa 0 (es: assume valore

1 se una persona fuma, 0 se una persona non fuma). →

TRASFORMAZIONI SUI DATI DELLE MATRICI UNITÀ VARIABILI Un aspetto molto importante è che

sulle matrici unità – variabili e in particolare sulle MATRICI INTENSITÀ, si possono fare alcune particolari

e importanti TRASFORMAZIONI:

o CENTRATURA: si intende centrare rispetto alla media. Infatti, si sottrae a ciascun elemento

̅ ̅

− ;

generico ( ) della matrice la media aritmetica delle variabili di colonna ( )

, . .

o STANDARDIZZAZIONE: il dato centrato viene diviso per lo scarto quadratico medio della variabile

→[ ̅

− ]/

colonna ;

. .

o ̅

NORMALIZZAZIONE (che la vedremo più per gli indici che per i dati): si prende la variabile colonna .

si sottrae il minimo di colonna e si divide il tutto per la differenza tra il massimo valore di colonna

̅

.

→ .

meno il minimo valore di colonna −

N.B. con indico la colonna j esima; con indico la riga i esima.

. .

ESEMPI: questa è una matrice unità variabili e anche una matrice di intensità.

Sono considerate 107 province

italiane, ma per semplificare solo

alcune ne sono riportate.

La LETTURA PER RIGA, ad esempio, di

Alessandria mi da un profilo completo

di tale unità statistica.

Lettura per colonna: ad AGRIGENTO Lettura per colonna: ad AGRIGENTO il

il 10% (10 persone su 100) di 14enni 4,4% di 14enni e più, hanno

e più, parlano tutti i giorni di politica. partecipato ad un comizio.

Quindi, la LETTURA PER COLONNA mi dice con riferimento a quella

variabile il comportamento di tutte le unità statistiche.

Analizziamo adesso le trasformazioni in riferimento ad una colonna:

MEDIA

o 9,56

CENTRATURA: bisogna innanzitutto trovare la MEDIA

ARITMETICA che è di 9,56, quindi il coinvolgimento

politico espresso attraverso il fatto di parlare di politica

tutti i giorni è tra le province italiane a 9,56 ovvero Persone di 14 anni e

Persone di 14 anni e più che parlano di

mediamente il 9,56% delle persone 14enni e più parla più che parlano di politica tutti i giorni

politica tutti i giorni. Prov politica tutti i giorni CENTRATURA

AGRIGENTO 10,00 0,44

Successivamente si va a prendere la variabile colonna ALESSANDRIA 10,00 0,44

ANCONA 10,00 0,44

̅

(ad esempio , ovvero 10,00) alla quale SI

. 11 AREZZO 9,70 0,14

ASCOLI PICENO 7,70 -1,86

SOTTRAE LA MEDIA DI COLONNA. ASTI 7,70 -1,86

AVELLINO 10,00 0,44

Notiamo come: BARI 12,80 3,24

- a differenza dei valori iniziali, la variabile centrata BARLETTA-ANDRIA-TRANI 10,00 0,44

BELLUNO 7,70 -1,86

assume sia valori POSITIVI che NEGATIVI infatti, BENEVENTO 7,70 -1,86

la loro caratteristica principale è che ̅

− = − =

.

indipendentemente dal valore iniziale i dati = , − , = ,

Questa dato ci dice quanto si DISCOSTA dalla

centrati assumono valori sia negativi che positivi. media, ovvero ad Agrigento la gente è più

- Inoltre, la MEDIA ARITMETICA di un dato centrato coinvolta della media italiana nella politica.

vale 0 perché non ci sono scostamenti.

25 – Appunti a cura di Mario Giorno.

o STANDARDIZZAZIONE: quello che devo fare è prendere lo SCARTO DELLA MEDIA, ovvero il valore

centrato, e dividerlo per lo SCARTO QUADRATICO MEDIO. Lo SCARTO QUADRATICO MEDIO è la

ed è una . La mi dice

RADICE QUADRATA DELLA VARIANZA MISURA DELLA VARIABILITÀ VARIABILITÀ

quanto nelle province italiane la gente si comporta in maniera simile o dissimile per quanto

riguarda il coinvolgimento in politica. MEDIA 9,56

SCARTO QUADRATICO MEDIO 1,63

Quindi io adesso so che in MEDIA il

9,56% della gente parla di politica tutti

i giorni con una variabilità di 1,63 (che Persone di 14 anni e Persone di 14 anni e più

Persone di 14 anni e più che parlano di che parlano di politica tutti

è poca) quindi le province italiane più che parlano di politica tutti i giorni i giorni

Prov politica tutti i giorni CENTRATURA STANDARDIZZAZIONE

hanno un comportamenti abbastanza AGRIGENTO 10,00 0,44 0,27

ALESSANDRIA 10,00 0,44 0,27

uniforme e quindi poco variabile con ANCONA 10,00 0,44 0,27

AREZZO 9,70 0,14 0,08

riferimento al parlare di politica tutti i ASCOLI PICENO 7,70 -1,86 -1,15

ASTI 7,70 -1,86 -1,15

giorni. AVELLINO 10,00 0,44 0,27

BARI 12,80 3,24 1,99

Notiamo come: BARLETTA-ANDRIA-TRANI 10,00 0,44 0,27

- avremo sia valori POSITIVI che BELLUNO 7,70 -1,86 -1,15

BENEVENTO 7,70 -1,86 -1,15

NEGATIVI. In particolare, se la

variabile centrata è positivo allora la variabile standardizzata è ̅

− −

.

=

anche positiva e viceversa, quindi il segno è dato dallo scarto .

, − ,

della media. = ,

- la MEDIA ARITMETICA della variabile standardizzare è pari a 0;

- le variabili standardizzate hanno VARIANZA UNITARIA (VAR=1);

o

NORMALIZZAZIONE: bisogna prendere la variabile colonna , sottrarle il minimo di colonna e

.

dividere il tutto per la differenza tra il massimo valore di colonna meno il minimo valore di colonna.

MEDIA 9,56

SCARTO QUADRATICO MEDIO 1,63 Persone di 14 anni e Persone di 14 anni e più Persone di 14 anni e più

Persone di 14 anni e più che parlano di che parlano di politica tutti che parlano di politica

più che parlano di politica tutti i giorni i giorni tutti i giorni −

Prov politica tutti i giorni CENTRATURA STANDARDIZZAZIONE NORMALIZZAZIONE . =

AGRIGENTO 10,00 0,44 0,27 0,45 −

ALESSANDRIA 10,00 0,44 0,27 0,45

ANCONA 10,00 0,44 0,27 0,45

AREZZO 9,70 0,14 0,08 0,39 = 0,45

ASCOLI PICENO 7,70 -1,86 -1,15 0,00

ASTI 7,70 -1,86 -1,15 0,00

AVELLINO 10,00 0,44 0,27 0,45

BARI 12,80 3,24 1,99 1,00

BARLETTA-ANDRIA-TRANI 10,00 0,44 0,27 0,45

BELLUNO 7,70 -1,86 -1,15 0,00

BENEVENTO 7,70 -1,86 -1,15 0,00

Notiamo come:

- i valori sono TUTTI POSITIVI;

- l’ESTREMO SUPERIORE è 1.

- Con la normalizzazione tengo sotto controllo il RANGE, ovvero la differenza tra il valore max e il

valore min.

N.B. la variabile standardizzata e la variabile normalizzata non hanno nulla a che fare con il senso di

interpretazione delle variabili di partenza; infatti, si leggono in tal modo: ad esempio Agrigento ha 0,27

punti standardizzati e 0,45 punti normalizzati. Quindi si perde la interpretabilità (infatti cosa vuol punti

standardizzati?) però si possono fare sempre i confronti con le altre regioni.

26 – Appunti a cura di Mario Giorno.

• MATRICI UNITÀ – UNITÀ: (usata nella cluster analisi) sono matrici aventi come intestazione di riga e di

colonna le UNITÀ STATISTICHE (ad esempio i LUOGHI). Ovvero sulla intestazione delle righe e delle

colonne metto la stessa cosa, in questo caso i LUOGHI. Una volta fatto ciò all’interno della matrice si

scriveranno dei numeri che presentano la DISTANZA tra il luogo intestazione di riga e il luogo

intestazione di colonna.

Gli elementi della matrice rappresentano misure di similarità, oppure distanze, oppure flussi.

Un paio di esempi:

o MATRICE DI DISTANZA o DISSIMILARITÀ

- Nella MATRICE DI DISTANZA la DIAGONALE PRINCIPALE ha tutti i valori pari a ZERO (sono

presenti i valori che già conoscia

Dettagli
Publisher
A.A. 2022-2023
115 pagine
2 download
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher mariogiorno di informazioni apprese con la frequenza delle lezioni di Analisi dei dati e data mining e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Roma La Sapienza o del prof Arezzo Maria Felice.