Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
ECCO DIMOSTRATO TALE DUPLICE RISULTATO
Parte 2.1: LE MATRICI DEI DATI.
La MATRICI DI DATI è l’elemento alla base di ogni ANALISI STATISTICA APPLICATA.
• Le matrice dei dati possono essere classificate in:
o MATRICI UNITÀ – VARIABILI;
o MATRICI UNITÀ – UNITÀ;
o MATRICI VARIABILI – VARIABILI.
Analizziamole singolarmente:
• MATRICI UNITÀ – VARIABILI: è la tipologia più utilizzata di matrice di dati.
Come detto in precedenza, convenzionalmente, la matrice genera
,
due tipi di vettori:
- RIGA ( vettori in );
- COLONNA ( vettori in ).
Convenzionalmente abbiamo detto anche che i vettori (o punti) sono
indicati dalle colonne. In linea di massima però, quando si effettua
un’analisi statistica e si costruisce la matrice dei dati in modo unità –
→
variabili, ciò che interessa è il comportamento della unità statistica
→
che sono convenzionalmente posizionate sulle righe quindi
nell’analisi statistica si possono immaginare due tipi di lettura, ovvero si
può privilegiare la LETTURA PER RIGA o la LETTURA PER COLONNA
(quindi il punto o vettore è indicato o da una riga o da una colonna).
Distinguiamo diversi tipi di matrici unità – variabili:
1) MATRICI DI INTENSITÀ: per ciascuna unità statistica si rilevano delle misure quantitative (delle
quantità). Ad esempio, se misuro i tempi necessari agli atleti per correre i 100m ecco che ho una
misura quantitativa.
2) TABELLE DI CONTINGENZA (o di ASSOCIAZIONE o a DOPPIA ENTRATA): si costruiscono a partire da
una coppia di variabili qualitative (caratteri statistici qualitativi);
3) TABELLE DEI PUNTEGGI: ad ogni unità statistica viene chiesto di esprimere un PUNTEGGIO circa
l’apprezzamento su un certo aspetto (ad esempio sulla qualità della vita o sullo stato di salute). Il
punteggio varia tra un minimo e un massimo noti;
4) TABELLE DI PREFERENZE: ad ogni unità statistica viene chiesto di esprimere un LIVELLO DI
GRADIMENTO circa un aspetto (ad esempio un prodotto acquistato). Anche in questo caso il
punteggio è espresso su una scala di cui sono noti il minimo e il massimo.
Sia per le tabelle dei punteggi che per le tabelle di preferenze viene usata la SCALA DI RICHTER.
5) TABELLE DI RANGHI: ogni unità statistica è ordinata in base ai risultati di una prova e di
14
conseguenza le viene assegnato un RANGO (posto) in graduatoria;
14 Il rango è un numero che mi dà la posizione in una graduatoria.
24 – Appunti a cura di Mario Giorno.
6) TABELLE BOOLEANE: esprimo la preferenza o l’assenza di una certa caratteristica. Sono composte
da variabili misurate su determinate unità statistiche; tali variabili possono assumere solo due
valori: 1 quando c’è la presenza di una caratteristica che mi interessa, viceversa 0 (es: assume valore
1 se una persona fuma, 0 se una persona non fuma). →
TRASFORMAZIONI SUI DATI DELLE MATRICI UNITÀ VARIABILI Un aspetto molto importante è che
sulle matrici unità – variabili e in particolare sulle MATRICI INTENSITÀ, si possono fare alcune particolari
e importanti TRASFORMAZIONI:
o CENTRATURA: si intende centrare rispetto alla media. Infatti, si sottrae a ciascun elemento
→
̅ ̅
− ;
generico ( ) della matrice la media aritmetica delle variabili di colonna ( )
, . .
o STANDARDIZZAZIONE: il dato centrato viene diviso per lo scarto quadratico medio della variabile
→[ ̅
− ]/
colonna ;
. .
o ̅
NORMALIZZAZIONE (che la vedremo più per gli indici che per i dati): si prende la variabile colonna .
si sottrae il minimo di colonna e si divide il tutto per la differenza tra il massimo valore di colonna
̅
−
.
→ .
meno il minimo valore di colonna −
→
N.B. con indico la colonna j esima; con indico la riga i esima.
. .
ESEMPI: questa è una matrice unità variabili e anche una matrice di intensità.
Sono considerate 107 province
italiane, ma per semplificare solo
alcune ne sono riportate.
La LETTURA PER RIGA, ad esempio, di
Alessandria mi da un profilo completo
di tale unità statistica.
Lettura per colonna: ad AGRIGENTO Lettura per colonna: ad AGRIGENTO il
il 10% (10 persone su 100) di 14enni 4,4% di 14enni e più, hanno
e più, parlano tutti i giorni di politica. partecipato ad un comizio.
Quindi, la LETTURA PER COLONNA mi dice con riferimento a quella
variabile il comportamento di tutte le unità statistiche.
Analizziamo adesso le trasformazioni in riferimento ad una colonna:
MEDIA
o 9,56
CENTRATURA: bisogna innanzitutto trovare la MEDIA
ARITMETICA che è di 9,56, quindi il coinvolgimento
politico espresso attraverso il fatto di parlare di politica
→
tutti i giorni è tra le province italiane a 9,56 ovvero Persone di 14 anni e
Persone di 14 anni e più che parlano di
mediamente il 9,56% delle persone 14enni e più parla più che parlano di politica tutti i giorni
politica tutti i giorni. Prov politica tutti i giorni CENTRATURA
AGRIGENTO 10,00 0,44
Successivamente si va a prendere la variabile colonna ALESSANDRIA 10,00 0,44
ANCONA 10,00 0,44
̅
(ad esempio , ovvero 10,00) alla quale SI
. 11 AREZZO 9,70 0,14
ASCOLI PICENO 7,70 -1,86
SOTTRAE LA MEDIA DI COLONNA. ASTI 7,70 -1,86
AVELLINO 10,00 0,44
Notiamo come: BARI 12,80 3,24
- a differenza dei valori iniziali, la variabile centrata BARLETTA-ANDRIA-TRANI 10,00 0,44
BELLUNO 7,70 -1,86
→
assume sia valori POSITIVI che NEGATIVI infatti, BENEVENTO 7,70 -1,86
la loro caratteristica principale è che ̅
− = − =
.
indipendentemente dal valore iniziale i dati = , − , = ,
Questa dato ci dice quanto si DISCOSTA dalla
centrati assumono valori sia negativi che positivi. media, ovvero ad Agrigento la gente è più
- Inoltre, la MEDIA ARITMETICA di un dato centrato coinvolta della media italiana nella politica.
vale 0 perché non ci sono scostamenti.
25 – Appunti a cura di Mario Giorno.
o STANDARDIZZAZIONE: quello che devo fare è prendere lo SCARTO DELLA MEDIA, ovvero il valore
→
centrato, e dividerlo per lo SCARTO QUADRATICO MEDIO. Lo SCARTO QUADRATICO MEDIO è la
ed è una . La mi dice
RADICE QUADRATA DELLA VARIANZA MISURA DELLA VARIABILITÀ VARIABILITÀ
quanto nelle province italiane la gente si comporta in maniera simile o dissimile per quanto
riguarda il coinvolgimento in politica. MEDIA 9,56
SCARTO QUADRATICO MEDIO 1,63
Quindi io adesso so che in MEDIA il
9,56% della gente parla di politica tutti
i giorni con una variabilità di 1,63 (che Persone di 14 anni e Persone di 14 anni e più
Persone di 14 anni e più che parlano di che parlano di politica tutti
→
è poca) quindi le province italiane più che parlano di politica tutti i giorni i giorni
Prov politica tutti i giorni CENTRATURA STANDARDIZZAZIONE
hanno un comportamenti abbastanza AGRIGENTO 10,00 0,44 0,27
ALESSANDRIA 10,00 0,44 0,27
uniforme e quindi poco variabile con ANCONA 10,00 0,44 0,27
AREZZO 9,70 0,14 0,08
riferimento al parlare di politica tutti i ASCOLI PICENO 7,70 -1,86 -1,15
ASTI 7,70 -1,86 -1,15
giorni. AVELLINO 10,00 0,44 0,27
BARI 12,80 3,24 1,99
Notiamo come: BARLETTA-ANDRIA-TRANI 10,00 0,44 0,27
- avremo sia valori POSITIVI che BELLUNO 7,70 -1,86 -1,15
BENEVENTO 7,70 -1,86 -1,15
NEGATIVI. In particolare, se la
variabile centrata è positivo allora la variabile standardizzata è ̅
− −
.
=
anche positiva e viceversa, quindi il segno è dato dallo scarto .
, − ,
della media. = ,
- la MEDIA ARITMETICA della variabile standardizzare è pari a 0;
- le variabili standardizzate hanno VARIANZA UNITARIA (VAR=1);
o
NORMALIZZAZIONE: bisogna prendere la variabile colonna , sottrarle il minimo di colonna e
.
dividere il tutto per la differenza tra il massimo valore di colonna meno il minimo valore di colonna.
MEDIA 9,56
SCARTO QUADRATICO MEDIO 1,63 Persone di 14 anni e Persone di 14 anni e più Persone di 14 anni e più
Persone di 14 anni e più che parlano di che parlano di politica tutti che parlano di politica
più che parlano di politica tutti i giorni i giorni tutti i giorni −
Prov politica tutti i giorni CENTRATURA STANDARDIZZAZIONE NORMALIZZAZIONE . =
AGRIGENTO 10,00 0,44 0,27 0,45 −
ALESSANDRIA 10,00 0,44 0,27 0,45
ANCONA 10,00 0,44 0,27 0,45
AREZZO 9,70 0,14 0,08 0,39 = 0,45
ASCOLI PICENO 7,70 -1,86 -1,15 0,00
ASTI 7,70 -1,86 -1,15 0,00
AVELLINO 10,00 0,44 0,27 0,45
BARI 12,80 3,24 1,99 1,00
BARLETTA-ANDRIA-TRANI 10,00 0,44 0,27 0,45
BELLUNO 7,70 -1,86 -1,15 0,00
BENEVENTO 7,70 -1,86 -1,15 0,00
Notiamo come:
- i valori sono TUTTI POSITIVI;
- l’ESTREMO SUPERIORE è 1.
- Con la normalizzazione tengo sotto controllo il RANGE, ovvero la differenza tra il valore max e il
valore min.
→
N.B. la variabile standardizzata e la variabile normalizzata non hanno nulla a che fare con il senso di
interpretazione delle variabili di partenza; infatti, si leggono in tal modo: ad esempio Agrigento ha 0,27
punti standardizzati e 0,45 punti normalizzati. Quindi si perde la interpretabilità (infatti cosa vuol punti
standardizzati?) però si possono fare sempre i confronti con le altre regioni.
26 – Appunti a cura di Mario Giorno.
• MATRICI UNITÀ – UNITÀ: (usata nella cluster analisi) sono matrici aventi come intestazione di riga e di
colonna le UNITÀ STATISTICHE (ad esempio i LUOGHI). Ovvero sulla intestazione delle righe e delle
colonne metto la stessa cosa, in questo caso i LUOGHI. Una volta fatto ciò all’interno della matrice si
scriveranno dei numeri che presentano la DISTANZA tra il luogo intestazione di riga e il luogo
intestazione di colonna.
Gli elementi della matrice rappresentano misure di similarità, oppure distanze, oppure flussi.
Un paio di esempi:
o MATRICE DI DISTANZA o DISSIMILARITÀ
- Nella MATRICE DI DISTANZA la DIAGONALE PRINCIPALE ha tutti i valori pari a ZERO (sono
presenti i valori che già conoscia