Anteprima
Vedrai una selezione di 13 pagine su 56
Analisi multivariata - parte di Golini Pag. 1 Analisi multivariata - parte di Golini Pag. 2
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Analisi multivariata - parte di Golini Pag. 6
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Analisi multivariata - parte di Golini Pag. 11
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Analisi multivariata - parte di Golini Pag. 16
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Analisi multivariata - parte di Golini Pag. 21
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Analisi multivariata - parte di Golini Pag. 26
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Analisi multivariata - parte di Golini Pag. 31
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Analisi multivariata - parte di Golini Pag. 36
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Analisi multivariata - parte di Golini Pag. 41
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Analisi multivariata - parte di Golini Pag. 46
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Analisi multivariata - parte di Golini Pag. 51
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Analisi multivariata - parte di Golini Pag. 56
1 su 56
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Data Mining Golini

(cose importanti)

CAP. 2

  • supporto → n11 /n → importante solo perché suggerisce il segno dell'associazione.

Se n11 = n*11 allora sono indipendenti

  • n11 > n*11 ASSOC. POS.
  • n11 < n*11 ASSOC. NEG.
  • confidenza → è una regola asimmetrica
  • ci dice con forza della relazione ma, non tenendo conto del conseguente, potrebbe risultare sbagliato.
  • lift → confidenza tenendo conto del conseguente
  • serve per dirci se la relazione è interessante oppure no

(A → C): n11 /n.1

(C → A): n11 /n1.

confidenza n11 /h oppure n11 (n.1 )/n

  • <1: non lo è
  • =1: indifferente
  • >1: è interessante

CAP. 3

A = a11 ... ... a1p ai1 ... ... aip am1 ... ... amp

vettore riga

al = [ a1 ... a1s ... a1p ] 1x

al = a11 ... alm

vettore colonna

  • tipi di matrice:
  • quadrata: stesso n righe e n colonne (diag. princ. è elementi aij dove i=j).
  • simmetrica: 1^riga = 1^colonna, 2^riga = 2^colonna, ecc... (aij = aji).
  • diagonale: gli elementi fuori dalla diagonale principale sono pari a 0, quindi aij dove i≠j sono = 0.
  • trasposta: si invertono le righe e le colonne: se A^t = A allora è

Matrice e simmetrica

  • Identita: sarebbe In ed è una matrice che ha tutti 1 sulla diag. principale, mentre il resto è 0.
  • Idempotente: H quando H moltiplicata per se stessa fa sempre H. Quindi (H = X(X'-1)X') per se stessa fa X(X'X)-1 X'.
  • Ortogonale: matrice dove la trasposu è uguale all'inversa, perciò essendo che A-1 . A = I, varrà anche A' A = I.
  • Inversa: matrice che moltiplicata per quella originale dà In.

Dal sapere anche come si fa somma (solo se le 2 matrici hanno lo stesso n° di righe e colonne), moltiplicazione (se fosse il numero di col della matrice A = no righe della matrice B: es. A x B si può fare e dà luogo ad una matrice C), determinante (anche se ≠ 0 e o è 2x3 3x4 matrice sarà singolare ≠ 0 quindi non invertibile).

Vettori linearmente indisp. → X1..Xe sono vettori linearmente indipendenti se qualsiasi combinazione lineare c1x1+...+cexe è diversa dal vettore nullo, fatta eccezione per il caso banale in cui c1, c2,..ce = 0.

Spazio vettoriale → la base sono k vettori linearmente indipe= denti e ogni elemento all'interno può essere scritto in maniera unica come combinazione della base dello spazio vettoriale.

Rango → rappresenta il n° max di righe o di colonne linearmente indipendenti, se lo sono tutti si dice che la matrice ha rango pieno e possiamo invertire la matrice se si verifica quest'ultimo caso.

Traccia → sarebbe la somma degli elementi che stanno sulla diagonale principale: Σi aii

quando ad ogni valore → x̄s = 1n Σi=1 xis

devo togliere la media 1pXn xis

x̄ =

  • x11 - x̄1 ... x1s - x̄s ... x1p - x̄p
  • xi1 - x̄1 ... xis - x̄s ... xip - x̄p
  • ...
  • xn1 - x̄1 ... xns - x̄s ... xnp - x̄p

Matrice dei dati centrati

Scomposizione di un vettore

s = s1/n1 + s/n1

Osservazioni:

  1. s1 e x̄s sono perpendicolari, quindi il loro prodotto scalare fa 0.

    <x̄s1, x̄s> = (x̄s1•1) x̄s = x̄s Σn(x̄is-x̄s) = 0

  2. La lunghezza di x̄s al quadrato da la deviazione, ovvero il numeratore della varianza:

    ||s/n1|| = (s/s-x̄s)2 = x̄s Σn(x̄is-x̄s)2 = n Σn(x̄is-x̄s)2 = n Var(x̄s)

  3. La moltiplicazione tra x̄s e x̄ dà la covarianza, numeratore della covarianza:

    <x̄s, x̄> = x̄s x̄ = Σi (x̄iv-x̄) = Cov(x̄s, x̄)

    Questo prodotto può anche essere scritto come:

    ||x̄s|| ||x̄|| cos(θsv)

  4. Cos(θsv) = Cov(x̄s, x̄)/√Var(x̄s) √Var(x̄) = r

L'angolo fra due vettori può anche essere scritto come differenza tra θb e θa, in particolare avendolo a = [a1, a2] b = [b1, b2], dobbiamo fare:

cos(θa) = a1/||a|| cos(θb) = b1/||b||

sin(θa) = a2/||a|| sin(θb) = b2/||b||

Quindi: cos(θab) = cos(θb)•cos(θa) + sin(θb)•sin(θa) = a1 n1 + a2 n2/na1 nb1 + ||a|| ||b||

Cos(θ) = 0 se a•b = 0 (angolo di 90° o 270°)

Varianza totale

sarebbe la traccia di S, quindi la somma delle p varianze:

  • VarT = ∑s=1p Var(xs) = tr(S)

Spazio delle osservazioni

VarT sarebbe la somma di 1/n ∑ ||xs||2, quindi:

  • VarT = 1/n ∑i=1n ||xi||2

Spazio delle variabili

VarT sarebbe la distanza al quadrato tra ui e x̄, quindi:

  • VarT = 1/n ∑i=1n d²(ui; x̄)

Nota: differenza tra norma e distanza:

x = [ 1 2 3 ]

||x|| = √(x² + 2² + 1² + 2² + 3²)

d(ui; uj) = √(1-2)² + (1-2)²

d(ui; x̄) = √(1-x̄1²) + (2-x̄1²) + (1-2)² + (2-1)² + (3-2)²

d│det│

Quindi uso la varianza generalizzata che tiene conto di tutti gli elementi della matrice S, quindi annulla le cov., perciò:

  • VarG = det(S)

Spazio delle osservazioni

(Area parallelepipedo)

  • Area paral. = b × h = bo × lo × sin(θ)
  • sin²(θ) + cos²(θ) = 1

aumenta quando l’imp. del vettore scarto della media aumenta

  • Area = ||x1|| ||x2|| √1-cos²(θ)
  • = √var(x1) √var(x2) √1-r122
  • = n √var(x1) var(x2) (1-r122)

Spazio delle variabili

Qui il semiasse dell’ellisse è il semiasse alto che costantini a dore ha ruolo lunghezza sono gli autovalori. L’autovett. anche qui:

  • Avaramo norma = 1 s11...l11
  • = -to = 0
  • = p -1 = s12+ √r12l21
Dettagli
Publisher
A.A. 2022-2023
56 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Simo.pa di informazioni apprese con la frequenza delle lezioni di Analisi multivariata e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Golini Natalia.