Che materia stai cercando?

Data Mining Appunti scolastici Premium

Appunti di data mining M con apprendimento supervisionato, tecniche di previsione con modelli parametrici e non parametrici basati su appunti personali del publisher presi alle lezioni del prof. Solari dell’università degli Studi di Milano Bicocca - Unimib. Scarica il file in formato PDF!

Esame di Data mining M docente Prof. A. Solari

Anteprima

ESTRATTO DOCUMENTO

Le regole di classificazione di Bayes, evidenzia una funzione di regressione

(x) = = = = 1|X =

|X

f E(Y x) P r(Y x)

La regola di Bayes quindi associa 1 alla funzione che risulta essere maggiore di , che si può fare se conosco

12

f(x), cosa che noi non conosciamo e valore 0 altrimenti.

Otteniamo il margine di decisione: 1

: (x) =

{x }

f 2

e la sua ottimalità che corrisponde al rischio di Bayes:

= (X)) =

6 ≤ 6

P r(Y C P r(Y C(X))∀C

in cui abbiamo l’errore irriducibile a sinistra.

La classificazione è considerata più semplice rispetto alla regressione, poichè prende valori superiori ad una

certa soglia ed assume valore 1, mentre per i restanti ha valore 0, generando così una variabile dicotomica.

La regressione prevede i dato osservati attraverso una funzione che risulta essere lineare, interpolando i dati

in modo molto approssimativo. La logistica invece segue di più l’andamento dei dati reali.

Ciò che ci interessa non è stimare bene la vera funzione di regressione (x), ma ci interessa che per i valori

f

maggiori di sia positivo e per i valori inferiori, sia negativo. voglio ottenere quindi un classificatore coerente.

12

esempio credit card.

bilancio è la variabile che discrimina di più, la variabile più importante. vediamo la differenza tra lineare e

logistica. nel primo caso classifico tutti come 0, poichè la retta tende a stare sui valori bassi e in più stima

valori negativi non possibili. la logistica stima in modo migliore. abbiamo un default pari a yes con un

bilancio superiore a 1500 (vedremo poi nell’esempio sul dataset).

Con il modello di analisi discriminante vedremo che non è sempre sbagliato usare il modello lineare, perchè

potrebbe classificare bene.

Regressione logistica

Scriviamo (X) = = 1|X) in breve. il modello logistico utilizza:

P P r(Y p(X) = + + +

log β β X ... β X

p p

0 1 1

1 − p(X)

che può essere riscritto come: β X X

+β +...+β

e p p

0 1 1

1 β X X

+β +...+β

− e p p

0 1 1

esempio arancio e blu

Vogliamo costruire la suddivisione tra i colori che non sia lineare ma che meglio approssima.

Posso usare anche qui il metodo dei k vicini più vicini. nel caso delle slide, prende i 3 più vicini e vado a

vedere quale sia il numero maggiore di vicini della cateoria. (metodo non parametrico come già sapevamo).

Con k=1 rischio di andare in overfitting e con k=100 troppo elevato, ottengo una separazione più o meno

lineare che non va bene, per un motivo contrapposto al precedente, poichè mi sto adattando troppo poco ai

dati. è meglio un k in mezzo come k=10.

Dopo aver suddiviso un dataset in training e test set ed aver effettuato la selezione del modello attraverso

le tecniche fino ad ora utilizzate, ottengo un MSE per training che mi darà un’informazione relativamente

importante, poichè ciò che mi interessa è l’MSE di test, cioè quanto la previsione che ho effettuato, si adatta

ai veri valori che non osservo.

L’errore di training come già studiato, decresce costantemente, in modo tale che con la numeroità massima,

avrò un errore pari a 0. L’errore di test invece sappiamo che graficamente ha un punto di minimo che

raggiunge nella selezione del modello migliore per poi risalire , cioè aumentando l’errore di test.

9

Ciò che provo a fare è approssimare quello appena visto con una funzione polinomiale di grado sempre

maggiore. la migliore in questo caso sembra quella con MSE minore quindi al cubo.

Oltre al metodo dei k vicini più vicini posso scegliere di utilizzare altri metodi come la cross-validation.

Matrice di confusione

Incrociamo la verità con la previsione. gli errori li commentiamo sommando la diagonale non principale e

dividendola per il totale delle osservazioni. un risultato basso non sempre può essere una cosa positiva, poichè

se prendo una sola classe che mi da più errore e la isolo, calcolando l’errore di misclassificazione ottengo un

risultato più alto. ciò che mi interessa in realtà sono i falsi negativi e i falsi positivi. quindi farò un rapporto

tra falsi positivi sul totale dei positivi e lo stesso faccio con i negativi e i falsi negativi.

Vado a variare il threshold per avere degli errori diversi (cioè la soglia, quando decido numericamente parlando

di suddividere in 0 e 1 sopra una certa soglia.

Uno strumento utile per rappresentare fasi positivi sull’asse delle ascisse e veri positivi sull’asse delle ordinate

è la curva ROC, che per ogni valore del threshold, otteniamo in true positive rate e il false positive rate.

rappresentiamo la proporzione di veri positivi con falsi positivi. è importante l’area sotto questa curva. ciò

che ci aspettiamo è di stare al di sopra della bisettrice.

La performance totale è data da: AUC = Area sotto la curva ROC=0.95

- An ideal ROC curve will hug to the top left corner (AUC=1), so the larger AUC the better the classifier

- Classifying always to the class No is the diagonal dotted line, with AUC = 0.5

La soglia posso deciderla in base alla cross-validation, attraverso soglie differenti le varie quantità, in base

alla missclassificazione interessata. Se abbiamo un errore piuttosto basso, come nell’esempio del credit card,

dobbiamo abbattere l’errore false negative rate e non tanto l’errore globale.

Missing Values

In molti casi, alcuni predittori possono avere dati mancanti.

Possono essere mancanze in senso strutturale oppure non determinato.

Ci possono essere dati mancanti, ma ciò non è informativo (errore di trascrizione).

soluzioni:

- elimino tutti gli NA se sono poche osservazioni su un dataset molto grande.

- togliamo i predittori che presentano dati mancanti.

- Imputare i dati mancanti (es. se abbiamo dati mancanti relat6ivi all’età, li sostituisco con la media dei dati

non mancanti di quella variabile) - modelli che funzionano anche con dati mancanti (alberi di classificazione).

I dati mancanti sono spesso informativi.

Vedremo come imputare i dati, utilizzare training per prevedere e confermare con test set. un metodo

popolare è quello dei k vicini più vicini. sui secondi sappiamo qualcosa del dato che manca. su questi

dati mancanti e censurati sono differenti.

dati sappiamo qualcosa, che può darci un’informazione corrispndente alla data odierna oppure maggiore.

Analisi discriminante

Abbiamo due o più classi come variabile risposta (binaria o multiclasse).

Considerando il modello = = 0) e = = 1), separatamente la distribuzione di in 0 e 1.

P r(X x|Y P r(X x|Y X

Faccio un modello per descrivere la distribuzione di dato e poi uso il teorema di Bayes per ricavare la

X Y

distribuzione di dato = 0|X = e = 1|X = Ipotizzo che = 0 sia normale con

Y X: P r(Y x) P r(Y x). X|Y

rispettive medie e varianze e lo stesso faccio per = 1.

X|Y

10

Teorema di bayes: = 1|X = = 1)

P r(Y x)P r(Y

(x) = = 1|X = =

f P r(Y x) = = 1)P = 1) + = = 0)P = 0)

P r(X x|Y r(Y P r(X x|Y r(Y

(x)π

f 1 1

= (x)π + (x)(1 )

f f π

1 1 0 1

dove:

(x) = (x|Y = 0) è la densità di nella classe 0.

f f X

0 (x) = (x|Y = 1) è la densità di nella classe 1.

f f X

1 = = 1) è la marginale o prior probability di = 1

π P r(Y Y

1 f (x)

La regola di Bayes ci dice che se (x) allora (x) = 1 se e solo se . Altrimenti è uguale a 0.

1−π

1 1

f > C > 1

f π

2 (x)

0 1

Dai dati di training possiamo poi stimare dalle per = 0 e dalle per = 1.

f x y f x y

i i i i

0 1

ˆ

f (x) . Altrimenti è uguale a 0.

Ottengo quindi: (x) = 1 se 1−π̂

∗ 1

C > 1

ˆ π̂

f (x) 1

0

Analisi Discriminante Lineare per p=1

Analisi discriminante su e assumendo che siano normali, allora ho una certa funzione di densità a

f f

0 1

noi nota. faccio assunzioni riguardo media (µ ) e varianza (σ ). L’analisi discriminante lineare assume che

2

k k

= =

2 2 2

σ σ σ

0 1

Stima dei parametri ignoti sempre per = 1. In generale sono medie campionarie e varianze campionarie.

p

ottengo quindi l’ottimo e la stima dell’ottimo. Le stime a questo punto devono essere sostituite all’interno

ˆ ˆ

della stima di (x) e (x).

f f

0 1 ˆ

ˆ

Ottengo quindi la stima di che è pari a 1 se (x) (x) e 0 altrimenti.

Ĉ(x) δ > δ

1 0

ˆ 2

µ̂ +

(x) = µ̂ −

· log(π̂

δ x k k

k k

2 2

σ̂ 2σ̂

(x) è la stima della funzione discriminante lineare della classe per = 0, 1 ed è una funzione lineare di

δ k k x.

k

Osservo un coefficiente che moltiplica e una costante che è il restante.

x

Tornando al teorema di bayes: ˆ (x)π̂ δ̂ (x)

f e 1

ˆ ˆ 1 1

(x) = = 1|X = = =

f P r(Y x) ˆ ˆ

(x)π̂ + (x)(1 ) + δ̂

δ̂ (x)

(x)

f f π̂ e

e 1

0

1 1 0 1

e ˆ ˆ

= 0|X = = 1 = 1|X =

P r(Y x) P r(Y x)

1

p >

Analisi Discriminante Lineare per

Come nel caso con 1 solo predittore, con la differenza che ha una densità di una normale multivariata. Ho

quindi matrici di varianze e covarianze e vettori di medie.

Graficamente:

Consideriamo due cerchi che corrispondono a normali con funzione di densità e voglio trovare la funzione

lineare che discrimina queste 2. Gli arancioni hanno osservazioni con valori e in quella regione e come

x x

1 2

blu tutto ciò che cade dall’altra parte. ovviamente c’è qualche errore poichè c’è un’intersezione.

Ci sono poi altre immagini con 3 classi, dove abbiamo una linea tratteggiata che corrisponde al classificatore

ottimale e ciò che stimo è la linea continua. Analogo a sinistra con 3 variabili normali multivariate.

11

Analisi discriminante quadratica

Con la quadratica, non assumo l’omoschedasticità e ho la stessa regola di classificazione.

Non abbiamo più una funzione lineare in ma abbiamo una forma quadratica.

x

Confronto regressione logistica e LDA

Analisi dicriminante: = 1|X =

P r(Y x) ) = +

c c x

log( 0 1

= 0|X =

P r(Y x)

Utilizza la verosimiglianza completa ) e sono funzioni di e .

2

P r(X, Y c , c µ , µ σ

0 1 0 1

Logistica: = 1|X =

P r(Y x) ) = +

log( β β x

0 1

= 0|X =

P r(Y x)

cambia solo il modo in cui stimiamo questi 2 rapporti. Utilizza la verosimiglianza condizionata |X).

P r(Y

I risultati soino molto simili

Cross-Validation: the wrong and the right way

Consider a classification problem with n=50 observations in two equal-sized classes, and p=5000 quantitative

predictors.

A wrong strategy for analysis might be as follows:

Screen the predictors: find the best 100 predictors that have the largest (in absolute value) correlation

with the class labels <- prendo i migliori 100 su 5000 e li scelgo con correlazione con la risposta massima.

correlazione tra ciascun predittore e la risposta in maniera assoluyta.

Using just the best 100 predictors, fit a 1-nearest neighbor classifier <- uso solo i 100 predittori e poi uso il

metodo dei k vicini più vicini

Use cross-validation to estimate the prediction error of the final model. crossvalidazione per misurare gli

errori sul test.

Is this a correct application of cross-validation?

Consider p=5000 quantitative predictors (standard Gaussian) that are independent of the class labels dalla

risposta. The true (test) error rate of any classifier is 50%.

cosa succede se usiamo la convalida incrociata in maniera non corretta e come si fa in maniera corretta.

vedremo che farò il 50 % degli errori.

What has happened?

abbiamo un erroe del 2 % quando pensavamo fosse del 50%. errore: vedo tutti i dati al passo 1, quindi al

passo 3 faccio una cross validazione su un processo che prende tutti i dati.con cross validazione deo prendere

dei sottoinsiemi, in modo tale che metto il ppasso 1 all’interno della cross validazione. per ciascun fold tengo

fuori unità e solo dopo facxcxio lo screen. in questo modo vedo tutti i dati già da subito.

The problem is that the predictors have an unfair advantage, as they were chosen in step 1. on the basis of all

of the observations. Leaving observations out after the variables have been selected does not correctly mimic

the application of the classifier to a completely independent test set, since these predictors have already seen

the left out observations.

Here is the correct way to carry out cross-validation in this example

Divide the observations into KK cross-validation folds at random. For each fold k=1,.,Kk=1,.,K

12

Find the best 100 predictors that have the largest (in absolute value) correlation with the class labels, using

all of the observations except those in fold kk.

Using just this subset of predictors,fit a 1-nearest neighbor classifier, using all of the observations except

those in fold kk

Use the classifier to predict the class labels for the observations in fold k.

Shrinkage Method

Restringimento di stime.

Le stime sono schiacciate verso lo 0, le trasciniamo verso lo 0.

CONSEGUENZA: INTRODUCIAMO LA DISTORSIONE E RIDUCIAMO LA VARIABILITA’.

Con y normale con media ignota e varianza nota: (µ, = nota). La previsione ottima è = ) =

2

∼ N σ f E(Y µ

ma è ignota. Allora impariamo riguardo a sul training set i.i.d normali con il quale effettuiamo

µ µ y , Y , ..., Y n

1 2

le stime su una funzione . Utilizziamo quindi lo stimatore shrinkage

f ˆ =

f cŶ

dove è una costante compresa tra 0 e 1: [0, 1].

c c

ˆ ˆ

Con c=0 abbiamo una costante e = 0 e con c=1 abbiamo la media campionaria: = .

f f Y

MSE (errore di previsione): ˆ ˆ ˆ

) ] = (irriducibile) + [Bias( )] + )

2 2

E[(Y f f V ar( f

2 2

c σ

+ (1 +

2 2 2

σ µ c) n

Composto da una parte irriducibile più la distorsione al quadrato più la varianza della stima di .

f

Ciò che voglio trovare è un valore di che minimizza l’MSE, effettuiamo quindi la derivata per osservare il

c

valore che minimizza il valore atteso 2

µ

=

c (µ + )

2

σ

2 n

Sappiamo che dipende dalla media ignota

c µ.

La varianza non dipende da come osserviamo graficamente, mentre il bias dipende da

µ µ.

In termini di previsione una è meglio che utilizzare La proprietà di non distorsione di uno

c ottimale µ.

stimatore, si può lasciar perdere, dato che non da risultati migliori.

Caso generale:

Abbiamo una matrice di disegno = e una variabile risposta

X n x P y.

Caso p < n:

Se il rango di è uguale a le colonne di sono linearmente indipendenti ed esiste quindi un’unica soluzione

X p X = (X −1

T T

β̂ X) X y

Caso p > n:

Implica che il rango di è minore di e quindi le colonne di sono linearmente dipendenti e sono

X p X

combianazioni lineari una con l’altra (c’è super collinearità) e non è definita poichè non è invertibile.

T

β̂ X X

Ci sono quindi infinite soluzioni di β̂.

Per risolvere questo problema, posso effettuare le componenti principali oppure posso usare la stepwise

forward solamente (no backward).

Vediamo un’altra soluzione con shrinkage.

con = ottengo delle stime, e stimo perfettamente y. non ho standard error, t-value, p-value. . .

p n 13

Stime vincolate

Vincolo a stare all’interno di una certa regione, come ad esempio una circonferenza.

β

Ridge regression

Risolvo il problema di minimizzazione di: X = 1 [y

n Ti 2

minimize i x β]

β i

Se suppongo che il vincolo sia: dove

22

||β|| ≤ s

v p

u

X è la norma euclidea e 0

= u 2 ≥

||β|| s

β

2 t j

j=1

La stima vincolata è il punto che coincide, che sta nell’area azzurra che voglio. Le circonferenze sono il mio

errore sul training set.

Solo quando sono fuori dal vincolo faccio il al fine di avvicinarmi allo 0, cioè all’area di

metodo shrinkage

interesse.

Più è grande e più facilmente potrò includere il punto. Se ciò non può essere fatto, sposto la stima da un

s

punto all’altro attraverso questo metodo.

penalized estimation:

Risolvo la minimizzazione dell’MSE con le stime penalizzate.

Voglio minimizzare una certa quantità data dai minimi quadrati più una certa penalità.

n

X

[y +

Ti 2 22

− · ||β||

minimize x β] λ

β i

i=1

Dove 0 è il parametro di sintonia (tuning parameter).

λ

La soluzione è: = (X + )

−1

λ T T

·

β̂ X λ I X y

n

La stima che ottengo è unica anche con con soluzione invertibile in ogni caso.

p > n.

• C’è una corrispondenza 1 a 1 tra il problema di penalizzazione e il problema vincolato.

• Per ogni valore di c’è un corrispondente valore di che ci da la stessa soluzione.

s λ ˆ

• la soluzione al problema di penalizzazione risolve il problema vincolato con =

λ 22

λ

|| ||

β̂ s β

O mettiamo un vincolo o penalizziamo. i due metodi sono la stessa cosa.

Shrinkage penalty

Considero la penalità che corrisponde a: e il parametro di tuning che controlla il tradeoff tra

22

· ||β||

λ λ

distorsione e varianza. Allora:

= 0 stima dei minimi quadrati

λ β̂

0 restringe la stima dei minimi quadrati intorno allo 0.

λ >

= = 0

∞ ⇒

λ β̂ 14

Gradi di libertà:

Linear regression:

Considero la matrice stimata = con gradi di libertà pari a se =

−1

T T

H X(X X) X p T r(H) p.

Ridge regression:

Considero la matrice stimata = + ) con gradi di libertà pari a se ) = .

−1

λ T T λ

·

H X(X X λ I X df T r(H df

n

La cosa importante è che corrisponde alla di prima e controlla il compromesso distorsione-varianza.

λ C

Voglio trovare che mi permette di calcolare il livello di previsione ottimale.

λ

All’aumentare di le stime tendono ad avvicinarsi allo 0. generalizzazione del modello lineare.

λ,

Al fine di scegliere un ottimale, utilizzo le seguenti tecniche: e

AIC BIC.

λ

• AIC=nlog(M ) + 2df

SE

T r

• BIC=nlog(M ) +

SE df log(n)

T r

Posso poi usare la cross validation generalizzata M SE

T r

(λ) =

M SE

GCV (1 2

− h)

n

Con = dove è l’i-esimo elemento sulla diagonale della matrice .

1 λ

P

h h h H

i i

i=1

n

Un caso particolare con M SE

T r

= 0 =

h M SE

GCV (1 )

p 2

− n

come grado polinomio, numero variabili da selezionare con il metodo di selezione: voglio determinare λ.

Sparsity

Ridge regression non prende i vantaggi di sparsity, cioè solo un numero piccolo di predittori sono rilevanti.

Noi vogliamo stimare che devono essere 0, ciò significa che la maggior parte dei sono 0.

β̃ β̃ j

Considero la norma tale per cui 1

q

q

X

= q

||β|| |β |

q j

j=1

Per quali valori di misuro sparsity?

q

- sparse: = (1, 0, 0)

a ...,

- not sparse: = ( )

1 1 1

b , , ...,

√ √ √

p p p

Abbiamo bisogno di 1 per misurare sparsity.

q

Sparsity incontra Convessity

Abbiamo bisogno di queste impostazioni per avere una buona forma (convessità). se è così, la minimizzazione

non è più lunga di NP-hard. infatti è semplice.

• Sensitivity to sparsity: 1 (attualmente 2 è sufficiente)

q q <

• Convexity (piacevolezza): 1

q

Questo significa che dovremmo usare = 1

q

= 0 non convesso, = non convesso, è covesso solo = nei suoi grafici. = 1 è convesso, perchè è

14 3

q q q

q 2

proprio il punto in cui sparsity incontra convessity. 15

LASSO

Risolve il problema di minimizzazione n

X [y Ti 2

minimize x β]

β i

i=1

p

sotto il vincolo che dove = è la norma e 0 è chiamato LASSO (Least Absolute

P

||β|| ≤ ||β|| ≥

|β |

s s

j

1 1 j=1

Shrinkage and Selection Operator).

La variabile è 0, quindi coefficiente pari a 0 e i valori associati a non sono rilevanti, sto scartando la

β x

1 1

variabile. quindi faccio selection e shrinkage delle variabili.

LASSO: penalized estimation

Risolviamo il problema di minimizzazione n

X

[y +

Ti 2

− · ||β||

minimize x β] λ

β i 1

i=1

dove 0 è il parametro di tuining.

λ

Shrinkage e selezione

è la stima lasso ristretta.

λ

Shrinkage: β ˆ

ˆ = : = 0} è il set di coefficienti non-zero.

λ

λ {j 6

Selezione: S β j ˆ ˆ

dopo aver trovato , puoi refittare il modello facendo i minimi quadrati sul sub-modello

λ λ

Optional: S S

(minor distorsione, maggior varianza).

Invariance lost

la perdita è invariante ad un riscalamento. la perdita è invariante rispetto ad un riscalamento

Ridge: Lasso:

e ad una rotazione.

Penalizzazione e termine di intercetta

• La regressione penalizzata si basa sull’assunzione che i coefficienti che sono intorno allo 0 sono più

β

credibili di gran lunga rispetto a quelli lontani dallo 0.

• E’ necessaria una certa cura.

L’intercetta non è inclusa nella penalità a meno che non ha ragione di pensare che la media di y

• dovrebbe essere 0.

Standardizzazione

• Come rendere lontano da 0 per avere lo stesso predittore (es. ipotizzando che abbiamo che varia tra 0 e

x 1

1, mentre varia tra 0 e 100; chiaramente un cambiamento di un’unità non è la stessa cosa per entrambi).

x 2 16

• Quindi i predittori devono essere standardizzati prima di modellare previsioni, e avre media pari a 0 e

deviazione standard pari a 1..

• Eventuali cambiamenti di localizzazione per vengono assorbiti nell’intercetta.

X

• Cambiamenti di scala può essere invertito dopo che il modello è stato messo nella forma

X ˜

˜

i,j

= =

· · ·

X β aβ X β

i,j j j i,j j

a

Moving Beyond Linearity

Abbiamo utilizzato fino ad ora i polinomi, la regressione polinomiale. Rischiamo di ottenere una stima

imprecisa. dal caso con un solo predittore per modellare una qualsiasi funzione di regressione.

alternative:

- Step Functions (a gradino)

- Regression Splines (splines)

- Smoothing Splines

- etc.

In molti casi la regressione lineare da problemi che risolveremo con le alternative.

Basis functions

Stimiamo la funzione di regressione come (Basis functions) (es. classico sono i polinomi).

Un approccio generale è di stimare: q

X

= (X)

·

g(X) β b

j j

i=1

dove (·) è la funzione chiamata BASIS FUNCTIONS.

b

j

Si usa quindi il modello lineare per esempio con 3 gradi di regressione polinomiale.

Step functions:

Definiamo dei nodi , valori su cui suddividere le osservazioni nel range di decido arbitrariamente

α , ..., α X.

K

1

dove inserire i nodi.

L’approccio function più semplice, ci dice minore di un certo nodo ecc. . . posso riformularla in termini di

x

funzione indicatrice. il valore sul rispettivo intervallo corrisponde alla media dei valori osservati nell’intervallo.

è una funzione semplice che ha dei problemi: dove metto i nodi e quanti?

(X) = }

b I{X < α

0 1

(X) = ≤ }

b I{α X < α

1 1 2

...

(X) = ≥ }

b I{X α

K K

Piecewise linear regression:

Usiamo $2(k+1) regressioni lineari semplici (funzioni base), in cui abbiamo una funzione indicatrice più

coefficiente angolare delle x. separo e faccio la regressione lineare semplice. Abbiamo quindi 6 parametri, cioè

2 (k + 1).

∗ 17


PAGINE

22

PESO

380.31 KB

AUTORE

Pagani21

PUBBLICATO

+1 anno fa


DETTAGLI
Esame: Data mining M
Corso di laurea: Corso di laurea magistrale in scienze statistiche ed economiche
SSD:
Docente: Solari Aldo
A.A.: 2017-2018

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Pagani21 di informazioni apprese con la frequenza delle lezioni di Data mining M e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Milano Bicocca - Unimib o del prof Solari Aldo.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!