vuoi
o PayPal
tutte le volte che vuoi
Per la precisione si tratta di tre algoritmi congiunti, frutto di “anni di esperienza,
quelli che ho trascorso a scrivere emendamenti, a escogitare modi per
moltiplicarli e complicare la vita all’avversario”, spiega Calderoli ricordandosi di
essere stato ministro per la Semplificazione Normativa.
Lo ha fatto usando un algoritmo banale perché agisce su semplici sostituzioni di
termini e punteggiatura che, pur mantenendo la struttura base di un
emendamento, lo rendono diverso dagli altri 85 milioni. L’algoritmo di Calderoli fa
parte di una branca della matematica chiamata Natural Language Generation,
ovvero un software in grado di scrivere come esseri umani. E’ composto da assi
7
cartesiani, con una quarta dimensione e a seconda dell’inclinazione dell’asse
cartesiano può produrre emendamenti.
L’elaborazione del linguaggio naturale, cioè il metodo utilizzato da Calderoli, è un
settore interdisciplinare che si occupa dell’elaborazione della lingua mediante
uso di calcolatori.
Alla domanda su come funziona di preciso questo algoritmo Roberto Calderoli
risponde: “Se in un emendamento scrivo la parola pera, l’algoritmo me lo
riscriverà sostituendo pera con frutta, e poi con vegetale, e così via”.
Concetti preliminari all’algoritmo CART
Negli algoritmi di classificazione i dati in input, chiamati anche training set,
consistono in records ognuno dei quali avente attributi o caratteristiche multiple.
Inoltre ogni record è etichettato con una speciale etichetta di classe.
Obiettivo della classificazione è quello di analizzare i dati in input e sviluppare
un’accurata descrizione o un modello per ogni classe, usando le caratteristiche
presenti nei dati.
Gli algoritmi di classificazione portano all’identificazione di schemi o insiemi di
caratteristiche che definiscono la classe cui appartiene un dato record. In
genere, partendo dall’utilizzo di insiemi esistenti e già classificati, si cerca di
definire alcune regolarità che caratterizzano le varie classi. Le descrizioni delle
classi vengono usate per classificare records, di cui non si conosce la classe di
appartenenza, o per sviluppare una migliore conoscenza di ogni classe nel
dataset. Non a caso, alcune delle applicazioni di maggiore interesse di questa
8
tecnica di DM includono la ricerca, da parte delle banche, di categorie di clienti ai
quali concedere un prestito o applicazioni di target marketing, con cui un’impresa
pu`o individuare, sulla base delle caratteristiche dei clienti presenti nel database,
un proprio target di mercato allo scopo di rafforzare la propria posizione in un
determinato settore (in tal caso etichettando ogni record del database come
cliente fedele e cliente non fedele).
Datamining
I processi aziendali ormai, sono caratterizzati da una grande mole di dati e risulta
sempre più difficile estrarre da essi le caratteristiche rilevanti per poter prendere
delle decisioni. Di grandissima importanza è il data mining, ovvero l'insieme di
tecniche e metodologie che hanno per oggetto l'estrazione di un sapere o di una
conoscenza a partire da grandi quantità di dati (attraverso metodi automatici o
semi-automatici) e l'utilizzo scientifico, industriale o operativo di questo sapere.
La statistica può essere definita altrimenti come "estrazione di informazione utile
da insiemi di dati".
Il concetto di data mining è simile alla statistica ma con una sostanziale
differenza: la prima viene utilizzata per cercare correlazioni tra più variabili
relativamente ai singoli individui, la seconda permette di elaborare informazioni
generali riguardo ad una popolazione(es. percentuali di disoccupazione, nascite).
In sostanza il data mining è " l'analisi matematica eseguita su database di
grandi dimensioni". Il termine data mining è diventato popolare nei tardi anni
'90 come versione abbreviata della definizione appena esposta.
Oggi il data mining (letteralmente: estrazione di dati ) ha una duplice valenza:
[1]
• estrazione, con tecniche analitiche all'avanguardia, di informazione
implicita, nascosta, da dati già strutturati, per renderla disponibile e
direttamente utilizzabile;
• esplorazione ed analisi, eseguita in modo automatico o semiautomatico,
su grandi quantità di dati allo scopo di scoprire pattern (schemi)
significativi.
In entrambi i casi i concetti di informazione e di significato sono legati
strettamente al dominio applicativo in cui si esegue data mining, in altre parole
9
un dato può essere interessante o trascurabile a seconda del tipo di applicazione
in cui si vuole operare.
Questo tipo di attività è cruciale in molti ambiti della ricerca scientifica, ma anche
in altri settori (per esempio in quello delle ricerche di mercato). Nel mondo
professionale è utilizzata per risolvere problematiche diverse tra loro, che vanno
dalla gestione delle relazioni con i clienti (CRM), all'individuazione di
comportamenti fraudolenti, fino all'ottimizzazione di siti web.
L’intero processo di estrazione richiede il coinvolgimento di varie professionalità,
la fase più impegnativa, generalmente, è quella della pre-elaborazione.
Le tecniche del data mining vengono utilizzate in molteplici e differenti ambiti:
Predire l’affidabilità dei clienti nella concessione di prestiti
1. 10
Riconoscere, nella grande mole di transazioni effettuate, l’uso fraudolento
2. di carte di credito rubate
Effettuare campagne di marketing mirate o inviare cataloghi ad hoc per
3. particolari gruppi di clienti
Proporre ai visitatori di un sito web dei link ad hoc deducendo gli interessi
4. dei visitatore in base a precedenti scelte.
Le tecniche del datamining
Esistono molteplici tecniche di DataMining e l’obiettivo dell’analisi è la guida per
scegliere correttamente quali di esse utilizzare.
Gli strumenti possono essere divisi in due gruppi:
Indagine,
1. Verifica,
2.
entrambi necessari per progetti completi di data mining.
Gli strumenti di verifica servono a convalidare le scoperte fatte in sede di
indagine, per garantire decisioni corrette. Alcuni dei più comuni sono:
- Correlazioni,
- ANOVA,
- Regressione lineare,
- Analisi discriminante.
Spesso la fase di preparazione del modello avviene su un sottoinsieme dei dati
da analizzare ed il rimanente sottoinsieme non utilizzato per la costruzione del
modello è destinato alla fase di validazione per testare la qualità del modello
trovato.
Gli strumenti di indagine identificano relazione e tendenze nei dati, aiutando a
scoprire con relazioni fra le variabili differenti come ad esempio gli alberi
decisionali e le reti neutrali. 11
Albero decisionale
Un albero decisionale è un grafo di decisioni e delle loro possibili conseguenze,
utilizzato per creare un ‘piano di azioni’ (plan) mirato ad uno scopo (goal). Un
albero di decisione è costruito al fine di supportare l’azione decisionale (decision
making). Nell’apprendimento delle macchine (machine learning) un albero di
decisione è un modello predittivo (cioè un modello per prevedere una caratte-
ristica non nota sulla base di variabili note), dove ogni nodo interno rappre- senta
una suddivisione basata su una variabile e ad ogni foglia corrisponde un valore
predetto per la variabile obiettivo a partire dai valori delle altre variabili.
Normalmente un albero di decisione viene costruito utilizzando tecniche di
apprendimento a partire dall’insieme dei dati iniziali (data set), il quale può
essere diviso in due sottoinsiemi: l’insieme di “allenamento” (training set) sulla
base del quale si crea la struttura dell’albero e l’insieme di prova (test set) che
viene utilizzato per testare l’accuratezza del modello predittivo così creato. La
condizione su una variabile che si associa ad ogni nodo interno (sulla base del
quale avviene la ripartizione dei dati) è chiamata condizione di suddivisione
(splitting).
In molte situazioni è utile definire un criterio di arresto (halting), o an- che criterio
di potatura (pruning) al fine di determinarne la profondità massima che l’albero
può raggiungere e potere poi opportunamente ridurne le dimensioni. Questo
perché il crescere della profondità di un albero non in- fluisce direttamente sulla
bontà del modello: infatti, una crescita eccessiva della dimensione dell’albero
potrebbe portare solo ad un aumento sproporzionato della complessità
computazionale senza accrescere i benefici riguardanti l’accuratezza delle
previsioni/classificazioni.
DATAWARHOUSE
Il sistema informativo aziendale, detta anche datawarehouse raccoglie,
organizza, gestisce ed utilizza tutta l’informazione necessaria per la conduzione
dell’azienda.
Tale informazione può nascere direttamente all’interno dell’azienda durante lo
svolgimento dei vari processi aziendali, oppure essere acquisita come risultato
12
delle relazioni con soggetti esterni. Essa inoltre può essere destinata al consumo
interno oppure destinata a terzi.
Il “Sistema Informativo Aziendale” si compone normalmente di una parte
informatizzata chiamata “sistema informatico aziendale” e di una par- te non
automatizzata (conversazioni dirette e telefoniche, documenti carta- cei
strutturati e non, organigramma aziendale, prassi operativa, prassi decisionale,
ecc.).
Le componenti (informatizzate e non) di un “Sistema Informativo Aziendale”
possono essere divise in due categorie a seconda della loro finalità:
- Componenti per il supporto dell’attività operativa
Tale parte si occupa di archiviare, gestire ed elaborare tutta l’informa- zione per
lo svolgimento dell’attività quotidiana; ad es. supporto infor- mativo per le
operazioni di acquisto, per le vendite, per la movimenta- zione del magazzino,
ecc.
- Componenti per il supporto decisionale
Tale parte riguarda la gestione, la produzione, l’archiviazione e l’analisi dei dati e
delle informazioni per supportare i dirigenti nelle scelte strate- giche; ad es.
supporto per la scelta di quali prodotti mettere in promo- zione, quali prodotti
aggiungere o rimuovere dal listino, a quale target rivolgere i messaggi pubblicitari
ecc.
Il Sistema Informatico Aziendale è l’insieme degli strumenti Hardware e Software
(mezzi informatici e programmi) che permettono di gestire in ma- niera
automatizzata l’informazione aziendale. Anch’esso può essere sud- diviso nelle
due categorie analoghe alle precedenti, rispettivamente:
Applicazionali Transazionali
3. Sono i sistemi e le p