Anteprima
Vedrai una selezione di 5 pagine su 18
Tesina informatica 1 Pag. 1 Tesina informatica 1 Pag. 2
Anteprima di 5 pagg. su 18.
Scarica il documento per vederlo tutto.
Tesina informatica 1 Pag. 6
Anteprima di 5 pagg. su 18.
Scarica il documento per vederlo tutto.
Tesina informatica 1 Pag. 11
Anteprima di 5 pagg. su 18.
Scarica il documento per vederlo tutto.
Tesina informatica 1 Pag. 16
1 su 18
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Per la precisione si tratta di tre algoritmi congiunti, frutto di “anni di esperienza,

quelli che ho trascorso a scrivere emendamenti, a escogitare modi per

moltiplicarli e complicare la vita all’avversario”, spiega Calderoli ricordandosi di

essere stato ministro per la Semplificazione Normativa.

Lo ha fatto usando un algoritmo banale perché agisce su semplici sostituzioni di

termini e punteggiatura che, pur mantenendo la struttura base di un

emendamento, lo rendono diverso dagli altri 85 milioni. L’algoritmo di Calderoli fa

parte di una branca della matematica chiamata Natural Language Generation,

ovvero un software in grado di scrivere come esseri umani. E’ composto da assi

7

cartesiani, con una quarta dimensione e a seconda dell’inclinazione dell’asse

cartesiano può produrre emendamenti.

L’elaborazione del linguaggio naturale, cioè il metodo utilizzato da Calderoli, è un

settore interdisciplinare che si occupa dell’elaborazione della lingua mediante

uso di calcolatori.

Alla domanda su come funziona di preciso questo algoritmo Roberto Calderoli

risponde: “Se in un emendamento scrivo la parola pera, l’algoritmo me lo

riscriverà sostituendo pera con frutta, e poi con vegetale, e così via”.

Concetti preliminari all’algoritmo CART

Negli algoritmi di classificazione i dati in input, chiamati anche training set,

consistono in records ognuno dei quali avente attributi o caratteristiche multiple.

Inoltre ogni record è etichettato con una speciale etichetta di classe.

Obiettivo della classificazione è quello di analizzare i dati in input e sviluppare

un’accurata descrizione o un modello per ogni classe, usando le caratteristiche

presenti nei dati.

Gli algoritmi di classificazione portano all’identificazione di schemi o insiemi di

caratteristiche che definiscono la classe cui appartiene un dato record. In

genere, partendo dall’utilizzo di insiemi esistenti e già classificati, si cerca di

definire alcune regolarità che caratterizzano le varie classi. Le descrizioni delle

classi vengono usate per classificare records, di cui non si conosce la classe di

appartenenza, o per sviluppare una migliore conoscenza di ogni classe nel

dataset. Non a caso, alcune delle applicazioni di maggiore interesse di questa

8

tecnica di DM includono la ricerca, da parte delle banche, di categorie di clienti ai

quali concedere un prestito o applicazioni di target marketing, con cui un’impresa

pu`o individuare, sulla base delle caratteristiche dei clienti presenti nel database,

un proprio target di mercato allo scopo di rafforzare la propria posizione in un

determinato settore (in tal caso etichettando ogni record del database come

cliente fedele e cliente non fedele).

Datamining

I processi aziendali ormai, sono caratterizzati da una grande mole di dati e risulta

sempre più difficile estrarre da essi le caratteristiche rilevanti per poter prendere

delle decisioni. Di grandissima importanza è il data mining, ovvero l'insieme di

tecniche e metodologie che hanno per oggetto l'estrazione di un sapere o di una

conoscenza a partire da grandi quantità di dati (attraverso metodi automatici o

semi-automatici) e l'utilizzo scientifico, industriale o operativo di questo sapere.

La statistica può essere definita altrimenti come "estrazione di informazione utile

da insiemi di dati".

Il concetto di data mining è simile alla statistica ma con una sostanziale

differenza: la prima viene utilizzata per cercare correlazioni tra più variabili

relativamente ai singoli individui, la seconda permette di elaborare informazioni

generali riguardo ad una popolazione(es. percentuali di disoccupazione, nascite).

In sostanza il data mining è " l'analisi matematica eseguita su database di

grandi dimensioni". Il termine data mining è diventato popolare nei tardi anni

'90 come versione abbreviata della definizione appena esposta.

Oggi il data mining (letteralmente: estrazione di dati ) ha una duplice valenza:

[1]

• estrazione, con tecniche analitiche all'avanguardia, di informazione

implicita, nascosta, da dati già strutturati, per renderla disponibile e

direttamente utilizzabile;

• esplorazione ed analisi, eseguita in modo automatico o semiautomatico,

su grandi quantità di dati allo scopo di scoprire pattern (schemi)

significativi.

In entrambi i casi i concetti di informazione e di significato sono legati

strettamente al dominio applicativo in cui si esegue data mining, in altre parole

9

un dato può essere interessante o trascurabile a seconda del tipo di applicazione

in cui si vuole operare.

Questo tipo di attività è cruciale in molti ambiti della ricerca scientifica, ma anche

in altri settori (per esempio in quello delle ricerche di mercato). Nel mondo

professionale è utilizzata per risolvere problematiche diverse tra loro, che vanno

dalla gestione delle relazioni con i clienti (CRM), all'individuazione di

comportamenti fraudolenti, fino all'ottimizzazione di siti web.

L’intero processo di estrazione richiede il coinvolgimento di varie professionalità,

la fase più impegnativa, generalmente, è quella della pre-elaborazione.

Le tecniche del data mining vengono utilizzate in molteplici e differenti ambiti:

Predire l’affidabilità dei clienti nella concessione di prestiti

1. 10

Riconoscere, nella grande mole di transazioni effettuate, l’uso fraudolento

2. di carte di credito rubate

Effettuare campagne di marketing mirate o inviare cataloghi ad hoc per

3. particolari gruppi di clienti

Proporre ai visitatori di un sito web dei link ad hoc deducendo gli interessi

4. dei visitatore in base a precedenti scelte.

Le tecniche del datamining

Esistono molteplici tecniche di DataMining e l’obiettivo dell’analisi è la guida per

scegliere correttamente quali di esse utilizzare.

Gli strumenti possono essere divisi in due gruppi:

Indagine,

1. Verifica,

2.

entrambi necessari per progetti completi di data mining.

Gli strumenti di verifica servono a convalidare le scoperte fatte in sede di

indagine, per garantire decisioni corrette. Alcuni dei più comuni sono:

- Correlazioni,

- ANOVA,

- Regressione lineare,

- Analisi discriminante.

Spesso la fase di preparazione del modello avviene su un sottoinsieme dei dati

da analizzare ed il rimanente sottoinsieme non utilizzato per la costruzione del

modello è destinato alla fase di validazione per testare la qualità del modello

trovato.

Gli strumenti di indagine identificano relazione e tendenze nei dati, aiutando a

scoprire con relazioni fra le variabili differenti come ad esempio gli alberi

decisionali e le reti neutrali. 11

Albero decisionale

Un albero decisionale è un grafo di decisioni e delle loro possibili conseguenze,

utilizzato per creare un ‘piano di azioni’ (plan) mirato ad uno scopo (goal). Un

albero di decisione è costruito al fine di supportare l’azione decisionale (decision

making). Nell’apprendimento delle macchine (machine learning) un albero di

decisione è un modello predittivo (cioè un modello per prevedere una caratte-

ristica non nota sulla base di variabili note), dove ogni nodo interno rappre- senta

una suddivisione basata su una variabile e ad ogni foglia corrisponde un valore

predetto per la variabile obiettivo a partire dai valori delle altre variabili.

Normalmente un albero di decisione viene costruito utilizzando tecniche di

apprendimento a partire dall’insieme dei dati iniziali (data set), il quale può

essere diviso in due sottoinsiemi: l’insieme di “allenamento” (training set) sulla

base del quale si crea la struttura dell’albero e l’insieme di prova (test set) che

viene utilizzato per testare l’accuratezza del modello predittivo così creato. La

condizione su una variabile che si associa ad ogni nodo interno (sulla base del

quale avviene la ripartizione dei dati) è chiamata condizione di suddivisione

(splitting).

In molte situazioni è utile definire un criterio di arresto (halting), o an- che criterio

di potatura (pruning) al fine di determinarne la profondità massima che l’albero

può raggiungere e potere poi opportunamente ridurne le dimensioni. Questo

perché il crescere della profondità di un albero non in- fluisce direttamente sulla

bontà del modello: infatti, una crescita eccessiva della dimensione dell’albero

potrebbe portare solo ad un aumento sproporzionato della complessità

computazionale senza accrescere i benefici riguardanti l’accuratezza delle

previsioni/classificazioni.

DATAWARHOUSE

Il sistema informativo aziendale, detta anche datawarehouse raccoglie,

organizza, gestisce ed utilizza tutta l’informazione necessaria per la conduzione

dell’azienda.

Tale informazione può nascere direttamente all’interno dell’azienda durante lo

svolgimento dei vari processi aziendali, oppure essere acquisita come risultato

12

delle relazioni con soggetti esterni. Essa inoltre può essere destinata al consumo

interno oppure destinata a terzi.

Il “Sistema Informativo Aziendale” si compone normalmente di una parte

informatizzata chiamata “sistema informatico aziendale” e di una par- te non

automatizzata (conversazioni dirette e telefoniche, documenti carta- cei

strutturati e non, organigramma aziendale, prassi operativa, prassi decisionale,

ecc.).

Le componenti (informatizzate e non) di un “Sistema Informativo Aziendale”

possono essere divise in due categorie a seconda della loro finalità:

- Componenti per il supporto dell’attività operativa

Tale parte si occupa di archiviare, gestire ed elaborare tutta l’informa- zione per

lo svolgimento dell’attività quotidiana; ad es. supporto infor- mativo per le

operazioni di acquisto, per le vendite, per la movimenta- zione del magazzino,

ecc.

- Componenti per il supporto decisionale

Tale parte riguarda la gestione, la produzione, l’archiviazione e l’analisi dei dati e

delle informazioni per supportare i dirigenti nelle scelte strate- giche; ad es.

supporto per la scelta di quali prodotti mettere in promo- zione, quali prodotti

aggiungere o rimuovere dal listino, a quale target rivolgere i messaggi pubblicitari

ecc.

Il Sistema Informatico Aziendale è l’insieme degli strumenti Hardware e Software

(mezzi informatici e programmi) che permettono di gestire in ma- niera

automatizzata l’informazione aziendale. Anch’esso può essere sud- diviso nelle

due categorie analoghe alle precedenti, rispettivamente:

Applicazionali Transazionali

3. Sono i sistemi e le p

Dettagli
A.A. 2015-2016
18 pagine
SSD Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Benedettaprati94 di informazioni apprese con la frequenza delle lezioni di Informatica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Roma La Sapienza o del prof Scaringella Angela.