Anteprima
Vedrai una selezione di 5 pagine su 19
Business Service design and measurment riassunto Pag. 1 Business Service design and measurment riassunto Pag. 2
Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.
Business Service design and measurment riassunto Pag. 6
Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.
Business Service design and measurment riassunto Pag. 11
Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.
Business Service design and measurment riassunto Pag. 16
1 su 19
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

COME TARARE UNO STRUMENTO

Il modo più semplice consiste nel costruire un diagramma in cui, come variabile

indipendente, c’è proprio la massa (coi suoi relativi valori in kg) e con variabile

dipendente le lunghezze (in cm). Si prendono dei campioni di massa (oggetti

fisici dotati di massa) costruiti da qualcuno in modo tale da essere certificati

del quantitativo di massa presa in considerazione. Questo campione non

dev’essere misurato, poiché la sua massa la conosco a priori. Applico alla molla

la massa campione e osservo il fenomeno della contrazione. Faccio la stessa

cosa con almeno un altro campione di massa diversa; assumiamo che la massa

sia leggermente più grande la molla verrà compressa maggiormente rispetto

al caso precedente.

Gli intervalli in cui l’oggetto è in grado di contenere le misure del campione

vengono detti CAMPI DI MISURA (se appoggio un foglio sulla bilancia, la molla

non si abbassa, mentre se ci appoggio un tir essa si spacca). I campi di misura

hanno due estremi: uno superiore e uno inferiore. In essi il comportamento è

LINEARE bastano i due campioni per affermare ciò, dando vita ad

un’INTERPOLAZIONE (da due punti passa una e una sola retta, i cui punti sono i

valori dei campioni accompagnati dalla condizione di linearità).

Passare da taratura a misurazione è un processo di INFERENZA: ciò che imparo

in taratura verrà compreso misurando, verificando la stabilità della molla.

Intervallo di taratura: rileva che, una volta ogni tot, lo strumento dovrà essere

tarato nuovamente, ricostruendo un nuovo diagramma di taratura. Una volta

ritarato l’oggetto, verrà rilasciato il CERTIFICATO DI TARATURA, che certifica la

qualità dei dati.

Struttura del sistema metrologico internazionale:

Insieme di campioni e tarature, soggetti ad organizzazioni ed attività (key

comparisons) in modo tale da rendere l’unità uguale a livello universale.

1. Definizione di unità (realizzazione della definizione)

2. Campioni primari (contabili sulle dita di una mano)

3. Campioni secondari

4. Campioni nazionali

5. Campioni di lavoro (working standards)

CARATTERISTICHE METROLOGICHE DEGLI STRUMENTI

Riperibilità: “attitudine di uno strumento a fornire valori di lettura poco

differenti tra di loro, in letture consecutive sullo stesso misurando, con

procedimento unificato, dallo stesso operatore, per le stesse condizioni per le

grandezze d’influenza”.

Stabilità: La stabilità di una misura è la sua attitudine a mantenere costante il suo valore.

EFFICIENZA SENSIBILITA’

Output ∆ output

input ∆ input

L’incertezza di misura è un parametro che descrive inversamente la qualità del

risultato a partire dalla qualità dello strumento. Maggiore è la qualità, minore è

l’incertezza.

1,23 ±0,02

DATA MINING (MARI EDITION)

data mining estrazione di dati

Il (letteralmente dall'inglese ) è l'insieme di

[1]

tecniche e metodologie che hanno per oggetto l'estrazione di informazioni utili

da grandi quantità di dati (es. database, datawarehouse ecc...), attraverso

metodi automatici o semi-automatici (es. machine learning) e l'utilizzo

scientifico, aziendale/industriale o operativo delle stesse.

"estrazione

La statistica può essere definita altrimenti come

di informazione utile da insiemi di dati".

data mining

Il concetto di è simile, ma con una sostanziale differenza: la

statistica permette di elaborare informazioni generali riguardo ad data

una popolazione (es. percentuali di disoccupazione, nascite), mentre il

mining viene utilizzato per cercare correlazioni tra più variabili relativamente ai

singoli individui; ad esempio conoscendo il comportamento medio dei clienti di

una compagnia telefonica cerco di prevedere quanto spenderà il cliente medio

nell'immediato futuro.

MEZZANZANA

Data Mining

Con Data mining intendiamo il processo di estrazione di conoscenza

utile da una grande quantità di dati; per poterlo fare dobbiamo ricorrere a

processi complessi (layer) al fine di rendere l’informazione più semplice.

Esistono diversi modelli di data mining:

1) La prima fase, è una fase preliminare dove si sviluppa e si

approfondisce il dominio applicativo ossia cosa dobbiamo fare con

questi dati. Essa non è presente nel modello Semma perché

essendo un software viene data per scontata perché si presuppone

che sia già stata fatta.

2) Nella seconda fase, viene selezionato il dataset target ossia

dove focalizzarsi durante il processo.

3) Nella terza fase si fa in modo da semplificare i dati per poterli

usare con più comodità, quindi i dati vengono ridotti e tenuti solo

quelli utili al fine del perseguimento dell’obiettivo.

4) Nella quarta fase vengono svolte l’operazione di cleaning come

rimozione degli outliers e dei rumori.

Inoltre, vengono definite le strategie da adottare in caso di

mancanza dei dati.

Nel processo di CIP questa fase viene omessa perché si presuppone

che i dati siano già puliti.

5) Dopo aver pulito i dati, scelgo l’algoritmo di data mining da

applicare è la fase in cui avrò il vero e proprio machine learning.

Rappresento i dati con particolari forme di rappresentazione

(modelli) che mi permettono di prevedere come classificazioni,

alberi decisionali, regressione o clustering.

6) Dopo aver creato il modello, in questa fase capisco come è

fatto, lo interpreto e la bontà di questo.

7) L’ultima fase del processo è quella dedicata a prendere

decisioni, estrarre conoscenza dai dati e arrivo a chiedere previsioni

alla macchina.

Per lo stesso motivo della fase 1, in Semma non è presente questa

fase.

Ricapitolando il processo di Data Mining sarà composto da:

Problem DefnitionDataAnalysisModelVerifcationInsights

Esistono due tecniche per fare data mining:

Unsupervised Machine Learning

 Supervised Machine Learning

 Unsupervised Machine Learning

L’obiettivo dei metodi di Unsupervised Learning è quello di identificare

pattern nei dati che permettano di estendere la conoscenza e la comprensione

non si definiscono

del mondo rappresentato dai dati stessi. Generalmente

variabili target (variabile da prendere come modello) di cui costruire un

modello, ma si opera per far emergere i pattern applicando tecniche di

Descriptive Analytics quindi è statistica descrittiva.

Siamo nella fase in cui i dati arrivano già puliti quindi nella fase 5.

Rientrano in questo contesto le tecniche di: cluster analysis, association and

correlation analysis e pattern discovery.

Clustering

Il clustering è l’attività di raggruppare un insieme di oggetti in modo che

quelli appartenenti ad un gruppo (cluster) siano più simili tra loro rispetto a

quelli di altri gruppi.

Ad esempio dà la possibilità di stimare una distanza vettoriale tra le righe per

creare una clusterizzazione.

Come ad esempio K-Means (presuppongo di trovare un determinato numero di

cluster e da qui calcolo la posizione dei centroidi e raggruppo i cluster nei

pressi di essi) o Hierarchical Clustering (sostanzialmente è lo stesso

procedimento).

Data Projection

Le tecniche di data projection sono tecniche per ridurre il numero di features

e quindi il peso di un dataset per semplificare l’analisi.

Come ad esempio multidimensional scaling, principal component analysis (dati

di tipo continuo) e correspondence analysis (data di tipo discreto).

Supervised Machine Learning

L’obiettivo dei metodi di Supervised Analytics è quello di prevedere

l’accadimento di un evento partendo da dati storici a cui è stata aggiunta una

variabile target che sintetizzi il risultato di ogni rilevazione.

Il modello viene costruito partendo dai dati storici e dalle relative classi fornite

in input e può essere quindi utilizzato per fare previsioni su nuove osservazioni.

Si chiama Supervised perché si danno delle regole al sistema e viene applicato

sui dati di tipo prescrittivo e predittivo. classifcation e regression.

In questo contesto rientrano le tecniche di

Classifcation

Le tecniche di classificazioni sono utilizzate per prevedere la classe di

appartenenza di nuove osservazioni; tale classe potrà assumere i valori assunti

nel dataset di training dalla variabile target discreta considerata.

Possono essere classificazioni in classi binarie come la classificazione di

transazioni bancarie come legittime o frodi, oppure in classi multiple come

classificare articoli di quotidiani come appartenenti all’argomento finanza,

meteorologia, sport, cronaca...

In Orange le tecniche di classificazione più utilizzate sono tree, test & score,

predictions ecc...

Il widget “Test & Score” accetta in input un dataset e uno o più classificatore

e consente di eseguire un test su diversi algoritmi per valutarne le performance

derivanti dall’applicazione a un dataset di riferimento. Quindi restituisce i

risultati della valutazione sotto forma di indicatori come:

CA (Classification Accurancy):

- percentuale di campioni correttamente

 classificati.

Precision:

- percentuale dei True Positive sui Positive classificati.

 Recall:

- percentuale dei True Positive sui Positive del Dataset.

 F1:

- media pesata di Precisione e Recall.

 Il widget “Predictions” accetta in input uno o più predittori e un dataset

e restituisce una previsione di classificazione per ogni record del dataset.

Tipicamente si utilizza il 70% dei record del dataset per effettuare il

training del modello, quindi si utilizza il restante 30% per verificarne le

performance.

Il widget “Confusion Matrix” fornisce una rappresentazione

dell’accuratezza della classificazione; riporta in una matrice, per ogni

classificatore preso in esame, la proporzione tra classi reali e previsioni.

Accetta in input il risultato di un widget di tipo Test & Score.

La ROC Analysis si utilizza per selezionare un classificatore in funzione

delle sue performance rispetto agli altri classificatore presi in esame.

Riporta in ascissa il rateo dei False Positive (FP) e in ordinata il rateo dei

True Positive (TP). Rappresenta sul piano il trade-off tra benefici (TP) e

costi (FP).

Per facilitarne la scelta di uno o più algoritmi è possibile rappresentare la

performance line il cui coefficiente angolare è determinato dai parametri

FP cost, FN cost e Prior target class probability.

La Lift Curve Analysis rappresenta la “capacità cumulativa” di

Dettagli
Publisher
A.A. 2018-2019
19 pagine
SSD Scienze economiche e statistiche SECS-P/08 Economia e gestione delle imprese

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher nellisback di informazioni apprese con la frequenza delle lezioni di Business Service design and measurement e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università "Carlo Cattaneo" (LIUC) o del prof Mari Luca.