vuoi
o PayPal
tutte le volte che vuoi
COME TARARE UNO STRUMENTO
Il modo più semplice consiste nel costruire un diagramma in cui, come variabile
indipendente, c’è proprio la massa (coi suoi relativi valori in kg) e con variabile
dipendente le lunghezze (in cm). Si prendono dei campioni di massa (oggetti
fisici dotati di massa) costruiti da qualcuno in modo tale da essere certificati
del quantitativo di massa presa in considerazione. Questo campione non
dev’essere misurato, poiché la sua massa la conosco a priori. Applico alla molla
la massa campione e osservo il fenomeno della contrazione. Faccio la stessa
cosa con almeno un altro campione di massa diversa; assumiamo che la massa
sia leggermente più grande la molla verrà compressa maggiormente rispetto
al caso precedente.
Gli intervalli in cui l’oggetto è in grado di contenere le misure del campione
vengono detti CAMPI DI MISURA (se appoggio un foglio sulla bilancia, la molla
non si abbassa, mentre se ci appoggio un tir essa si spacca). I campi di misura
hanno due estremi: uno superiore e uno inferiore. In essi il comportamento è
LINEARE bastano i due campioni per affermare ciò, dando vita ad
un’INTERPOLAZIONE (da due punti passa una e una sola retta, i cui punti sono i
valori dei campioni accompagnati dalla condizione di linearità).
Passare da taratura a misurazione è un processo di INFERENZA: ciò che imparo
in taratura verrà compreso misurando, verificando la stabilità della molla.
Intervallo di taratura: rileva che, una volta ogni tot, lo strumento dovrà essere
tarato nuovamente, ricostruendo un nuovo diagramma di taratura. Una volta
ritarato l’oggetto, verrà rilasciato il CERTIFICATO DI TARATURA, che certifica la
qualità dei dati.
Struttura del sistema metrologico internazionale:
Insieme di campioni e tarature, soggetti ad organizzazioni ed attività (key
comparisons) in modo tale da rendere l’unità uguale a livello universale.
1. Definizione di unità (realizzazione della definizione)
2. Campioni primari (contabili sulle dita di una mano)
3. Campioni secondari
4. Campioni nazionali
5. Campioni di lavoro (working standards)
CARATTERISTICHE METROLOGICHE DEGLI STRUMENTI
Riperibilità: “attitudine di uno strumento a fornire valori di lettura poco
differenti tra di loro, in letture consecutive sullo stesso misurando, con
procedimento unificato, dallo stesso operatore, per le stesse condizioni per le
grandezze d’influenza”.
Stabilità: La stabilità di una misura è la sua attitudine a mantenere costante il suo valore.
EFFICIENZA SENSIBILITA’
Output ∆ output
input ∆ input
L’incertezza di misura è un parametro che descrive inversamente la qualità del
risultato a partire dalla qualità dello strumento. Maggiore è la qualità, minore è
l’incertezza.
1,23 ±0,02
DATA MINING (MARI EDITION)
data mining estrazione di dati
Il (letteralmente dall'inglese ) è l'insieme di
[1]
tecniche e metodologie che hanno per oggetto l'estrazione di informazioni utili
da grandi quantità di dati (es. database, datawarehouse ecc...), attraverso
metodi automatici o semi-automatici (es. machine learning) e l'utilizzo
scientifico, aziendale/industriale o operativo delle stesse.
"estrazione
La statistica può essere definita altrimenti come
di informazione utile da insiemi di dati".
data mining
Il concetto di è simile, ma con una sostanziale differenza: la
statistica permette di elaborare informazioni generali riguardo ad data
una popolazione (es. percentuali di disoccupazione, nascite), mentre il
mining viene utilizzato per cercare correlazioni tra più variabili relativamente ai
singoli individui; ad esempio conoscendo il comportamento medio dei clienti di
una compagnia telefonica cerco di prevedere quanto spenderà il cliente medio
nell'immediato futuro.
MEZZANZANA
Data Mining
Con Data mining intendiamo il processo di estrazione di conoscenza
utile da una grande quantità di dati; per poterlo fare dobbiamo ricorrere a
processi complessi (layer) al fine di rendere l’informazione più semplice.
Esistono diversi modelli di data mining:
1) La prima fase, è una fase preliminare dove si sviluppa e si
approfondisce il dominio applicativo ossia cosa dobbiamo fare con
questi dati. Essa non è presente nel modello Semma perché
essendo un software viene data per scontata perché si presuppone
che sia già stata fatta.
2) Nella seconda fase, viene selezionato il dataset target ossia
dove focalizzarsi durante il processo.
3) Nella terza fase si fa in modo da semplificare i dati per poterli
usare con più comodità, quindi i dati vengono ridotti e tenuti solo
quelli utili al fine del perseguimento dell’obiettivo.
4) Nella quarta fase vengono svolte l’operazione di cleaning come
rimozione degli outliers e dei rumori.
Inoltre, vengono definite le strategie da adottare in caso di
mancanza dei dati.
Nel processo di CIP questa fase viene omessa perché si presuppone
che i dati siano già puliti.
5) Dopo aver pulito i dati, scelgo l’algoritmo di data mining da
applicare è la fase in cui avrò il vero e proprio machine learning.
Rappresento i dati con particolari forme di rappresentazione
(modelli) che mi permettono di prevedere come classificazioni,
alberi decisionali, regressione o clustering.
6) Dopo aver creato il modello, in questa fase capisco come è
fatto, lo interpreto e la bontà di questo.
7) L’ultima fase del processo è quella dedicata a prendere
decisioni, estrarre conoscenza dai dati e arrivo a chiedere previsioni
alla macchina.
Per lo stesso motivo della fase 1, in Semma non è presente questa
fase.
Ricapitolando il processo di Data Mining sarà composto da:
Problem DefnitionDataAnalysisModelVerifcationInsights
Esistono due tecniche per fare data mining:
Unsupervised Machine Learning
Supervised Machine Learning
Unsupervised Machine Learning
L’obiettivo dei metodi di Unsupervised Learning è quello di identificare
pattern nei dati che permettano di estendere la conoscenza e la comprensione
non si definiscono
del mondo rappresentato dai dati stessi. Generalmente
variabili target (variabile da prendere come modello) di cui costruire un
modello, ma si opera per far emergere i pattern applicando tecniche di
Descriptive Analytics quindi è statistica descrittiva.
Siamo nella fase in cui i dati arrivano già puliti quindi nella fase 5.
Rientrano in questo contesto le tecniche di: cluster analysis, association and
correlation analysis e pattern discovery.
Clustering
Il clustering è l’attività di raggruppare un insieme di oggetti in modo che
quelli appartenenti ad un gruppo (cluster) siano più simili tra loro rispetto a
quelli di altri gruppi.
Ad esempio dà la possibilità di stimare una distanza vettoriale tra le righe per
creare una clusterizzazione.
Come ad esempio K-Means (presuppongo di trovare un determinato numero di
cluster e da qui calcolo la posizione dei centroidi e raggruppo i cluster nei
pressi di essi) o Hierarchical Clustering (sostanzialmente è lo stesso
procedimento).
Data Projection
Le tecniche di data projection sono tecniche per ridurre il numero di features
e quindi il peso di un dataset per semplificare l’analisi.
Come ad esempio multidimensional scaling, principal component analysis (dati
di tipo continuo) e correspondence analysis (data di tipo discreto).
Supervised Machine Learning
L’obiettivo dei metodi di Supervised Analytics è quello di prevedere
l’accadimento di un evento partendo da dati storici a cui è stata aggiunta una
variabile target che sintetizzi il risultato di ogni rilevazione.
Il modello viene costruito partendo dai dati storici e dalle relative classi fornite
in input e può essere quindi utilizzato per fare previsioni su nuove osservazioni.
Si chiama Supervised perché si danno delle regole al sistema e viene applicato
sui dati di tipo prescrittivo e predittivo. classifcation e regression.
In questo contesto rientrano le tecniche di
Classifcation
Le tecniche di classificazioni sono utilizzate per prevedere la classe di
appartenenza di nuove osservazioni; tale classe potrà assumere i valori assunti
nel dataset di training dalla variabile target discreta considerata.
Possono essere classificazioni in classi binarie come la classificazione di
transazioni bancarie come legittime o frodi, oppure in classi multiple come
classificare articoli di quotidiani come appartenenti all’argomento finanza,
meteorologia, sport, cronaca...
In Orange le tecniche di classificazione più utilizzate sono tree, test & score,
predictions ecc...
Il widget “Test & Score” accetta in input un dataset e uno o più classificatore
e consente di eseguire un test su diversi algoritmi per valutarne le performance
derivanti dall’applicazione a un dataset di riferimento. Quindi restituisce i
risultati della valutazione sotto forma di indicatori come:
CA (Classification Accurancy):
- percentuale di campioni correttamente
classificati.
Precision:
- percentuale dei True Positive sui Positive classificati.
Recall:
- percentuale dei True Positive sui Positive del Dataset.
F1:
- media pesata di Precisione e Recall.
Il widget “Predictions” accetta in input uno o più predittori e un dataset
e restituisce una previsione di classificazione per ogni record del dataset.
Tipicamente si utilizza il 70% dei record del dataset per effettuare il
training del modello, quindi si utilizza il restante 30% per verificarne le
performance.
Il widget “Confusion Matrix” fornisce una rappresentazione
dell’accuratezza della classificazione; riporta in una matrice, per ogni
classificatore preso in esame, la proporzione tra classi reali e previsioni.
Accetta in input il risultato di un widget di tipo Test & Score.
La ROC Analysis si utilizza per selezionare un classificatore in funzione
delle sue performance rispetto agli altri classificatore presi in esame.
Riporta in ascissa il rateo dei False Positive (FP) e in ordinata il rateo dei
True Positive (TP). Rappresenta sul piano il trade-off tra benefici (TP) e
costi (FP).
Per facilitarne la scelta di uno o più algoritmi è possibile rappresentare la
performance line il cui coefficiente angolare è determinato dai parametri
FP cost, FN cost e Prior target class probability.
La Lift Curve Analysis rappresenta la “capacità cumulativa” di