Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

Qual è la sua evoluzione storica?

Carlo Lauro, ai tempi della sua presidenza dello IASC (International Association for

• Statistical Computing) nel biennio 1993-95 precisò: con lo statistical computing “si applicano

gli strumenti della computer science alla statistica”, con la statistica computazionale “si

progettano procedure e algoritmi per implementare metodi statistici ad-hoc ad uso intensivo del

computer, quali ad esempio il bootstrap o le simulazioni, per la risoluzione di problemi

analiticamente ingestibili prima dell’era del computer”.

Sulla stessa onda, lo statistico americano della Stanford University Jerome Friedman ha

• stigmatizzato come oggigiorno la statistica sia statistica computazionale, ovvero statistica

nell’era del computer.

Lo statistico britannico John Hand è stato tra i promotori principali di questa nuova frontiera

• della metodologia statistica, a cui è stata data l’etichetta di Data Mining (i.e., scavare nella

miniera di dati), “il processo che attraverso l’impiego di modelli non banali ha l’obiettivo di

individuare relazioni tra i dati non banali, nascoste, utili e fruibili dall’utilizzatore.”

Il Data Mining è una fase del più ampio processo di estrazione della conoscenza dalle basi di

• dati (Knowledge Discovery from Databases) con la finalità di estrarre il contenuto informativo

utile che porti valore aggiunto, sfruttando appieno l’informazione derivante da quantità sempre

crescenti di dati a disposizione nell’epopea digitale dei bit.

A. Montella - Sicurezza stradale - 2011/2012 – Seminario 1: R. Siciliano 7

Qual è la sua evoluzione storica?

Il binomio tra i due mondi, la statistica nell’era del computer o statistica computazionale e il machine

• learning o computer science, si è concretizzato in un matrimonio di fatto quando illustri statistici della

Stanford University, Trevor Hastie, Robert Tibshirani e Jerome Friedman, hanno pubblicato nel 2001 (in

seconda edizione nel 2009) il volume dal titolo “The Elements of Statistical Learning. Data Mining,

Inference and Prediction”. Si offre così una trattazione organica e sistematizzata dei principali metodi

statistici nel nuovo paradigma contemporaneo che si sta prospettando nella comunità scientifica

internazionale, contemplando le problematiche di gestione ed elaborazione informatica dei dati

oggigiorno disponibili in grande quantità e in tempo reale.

Già il matematico russo Vladimir Vapnik sul finire del secolo scorso sancisce la nascita della Statistical

• Learning Theory, ossia teoria dell’apprendimento statistico, ponendo fine al dibattito tra induzione (dal

particolare al generale) e deduzione (dal generale al particolare), con l’introduzione del nuovo concetto di

transduction inference, dal particolare al particolare.

Sono gli stessi dati a guidarci nella comprensione della realtà e spesso non ci sono leggi universali da

• scoprire, piuttosto una soluzione generale costruita sulla base dell’osservazione corrente, caratterizzanti

il singolo e non l’universo, da comprendere e analizzare per arricchire il patrimonio informativo e

conoscitivo, acquisire esperienza, da utilizzare in un successivo momento di apprendimento per

riformulare la soluzione quando l’osservazione si aggiorna con nuovi casi.

• A. Montella - Sicurezza stradale - 2011/2012 – Seminario 1: R. Siciliano 8

Qual è la sua evoluzione storica?

L’introduzione del metodo scientifico con la necessità di un supporto metodologico “statistico” risale

• a Leonardo da Vinci, in pieno Rinascimento italiano; egli sottolineò l’importanza dei due fattori, la

sperimentazione empirica, perché non basta ragionare e fare uso dei concetti se poi non li si mette

alla prova; la dimostrazione matematica, come garanzia di rigore logico: “Nissuna umana

investigazione si può dimandare vera scienza, s'essa non passa per le matematiche dimostrazioni.”

Così che a rafforzare la teoria di Vapnik, la matematica è servita per comprendere e giustificare il

• nuovo modo di fare inferenza e previsione.

Sulla scorta dell’evoluzione storica del paradigma scientifico stiamo assistendo a una nuova

• epopea della statistica metodologica con un nuovo indirizzo scientifico per il futuro, apprendere dai

dati rapidamente e utilmente per conoscere e innovare, declinando il trinomio, “statistica”,

“tecnologia”, “analisi dei dati”.

Da declaratoria ministeriale italiana, si legge: “la statistica metodologica affronta le

• problematiche relative all’analisi dei dati, al disegno e alla realizzazione di indagini ed

esperimenti nei diversi settori applicativi, a fini descrittivi, interpretativi e decisionali.

Include, quindi, gli sviluppi teorici e metodologici propri della statistica descrittiva,

esplorativa ed inferenziale nelle loro diverse articolazioni quali statistica matematica, teoria

dei campioni, piano degli esperimenti, analisi statistica dei dati multivariati, analisi

statistiche delle serie temporali e spaziali; di tali sviluppi sono parte integrante le moderne

problematiche relative alla gestione ed elaborazione informatica dei dati.”

A. Montella - Sicurezza stradale - 2011/2012 – Seminario 1: R. Siciliano 9

Cos’è STAD?

Statistica, Tecnologia, Analisi dei Dati (STAD)

• sono parole chiave per la lettura della realtà, come

questa si manifesta sia nelle espressioni qualitative

(attributi, appartenenza a classi o gruppi, etichette,

categorie, etc.) sia in quelle quantitative (numeri,

misurazioni, valori, etc.), percepite e riconosciute

dall’uomo nei diversi ambiti scientifici e applicativi, con la

finalità di conoscere per innovare.

L’etimologia delle tre parole:

• Statistica = “ciò che è”

– Tecnologia = “ragionamento sull’arte e il fare”

– Analisi dei Dati = “soluzione a partire da quantità note”

– A. Montella - Sicurezza stradale - 2011/2012 – Seminario 1: R. Siciliano 10

Cosa sono i dati statistici?

La lettura della realtà passa per

• la definizione dell’unità o entità elementare (individuo, oggetto,

– caso, etc.) del collettivo oggetto di studio, osservato in forma

esaustiva (i.e., popolazione) o parziale (i.e., campione),

e per la scelta di uno o più caratteri, fenomeni di interesse da

– investigare, osservando o misurando, in determinate condizioni, le

modalità o espressioni (numeriche o attributi qualitativi) di ciascun

carattere per ciascuna unità.

Il dato statistico è il risultato dell'operazione di

• determinazione della modalità con cui un carattere si

manifesta in ciascuna unità del collettivo oggetto di studio:

Dato univariato → in presenza di un solo carattere

– Dato multivariato → in presenza di più caratteri

– A. Montella - Sicurezza stradale - 2011/2012 – Seminario 1: R. Siciliano 11

Come si apprende dai dati?

Modello concettuale

A. Montella - Sicurezza stradale - 2011/2012 – Seminario 1: R. Siciliano 12

Perché è importante la statistica oggigiorno?

La piramide per innovare

A. Montella - Sicurezza stradale - 2011/2012 – Seminario 1: R. Siciliano 13

Chi sono gli statistici oggigiorno?

"We need to tell people that Statisticians are the ones who make

• sense of the data deluge occurring in science, engineering, and

medicine; that Statistics provides methods for data analysis in all

fields, from art history to zoology; that it is exciting to be a Statistician

in the 21st century because of the many challenges brought about by

the data explosion in all of these fields.” (American Statistical

Association President Nancy Geller, 2011).

Statistician = Data scientist, who uses both data and science to

• create something new.

A. Montella - Sicurezza stradale - 2011/2012 – Seminario 1: R. Siciliano 14

Processo KDD

(Knowledge Discovery from Databases)

Intervention

Strategy

Modelli statistici Conoscenz

Procedure di decisione a

Information

Modelling

Data

Tecniche di riduzione Minin

Sintesi dei dati g Modelli di decisione e

previsione

Data

Analysis

Preprocessin

• Analisi dei dati

g •

& Cleaning

• Gestione e organizzazione dati

A. Montella - Sicurezza stradale - 2011/2012 – Seminario 1: R. Siciliano 15

Quali sono i metodi statistici?

Statistica descrittiva: comprende i metodi per descrivere

• sinteticamente le informazioni derivanti dall’osservazione di uno o più

caratteri su un collettivo oggetto di studio, attraverso classificazioni

tabellari mediante la partizione di unità in gruppi (distribuzioni di

frequenze, semplici e doppie, etc., distribuzioni di intensità, etc.),

rappresentazioni grafiche (diagrammi a barre, istogrammi, diagrammi

cartesiani, torte, etc.), indici statistici di posizione (media, mediana,

moda, etc.), indici di variabilità (varianza, coefficiente di variazione

etc.) o di mutabilità (eterogeneità, entropia, etc.), indici di forma

(asimmetria e somiglianza a distribuzioni note), indici di relazione per

misurare la correlazione o associazione tra caratteri.

Statistica inferenziale: comprende i metodi di stima (puntuale o per

• intervallo) e di verifica delle ipotesi statistiche (test parametrici e non

parametrici) utilizzando i teoremi del calcolo delle probabilità e le leggi

di convergenza, altresì include i modelli statistici per esplicitare la

relazione tra variabili statistiche.

A. Montella - Sicurezza stradale - 2011/2012 – Seminario 1: R. Siciliano 16

Quali sono i metodi statistici?

Statistica esplorativa: comprende i metodi di sintesi grafica e

• numerica affinché siano i dati a disposizione a guidare l’analista nella

formulazione di particolari ipotesi riguardanti il fenomeno sottostante,

la scelta dello strumento più appropriato per verificare le ipotesi,

scoprire fatti e regolarità, altresì definendo una strategia di analisi

statistica per la risoluzione di un problema reale in un contesto

applicativo di elaborazione e analisi dei dati.

Per estrarre il contenuto informativo dai dati a disposizione, provenienti

• da fonti diverse e strutturati in forma complessa (data warehouse), lo

sviluppo naturale della statistica esplorativa è il data mining e lo

statistical learning, così da rendere possibile un apprendimento

statistico basato sul connubio tra informazione a-priori ed esperienza

derivante dall’osservazione o sperimentazione.

A. Montella - Sicurezza stradale - 2011/2012 – Seminario 1: R. Siciliano 17

Glossario

Popolazione / campione => Deduzione / Induzione

• Unità statistica, Modalità, Carattere o variabile statistica

• Distribuzioni di intensità/frequenza

• Centralità, Eterogeneità/variabilità

• Forma di una distribuzione

• Modelli di probabilità

• Dipendenza/Interdipendenza (associazione, correlazione)

• Classificazione / Regressione

• Partizione e Analisi dei gruppi

• Analisi fattoriale

• Stimatore e distribuzione campionaria

• Stima e intervallo di fiducia

• Test e significatività

• Modello statistico

• A. Montella - Sicurezza stradale - 2011/2012 – Seminario 1: R. Siciliano 18

Esempio: incidenti anno 2008 (campione estratto in

modo casuale dal database)

La matrice dei dati

• A. Montella - Sicurezza stradale - 2011/2012 19

Esempio: incidenti anno 2008

(campione estratto in modo casuale dal database)

Distribuzioni di frequenza…

• Variabile qualitativa nominale;

• Moda: Scontro frontale-laterale;

• Eterogeneità: 0,8036

• Max eterogeneità: 11/12 = 0,9166

A. Montella - Sicurezza stradale - 2011/2012 – Seminario 1: R. Siciliano 20

Esempio: incidenti anno 2008

(campione estratto in modo casuale dal database)

Distribuzioni di frequenza…

• Variabile quantitativa;

• Media aritmetica: 42,741;

• Varianza: 160,633;

• Deviazione standard: 12,674;

• Coefficiente di variazione: 0,296;

Cosa fare se ci sono dati mancanti? (Classe) Mediana: 26-45;

• •

eliminare i record da analisi future; Classe modale: 26-45 (densità di

• •

imputare i dati mancanti frequenza più elevata)

• A. Montella - Sicurezza stradale - 2011/2012 – Seminario 1: R. Siciliano 21


PAGINE

35

PESO

1.32 MB

AUTORE

Atreyu

PUBBLICATO

+1 anno fa


DESCRIZIONE DISPENSA

Materiale didattico per il corso di Sicurezza stradale del Prof. Alfonso Montella, all'interno del quale sono affrontati i seguenti argomenti: metodi statistici per la sicurezza stradale; introduzione alla statistica; processo KDD (Knowledge Discovery from Databases); alberi di classificazione e regole associative;


DETTAGLI
Corso di laurea: Corso di laurea magistrale in ingegneria dei sistemi idraulici e di trasporto (ISIT)
SSD:
A.A.: 2012-2013

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Atreyu di informazioni apprese con la frequenza delle lezioni di Sicurezza stradale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Napoli Federico II - Unina o del prof Montella Alfonso.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea magistrale in ingegneria dei sistemi idraulici e di trasporto (isit)

Idrologia - Le piene dei corsi d'acqua - sintesi
Appunto
Idrologia - Le precipitazioni atmosferiche - sintesi
Appunto
Idrologia - Relazione tecnica
Esercitazione
Idrologia - Appunti: Lo Studio delle Piene
Appunto