Tesi triennale - Media Monitor - analisi automatizzata

Name: Tesi triennale - Media Monitor - analisi automatizzata
Rating: 3.0 (2 reviews)
Author: matte_ferra

Revisionato il 07/03/2025

di matte_ferra

Publisher

Vota 3,0/5 (2)

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Tesi di ingegneria informatica per la cattedra di Tecnologia della base di dati della professoressa Bergamaschi. Gli argomenti trattati sono i seguenti: rappresentazione della conoscenza, web …

Esame Tecnologia delle basi di dati

Facoltà Ingegneria

Dal corso del Prof. Bergamaschi Sonia

Università Università degli Studi di Modena e Reggio Emilia

A.A. 2012-2013

80 pagine

Tesi

Scarica

Estratto del documento

HTML.

Figura 3.F: codice sorgente di una pagina web. 49

A volte la specifica funzione di separazione dei contenuti dai tag HTML è affidata a

sofware chiamati HTML scraper.

Le regole di estrazione sono basate sulla sequenza dei tag HTML che vengono utilizzati

per identificare l'inizio o la fine di un dato elemento nel documento.

Una parte importante di queste regole è costituita dalle espressioni regolari (RegEx),

implementate in molti linguaggi di programmazione, come ad esempio i noti PHP e

Python. Un'altra tecnologia rilevante è XPath (XML Path), il quale si concretizza in un

linguaggio di interrogazione che permette l'elaborazione di dati conformi al modello

XML (tra cui l'HTML).

3.2.3 Scoperta automatica dei feed

La ricerca manuale di link a feed RSS è problematica e costosa se eseguita su larga

scala. La scoperta automatica dei feed favorisce l'analisi in maniera significativa. Per

risolvere questo problema può essere utilizzato un crawler specifico, diverso da quello

che analizza i feed e impostato per seguire solo link che includono la presenza di

termini come "rss", "feed" e "xml" nel loro testo.

3.2.4 Accquisizione del corpo della notizia.

Il media monitoring interessa l'intero corpo del testo di un articolo e non solo la sintesi

che è solitamente presente nel feed. Per trovare il testo integrale è necessario seguire il

link presente nel feed. La pagina trovata contiene però molte più informazioni rispetto al

semplice testo cercato: come immagini, link ad altre pagine, annunci, ecc. Tutte queste

informazioni supplementari sono considerate irrilevanti ai fini del media monitoring e

devono essere rimosse prima di eseguire ulteriori trasformazioni. Anche in questo caso

interviene un HTML scraper che restituisce il corpo testuale grezzo di questo articolo.

3.2.5 Tagging

Alle notizie vengono attribuiti i cosiddetti Tag, parole chiave che miglioreranno in un

secondo momento le operazioni di analisi e ricerca. Prima di tutto vengono ereditati i

tag relativi al feed che le trasporta, qualora siano state effettivamente raccolte in questo

modo. Se l' articolo è presente in più di un feed, allora eredita tutti i relativi tag

corrispondenti. Una seconda serie di tag può essere applicata a una notizia in una

successiva fase di elaborazione, in modo automatico da un sistema appositamente

progettato, con funzionalità sintetizzate a partire da metodologie appartenenti ai campi

di Machine Learning e Natural Language Processing.

3.2.6 Pre-elaborazione del testo

Prima che il contenuto testuale degli articoli venga elaborato da algoritmi di clustering e

classificazione occorre eseguire una pre-elaborazione. Al testo integrale dell'articolo ne

viene affiancato uno riadattato. Di solito quest'ultimo include la rimozione delle

cosiddette stop-word e della punteggiatura. Con il tecnicismo “stop-word” si intendono

le molte parole che appaiono nel testo, come articoli e preposizioni, che apportano poca

o nessuna informazione. Esempi di tali parole includono: la, e, in, a, cosa, saranno, con,

ecc.

In molte lingue le parole compaiono in forme diverse a seconda di regole grammaticali

e sintattiche. I nomi infatti hanno forme plurali e i verbi hanno varie coniugazioni. Ai

fini delle rielaborazioni successive questo potrebbe costituire un problema. Un metodo

comune utilizzato per risolverlo è la riduzione delle parole alle proprie radici.

3.2.7 Algoritmi di clustering

Cluster Analysis

Il Clustering è una tecnica di analisi multi-variata dei dati, volta alla selezione e

raggruppamento di elementi omogenei in un insieme di dati. Tutte le tecniche di

clustering si basano sul concetto di distanza tra due elementi, la quale è un concetto

fondamentale in questo campo. L'appartenenza o meno ad un insieme dipende da quanto

l'elemento preso in esame è distante dall'insieme stesso. Esistono due approcci opposti a

questa analisi:

Dal basso verso l'alto: inizialmente tutti gli elementi sono considerati cluster a sé, in

seguito l'algoritmo provvede ad unire i cluster più vicini. L'algoritmo continua ad unire

elementi al cluster fino ad ottenere un numero prefissato di cluster oppure fino a che la

distanza minima tra i cluster non supera un certo valore.

Dall'alto verso il basso: all'inizio tutti gli elementi sono in un unico cluster e poi

l'algoritmo inizia a suddividere gli elementi in insiemi più piccoli. L'algoritmo procede

fino a che non ha raggiunto un numero prefissato di cluster. Questo approccio è anche

detto gerarchico.

Metodi di classificazione

Mentre nella cluster analysis l'obiettivo è quello della ricerca dell'esistenza di gruppi (le

classi non sono note a priori), nei metodi di classificazione i gruppi sono chiamati

"classi" e preesistono agli oggetti presi in considerazione. In questo caso si opera quindi

l'elaborazione di un modello che permette l'assegnazione di oggetti di classe ignota alla

classe che meglio li rappresenta. 52

Capitolo 4

Science in the Media Monitor

Questo capitolo si propone di inquadrare lo Science in the Media Monitor nel

contesto in cui è nato e illustrarne la struttura e il funzionamento in relazione

alle nozioni fornite nei precedenti capitoli.

4.1 Observa

Observa Science in Society è un centro di ricerca legalmente riconosciuto,

indipendente da enti privati o pubblici e senza fini di lucro. Promuove la

riflessione e il dibattito sui rapporti tra scienza e società, con particolare

attenzione alla comunicazione scientifica, favorendo il dialogo tra ricercatori e

cittadini. Tutte le attività sono supervisionate da un comitato scientifico

internazionale e interdisciplinare e le attività sono finanziate attraverso i progetti

realizzati, i contributi dei soci sostenitori e le eventuali donazioni.

Observa è inserito nella rete internazionale che si occupa dei rapporti tra

scienza e società. Questo network comprende, tra gli altri, anche:

Science and the City;

• MACOSPOL (MApping COntroversies on Science for POLitics);

• ESCoNet (European Science Communicators training Network);

• il network di istituzioni attive nell’analisi degli orientamenti pubblici verso

• la scienza coordinato dalla London School of Economics and Political

Science;

ROSE (Relevance Of Science Education);

• IRIS (Interest & Recruitment In Science).

•

Grazie ai suoi studi e alle sue attività Observa ha stabilito collaborazioni con

numerose istituzioni internazionali, tra le quali, in evidenza sono: la

Commissione Europea – Direzione Generale della Ricerca, il CERN, l'Università

di Lancaster, l'Università di Bielefeld, The University College of London,

l'Università Pompeu Fabra di Barcellona, l'Accademia Austriaca delle Scienze, i

Laboratori Nazionali del Gran Sasso e l'UNESCO.

4.1.1 Attività e strumenti

Observa realizza studi sulla percezione pubblica di temi, istituzioni e soggetti

dell’area tecnico-scientifica e sulla loro visibilità e rappresentazione nei mass

media. Promuove attività di sensibilizzazione, formazione e aggiornamento

circa le tematiche del rapporto tra scienza e società e del dialogo con i cittadini

e i mass media, che sono rivolte a ricercatori e altri professionisti del mondo

scientifico, sanitario e ambientale.

Questa attività è possibile grazie a diversi strumenti mediatici e non.

L'Osservatorio Scienza e Società è divulgato in collaborazione con il

supplemento Nòva24 de Il Sole 24 Ore e la trasmissione televisiva Superquark

e rappresenta il primo monitoraggio permanente delle tendenze e degli

orientamenti dell’opinione pubblica italiana nei confronti di ricerca e innovazione

tecnologica.

L'Annuario Scienza e Società invece mette a disposizione, in forma sintetica e

accessibile, una raccolta rielaborata e commentata di informazioni e dati

provenienti dalle più accreditate fonti nazionali e internazionali.

Quelli appena descritti rappresentano alcuni degli strumenti di divulgazione a

disposizione di Observa, il cuore del quale risiede nei progetti di ricerca, studi e

iniziative, di carattere nazionale e internazionale, rispondenti a specifiche

richieste di enti, istituzioni o network di ricerca. Per quanto riguarda invece

l'attività di raccolta dati e analisi dei media sui temi scientifici, è stato messo a

punto il progetto Science in the Media Monitor, alias il primo osservatorio sulla

comunicazione pubblica della scienza e della tecnologia, che effettua un

monitoraggio approfondito e sistematico della copertura dei temi legati alla

ricerca scientifica e all’innovazione tecnologica, nelle principali testate

giornalistiche online italiane. 54

4.2 Science in the Media Monitor

Dalle scoperte scientifiche e tecnologiche dipende il nostro benessere, la nostra

capacità di far fronte alle malattie, di spostarci quotidianamente e di organizzare

la nostra vita lavorativa. Anche per queste ragioni è necessario sempre più

comprendere qual è lo spazio che i media assegnano alla scienza e alla

tecnologia e capire quali sono i termini con cui queste vengono da essi

trasmesse.

Per queste ragioni Observa ha pensato e realizzato lo Science in the Media

Monitor, il primo sistema in grado di raccogliere, archiviare, ed analizzare in

modo automatico i contenuti delle principali fonti giornalistiche riguardanti

scienza e tecnologia.

Quanto e come si parla di scienza e tecnologia nei media tradizionali? Quanto

questo succede nei quotidiani e nei nuovi media, come Internet? Quali sono i

temi privilegiati in termini di rilevanza? Quali gli eventi che suscitano picchi di

attenzione? Quali le fonti più quotate? Ci sono tendenze e mutamenti

significativi nel tempo? Come si presenta la copertura mediatica italiana sui

temi scientifico-tecnologici rispetto a quella di altri Paesi europei?

Finora non erano disponibili dati attendibili e sistematici per rispondere a queste

domande. Observa - Science in Society ha ideato il primo osservatorio sulla

comunicazione pubblica della scienza e della tecnologia, un monitoraggio

approfondito e regolare della copertura dei temi legati alla ricerca scientifica e

all’innovazione tecnologica nei media italiani. Lo Science in the Media Monitor

(SMM) è stato sviluppato in stretto contatto con iniziative simili a livello europeo,

in modo da costruire le basi per rendere possibile, presumibilmente in tempi

brevi, anche la comparazione internazionale. In altre parole scienza e

tecnologia sono gli strumenti attraverso cui sempre di più è possibile pensare e

realizzare il vivere comune.

4.2.1 Un primo sguardo

Anteprima

Vedrai una selezione di 10 pagine su 80