Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
HTML.
Figura 3.F: codice sorgente di una pagina web. 49
A volte la specifica funzione di separazione dei contenuti dai tag HTML è affidata a
sofware chiamati HTML scraper.
Le regole di estrazione sono basate sulla sequenza dei tag HTML che vengono utilizzati
per identificare l'inizio o la fine di un dato elemento nel documento.
Una parte importante di queste regole è costituita dalle espressioni regolari (RegEx),
implementate in molti linguaggi di programmazione, come ad esempio i noti PHP e
Python. Un'altra tecnologia rilevante è XPath (XML Path), il quale si concretizza in un
linguaggio di interrogazione che permette l'elaborazione di dati conformi al modello
XML (tra cui l'HTML).
3.2.3 Scoperta automatica dei feed
La ricerca manuale di link a feed RSS è problematica e costosa se eseguita su larga
scala. La scoperta automatica dei feed favorisce l'analisi in maniera significativa. Per
risolvere questo problema può essere utilizzato un crawler specifico, diverso da quello
che analizza i feed e impostato per seguire solo link che includono la presenza di
termini come "rss", "feed" e "xml" nel loro testo.
3.2.4 Accquisizione del corpo della notizia.
Il media monitoring interessa l'intero corpo del testo di un articolo e non solo la sintesi
che è solitamente presente nel feed. Per trovare il testo integrale è necessario seguire il
link presente nel feed. La pagina trovata contiene però molte più informazioni rispetto al
semplice testo cercato: come immagini, link ad altre pagine, annunci, ecc. Tutte queste
informazioni supplementari sono considerate irrilevanti ai fini del media monitoring e
devono essere rimosse prima di eseguire ulteriori trasformazioni. Anche in questo caso
interviene un HTML scraper che restituisce il corpo testuale grezzo di questo articolo.
50
3.2.5 Tagging
Alle notizie vengono attribuiti i cosiddetti Tag, parole chiave che miglioreranno in un
secondo momento le operazioni di analisi e ricerca. Prima di tutto vengono ereditati i
tag relativi al feed che le trasporta, qualora siano state effettivamente raccolte in questo
modo. Se l' articolo è presente in più di un feed, allora eredita tutti i relativi tag
corrispondenti. Una seconda serie di tag può essere applicata a una notizia in una
successiva fase di elaborazione, in modo automatico da un sistema appositamente
progettato, con funzionalità sintetizzate a partire da metodologie appartenenti ai campi
di Machine Learning e Natural Language Processing.
3.2.6 Pre-elaborazione del testo
Prima che il contenuto testuale degli articoli venga elaborato da algoritmi di clustering e
classificazione occorre eseguire una pre-elaborazione. Al testo integrale dell'articolo ne
viene affiancato uno riadattato. Di solito quest'ultimo include la rimozione delle
cosiddette stop-word e della punteggiatura. Con il tecnicismo “stop-word” si intendono
le molte parole che appaiono nel testo, come articoli e preposizioni, che apportano poca
o nessuna informazione. Esempi di tali parole includono: la, e, in, a, cosa, saranno, con,
ecc.
In molte lingue le parole compaiono in forme diverse a seconda di regole grammaticali
e sintattiche. I nomi infatti hanno forme plurali e i verbi hanno varie coniugazioni. Ai
fini delle rielaborazioni successive questo potrebbe costituire un problema. Un metodo
comune utilizzato per risolverlo è la riduzione delle parole alle proprie radici.
3.2.7 Algoritmi di clustering
Cluster Analysis
Il Clustering è una tecnica di analisi multi-variata dei dati, volta alla selezione e
51
raggruppamento di elementi omogenei in un insieme di dati. Tutte le tecniche di
clustering si basano sul concetto di distanza tra due elementi, la quale è un concetto
fondamentale in questo campo. L'appartenenza o meno ad un insieme dipende da quanto
l'elemento preso in esame è distante dall'insieme stesso. Esistono due approcci opposti a
questa analisi:
Dal basso verso l'alto: inizialmente tutti gli elementi sono considerati cluster a sé, in
seguito l'algoritmo provvede ad unire i cluster più vicini. L'algoritmo continua ad unire
elementi al cluster fino ad ottenere un numero prefissato di cluster oppure fino a che la
distanza minima tra i cluster non supera un certo valore.
Dall'alto verso il basso: all'inizio tutti gli elementi sono in un unico cluster e poi
l'algoritmo inizia a suddividere gli elementi in insiemi più piccoli. L'algoritmo procede
fino a che non ha raggiunto un numero prefissato di cluster. Questo approccio è anche
detto gerarchico.
Metodi di classificazione
Mentre nella cluster analysis l'obiettivo è quello della ricerca dell'esistenza di gruppi (le
classi non sono note a priori), nei metodi di classificazione i gruppi sono chiamati
"classi" e preesistono agli oggetti presi in considerazione. In questo caso si opera quindi
l'elaborazione di un modello che permette l'assegnazione di oggetti di classe ignota alla
classe che meglio li rappresenta. 52
Capitolo 4
Science in the Media Monitor
Questo capitolo si propone di inquadrare lo Science in the Media Monitor nel
contesto in cui è nato e illustrarne la struttura e il funzionamento in relazione
alle nozioni fornite nei precedenti capitoli.
4.1 Observa
Observa Science in Society è un centro di ricerca legalmente riconosciuto,
indipendente da enti privati o pubblici e senza fini di lucro. Promuove la
riflessione e il dibattito sui rapporti tra scienza e società, con particolare
attenzione alla comunicazione scientifica, favorendo il dialogo tra ricercatori e
cittadini. Tutte le attività sono supervisionate da un comitato scientifico
internazionale e interdisciplinare e le attività sono finanziate attraverso i progetti
realizzati, i contributi dei soci sostenitori e le eventuali donazioni.
Observa è inserito nella rete internazionale che si occupa dei rapporti tra
scienza e società. Questo network comprende, tra gli altri, anche:
Science and the City;
• MACOSPOL (MApping COntroversies on Science for POLitics);
• ESCoNet (European Science Communicators training Network);
• il network di istituzioni attive nell’analisi degli orientamenti pubblici verso
• la scienza coordinato dalla London School of Economics and Political
Science;
ROSE (Relevance Of Science Education);
• IRIS (Interest & Recruitment In Science).
•
Grazie ai suoi studi e alle sue attività Observa ha stabilito collaborazioni con
numerose istituzioni internazionali, tra le quali, in evidenza sono: la
Commissione Europea – Direzione Generale della Ricerca, il CERN, l'Università
53
di Lancaster, l'Università di Bielefeld, The University College of London,
l'Università Pompeu Fabra di Barcellona, l'Accademia Austriaca delle Scienze, i
Laboratori Nazionali del Gran Sasso e l'UNESCO.
4.1.1 Attività e strumenti
Observa realizza studi sulla percezione pubblica di temi, istituzioni e soggetti
dell’area tecnico-scientifica e sulla loro visibilità e rappresentazione nei mass
media. Promuove attività di sensibilizzazione, formazione e aggiornamento
circa le tematiche del rapporto tra scienza e società e del dialogo con i cittadini
e i mass media, che sono rivolte a ricercatori e altri professionisti del mondo
scientifico, sanitario e ambientale.
Questa attività è possibile grazie a diversi strumenti mediatici e non.
L'Osservatorio Scienza e Società è divulgato in collaborazione con il
supplemento Nòva24 de Il Sole 24 Ore e la trasmissione televisiva Superquark
e rappresenta il primo monitoraggio permanente delle tendenze e degli
orientamenti dell’opinione pubblica italiana nei confronti di ricerca e innovazione
tecnologica.
L'Annuario Scienza e Società invece mette a disposizione, in forma sintetica e
accessibile, una raccolta rielaborata e commentata di informazioni e dati
provenienti dalle più accreditate fonti nazionali e internazionali.
Quelli appena descritti rappresentano alcuni degli strumenti di divulgazione a
disposizione di Observa, il cuore del quale risiede nei progetti di ricerca, studi e
iniziative, di carattere nazionale e internazionale, rispondenti a specifiche
richieste di enti, istituzioni o network di ricerca. Per quanto riguarda invece
l'attività di raccolta dati e analisi dei media sui temi scientifici, è stato messo a
punto il progetto Science in the Media Monitor, alias il primo osservatorio sulla
comunicazione pubblica della scienza e della tecnologia, che effettua un
monitoraggio approfondito e sistematico della copertura dei temi legati alla
ricerca scientifica e all’innovazione tecnologica, nelle principali testate
giornalistiche online italiane. 54
4.2 Science in the Media Monitor
Dalle scoperte scientifiche e tecnologiche dipende il nostro benessere, la nostra
capacità di far fronte alle malattie, di spostarci quotidianamente e di organizzare
la nostra vita lavorativa. Anche per queste ragioni è necessario sempre più
comprendere qual è lo spazio che i media assegnano alla scienza e alla
tecnologia e capire quali sono i termini con cui queste vengono da essi
trasmesse.
Per queste ragioni Observa ha pensato e realizzato lo Science in the Media
Monitor, il primo sistema in grado di raccogliere, archiviare, ed analizzare in
modo automatico i contenuti delle principali fonti giornalistiche riguardanti
scienza e tecnologia.
Quanto e come si parla di scienza e tecnologia nei media tradizionali? Quanto
questo succede nei quotidiani e nei nuovi media, come Internet? Quali sono i
temi privilegiati in termini di rilevanza? Quali gli eventi che suscitano picchi di
attenzione? Quali le fonti più quotate? Ci sono tendenze e mutamenti
significativi nel tempo? Come si presenta la copertura mediatica italiana sui
temi scientifico-tecnologici rispetto a quella di altri Paesi europei?
Finora non erano disponibili dati attendibili e sistematici per rispondere a queste
domande. Observa - Science in Society ha ideato il primo osservatorio sulla
comunicazione pubblica della scienza e della tecnologia, un monitoraggio
approfondito e regolare della copertura dei temi legati alla ricerca scientifica e
all’innovazione tecnologica nei media italiani. Lo Science in the Media Monitor
(SMM) è stato sviluppato in stretto contatto con iniziative simili a livello europeo,
in modo da costruire le basi per rendere possibile, presumibilmente in tempi
55
brevi, anche la comparazione internazionale. In altre parole scienza e
tecnologia sono gli strumenti attraverso cui sempre di più è possibile pensare e
realizzare il vivere comune.
4.2.1 Un primo sguardo