Fondamenti di Informatica per Le Scienze Umanistiche - Appunti

Appunti che contengono oltre che agli appunti del corso: "Informazione e comunicazione in rete: dal web tradizionale al web 2.0" con argomenti come: Gestione dell’informazione e Pubblicazione di contenuti sul web, che cos'è l'informatica, l'evoluzione delle tecnologie contengono anche citazioni del libro obbligatorio per il corso "Informazione, conoscenza e Web per le scienze umanistiche"

Esame Fondamenti di informatica per scienze umanistiche

Facoltà Lettere e filosofia

Dal corso del Prof. Ferrara Alfio

Università Università degli Studi di Milano

Publisher elis.santoro

A.A. 2012-2013

37 pagine

1 download

Appunto

Vota 5,0 / 5 (2)

Scarica

Estratto del documento

CASCADE.

INNER JOIN: esprime l’operazione di collegamento fra le tabelle, la clausola ON specifica la condizione id

join. La parola chiave INNER determina l’uso di un tipo di join interno poiché solo le tuple per le quali la

condizione di join è verificata vengono incluse nel risultato dell’operazione.

ORDER BY: criterio di ordinamento. Non essendo specificato si applica un ordinamento crescente. Qualora

si voglia un ordinamento decrescente basta aggiungere la clausola DESC immediatamente dopo l’attributo su

cui tale ordinamento deve essere applicato.

DISTINCT: clausola nel comando SELECT che permette di eliminare i risultati duplicati.

IS NULL: applicato a un attributo restituisce un valore booleano (vero/falso) che risulta vero nel caso in cui

il valore dell’attributo sia nullo e falso altrimenti.

AS: clausola di SELECT che permette di modificare l’intestazione degli attributi con stringhe di testo

preferite dall’utente. Sono chiamate alias di attributo. L’uso delle parentesi quadre [] è necessario per

definire alias composti da più di una parola.

Analisi e classificazione automatica di testi

Il web è come una vasta collezione di testi e documenti che trattano argomenti tipicamente molto diversi fra

loro. Non c’è però indice globale dei documenti pubblicati, però la disponibilità di tecniche di indicizzazione

e interrogazione capaci di individuare e reperire i documenti rilevanti rispetto alle richieste degli utenti è un

requisito fondamentale affinché l’immenso patrimonio informativo del Web sia di qualche utilità.

Fondamenti Di Informatica Per Le Scienze Umanistiche

Information Retrieval: recupero di informazione, è la scienza che studia il problema del

reperimento automatico di informazioni da una collezione (corpus) di documenti.

I sistemi di Information Retrieval sono stati concepiti con l’obbiettivo di mediare l’interazione fra utente e il

corpus di documenti che egli desidera interrogare. L’utente sottopone al sistema una o più chiavi di ricerca

(keyword) che denotano il suo bisogno di informazione e il sistema, consultando il corpus, restituisce

l’insieme di documenti che sono valutati come pertinenti rispetto alla richiesta. Il problema principale è

riuscire a conciliare efficacia (richiedere al sistema di confrontare le chiavi di ricerca con tutti i documenti

del ocrpus) e efficienza (limitare il confronto a un sottoinsieme di documenti e possibilmente solo alle parti

significative), estraendo una rappresentazione della sintesi del contenuto informativo di ciascun documento e

memorizzare tali rappresentazioni in modo efficiente.

Sistema articolato in 4 componenti:

• Analisi. Alimenta l’archivio dei documenti elaborando il documento originale, memorizza nel

corpus (l’insieme dei documenti inseriti nel sistema, nel caso del Web sono pagine, immagini, filmati

pubblicati in rete) e produce una rappresentazione di sintesi;

• Indicizzazione. Alimenta l’archivio dei documenti costruendo una struttura di accesso efficiente,

indice (struttura basata sulle rappresentazioni di sintesi dei documenti), ai documenti della

collezione;

• Interrogazione. Usato dall’utente, la richiesta subisce un’elaborazione che la prepara per la

componente di matching;

• Matching. Il sistema confronta la richiesta dell’utente con l’indice al fine di individuare i documenti

del corpus che sono rilevanti e che costituiranno il risultato dell’interrogazione.

Le tecniche di analisi e costruzione delle rappresentazioni di sintesi sono cruciali per l’efficacia del sistema.

Sia in fase di analisi sia in fase di matching il sistema può fare uso di un vocabolario controllato (o

thesaurus) e di altre tecniche linguistiche per migliorare l’efficacia del reperimento.

Per la componente di analisi l’obbiettivo è classificare i documenti del corpus e costruire una

rappresentazione di sintesi del contenuto informativo di ciascuno di essi: una lista di termini estratti dal

documento stesso mediante tecniche di elaborazione del linguaggio naturale:

• Tecniche per l’eliminazione delle stop word. Una stop word è una particella linguistica come una

congiunzione, un articolo o una preposizione. L’eliminazione di questi elementi però non ha

conseguenze sul significato del documento. 23

Fondamenti Di Informatica Per Le Scienze Umanistiche

• Tecniche per l’estrazione di stem. Uno stem, anche detto tema, è la parte di un termine (lemma)

che rimane dopo essere stata separata dalla desinenza. Il processo di steming consiste nell’analisi del

testo di un documento e nella sostituzione di tutte le forme derivate con il corrispondente stem.

• Tecniche per la scelta di termini con elevato potere discriminante. Estrarre i termini che meglio

rappresentano il contenuto informativo di un documento basato sulla frequenza di occorrenza dei

termini.

I termini che costituiscono la rappresentazione di sintesi di un documento sono scelti da una lista predefinita,

detta vocabolario controllato o thesaurus: raccolta di termini correlati fra loro mediante relazioni

terminologiche come la sinonimia (collega due termini aventi sintassi diversa ma medesimo significato),

iperonimia (mette in relazione due termini in cui il secondo ha un significato più specifico del primo,

relazione di specializzazione), iponimia (mette in relazione due termini in cui il secondo ha un significato più

generale del primo, relazione di generalizzazione), meronimia (relazione di composizione) e olonimia

(relazione di contenimento).

Con il vocabolario controllato il sistema tende a uniformare la terminologia usata nelle rappresentazioni di

sintesi, semplificando il compito della componente di indicizzazione.

L’indice è costituito da una lista di coppie (T , R ) dove T è un termine dell’indice e R sono i riferimenti ai

i i i i

documenti del corpus collegati a T . in approcci più sofisticati, R può contenere informazioni ulteriori.

i i

La componente di interrogazione funge da interfaccia del sistema di Information Retrieval e permette

all’utente di formulare le proprie richieste espresse in termini di chiavi di ricerca. Le chiavi di ricerca inserite

dall’utente possono essere sottoposte a una fase iniziale di normalizzazione (eliminazione di eventuali spazi

superflui e segni di interpunzione; eliminazione di stop word e l’estrazione di stem). In seguito le chiavi di

ricerca sono passate alla componente di matching che si occupa concretamente di individuare i documenti

che costituiranno il risultato, cioè sul confronto di ogni chiave di ricerca K con tutti i termini T che

j i

compongono l’indice ei documenti.

Le tecniche di matching esatto sono il confronto tra due termini T e T è positivo se e solo se T = T , ma

h k h k

non è in grado di individuare la corrispondenza tra termini simili o legami da relazioni terminologiche.

Le tecniche di matching per similarità sono caratterizzate dal fatto che il risultato del confronto fra due

termini T e T non è un valore booleano (sì/no) ma è un valore numerico che indica la similarità fra T e T .

h k h k

Classificate:

• Tecniche sintattiche. Si tratta di tecniche basate sul confronto delle stringe di testo che compongono i

termini considerati, come la distanza di editing che valuta la similarità di due termini T e T in

h k

funzione del numero di caratteri che è necessario modificare per trasformare T in T

h k.

• Tecniche linguistiche. Si tratta di tecniche basate sull’uso di strumenti linguistici per valutare la

similarità fra due termini.

Il risultato dell’interrogazione è composto da una lista di documenti con associato un valore di rilevanza.

Data una interrogazione I e un sistema di Information Retrieval IR, possiamo suddividere i documenti del

corpus in due sottoinsiemi: i documenti reperiti e non.

Documenti rilevanti Documenti non rilevanti

Documenti reperiti A - documenti reperiti e rilevanti B - documenti reperiti ma non

rilevanti (falsi positivi)

Documenti non C - documenti non reperiti, ma D - documenti non reperiti e non

reperiti rilevanti (falsi negativi) rilevanti

Coefficienti per la valutazione dei risultati di un sistema:

• Precision (P). misura la precisione del sistema IR, cioè il rapporto tra il numero di A e il totale di

A

P=

A+B. A B

+ 24

Fondamenti Di Informatica Per Le Scienze Umanistiche

• Recall (R). misura l’accuratezza del sistema IR, cioè il rapporto fra il numero di A e il totale di A +

A

R=

C. A+C

Precision e Recall hanno 1 come valore massimo che corrisponde al comportamento ottimale del sistema IR,

cioè tutti i documenti rilevanti. Quando P < 1, il sistema IR restituisce nel risultato documenti non rilevanti

che l’utente dovrà riconoscere e ignorare, mentre quando R < 1, il sistema IR omette di restituire nel risultato

documenti rilevanti che l’utente non avrà modo di visualizzare e consultare.

4 aprile 2012

Modulo B

Programmazione, tema informatico. Gestione di contenuti sul web.

Wordpress = caratteristica comune e base informatica, infrastruttura permette di mettere in piedi un blog.

Permette di scegliere chi commentare, come...piccola interfaccia per pubblicare contenuti web, conoscenza

minima di HTML, strumenti come Javascript.

- il web come strumento di pubblicazione e comunicazione rappresenta una risorsa non soltanto per i

professionisti informatici.

- gli strumenti per la creazione e la pubblicazione di contenuti su web - blog, e microblog, bacheche

elettroniche - offrono possibilità di comunicazione aperte a individui di diversa estrazione.

- Essere dotati di competenze tecniche sul versante informatico è un valore aggiunto.

Microblog come Twitter, post pubblicazioni sociali, brevi, istantanei, solo connettività.

C’è il concetto di blog, pubblicazione di contenuti, ma micro perché la struttura dei messaggi è breve.

Due tipi di pubblicazioni:

- quelli che gestiscono la pagina, parte attiva del blog, e pubblica contenuti e poi permette ad altri di

commentare.

Html → linguaggio utilizzato per creare pagine Web.

Linguaggio testuale, codice della pagina, quello che viene utilizzato da un browser per leggere e

rappresentato. Composto da un marcatore (<strong>) termini racchiusi dal marcatore, o (<ul>) elenco

punteggiato.

Marcatori = comandi che dicono a HTML cosa fare (<...>).

Programmazione: dettare al calcolatore cosa deve fare per realizzare un certo obiettivo.

Programma:

- nozioni di algoritmo (astrazione del concetto di programma)

- scrivere algoritmi (variabili, tipi di dato, funzioni) predisporre variabili e funzioni per risolvere problemi.

- programmare in Javascript (sequenza, t

Anteprima

Vedrai una selezione di 9 pagine su 37