Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
CASCADE.
INNER JOIN: esprime l’operazione di collegamento fra le tabelle, la clausola ON specifica la condizione id
join. La parola chiave INNER determina l’uso di un tipo di join interno poiché solo le tuple per le quali la
condizione di join è verificata vengono incluse nel risultato dell’operazione.
ORDER BY: criterio di ordinamento. Non essendo specificato si applica un ordinamento crescente. Qualora
si voglia un ordinamento decrescente basta aggiungere la clausola DESC immediatamente dopo l’attributo su
cui tale ordinamento deve essere applicato.
DISTINCT: clausola nel comando SELECT che permette di eliminare i risultati duplicati.
IS NULL: applicato a un attributo restituisce un valore booleano (vero/falso) che risulta vero nel caso in cui
il valore dell’attributo sia nullo e falso altrimenti.
AS: clausola di SELECT che permette di modificare l’intestazione degli attributi con stringhe di testo
preferite dall’utente. Sono chiamate alias di attributo. L’uso delle parentesi quadre [] è necessario per
definire alias composti da più di una parola.
Analisi e classificazione automatica di testi
Il web è come una vasta collezione di testi e documenti che trattano argomenti tipicamente molto diversi fra
loro. Non c’è però indice globale dei documenti pubblicati, però la disponibilità di tecniche di indicizzazione
e interrogazione capaci di individuare e reperire i documenti rilevanti rispetto alle richieste degli utenti è un
requisito fondamentale affinché l’immenso patrimonio informativo del Web sia di qualche utilità.
22
Fondamenti Di Informatica Per Le Scienze Umanistiche
Information Retrieval: recupero di informazione, è la scienza che studia il problema del
reperimento automatico di informazioni da una collezione (corpus) di documenti.
I sistemi di Information Retrieval sono stati concepiti con l’obbiettivo di mediare l’interazione fra utente e il
corpus di documenti che egli desidera interrogare. L’utente sottopone al sistema una o più chiavi di ricerca
(keyword) che denotano il suo bisogno di informazione e il sistema, consultando il corpus, restituisce
l’insieme di documenti che sono valutati come pertinenti rispetto alla richiesta. Il problema principale è
riuscire a conciliare efficacia (richiedere al sistema di confrontare le chiavi di ricerca con tutti i documenti
del ocrpus) e efficienza (limitare il confronto a un sottoinsieme di documenti e possibilmente solo alle parti
significative), estraendo una rappresentazione della sintesi del contenuto informativo di ciascun documento e
memorizzare tali rappresentazioni in modo efficiente.
Sistema articolato in 4 componenti:
• Analisi. Alimenta l’archivio dei documenti elaborando il documento originale, memorizza nel
corpus (l’insieme dei documenti inseriti nel sistema, nel caso del Web sono pagine, immagini, filmati
pubblicati in rete) e produce una rappresentazione di sintesi;
• Indicizzazione. Alimenta l’archivio dei documenti costruendo una struttura di accesso efficiente,
indice (struttura basata sulle rappresentazioni di sintesi dei documenti), ai documenti della
collezione;
• Interrogazione. Usato dall’utente, la richiesta subisce un’elaborazione che la prepara per la
componente di matching;
• Matching. Il sistema confronta la richiesta dell’utente con l’indice al fine di individuare i documenti
del corpus che sono rilevanti e che costituiranno il risultato dell’interrogazione.
Le tecniche di analisi e costruzione delle rappresentazioni di sintesi sono cruciali per l’efficacia del sistema.
Sia in fase di analisi sia in fase di matching il sistema può fare uso di un vocabolario controllato (o
thesaurus) e di altre tecniche linguistiche per migliorare l’efficacia del reperimento.
Per la componente di analisi l’obbiettivo è classificare i documenti del corpus e costruire una
rappresentazione di sintesi del contenuto informativo di ciascuno di essi: una lista di termini estratti dal
documento stesso mediante tecniche di elaborazione del linguaggio naturale:
• Tecniche per l’eliminazione delle stop word. Una stop word è una particella linguistica come una
congiunzione, un articolo o una preposizione. L’eliminazione di questi elementi però non ha
conseguenze sul significato del documento. 23
Fondamenti Di Informatica Per Le Scienze Umanistiche
• Tecniche per l’estrazione di stem. Uno stem, anche detto tema, è la parte di un termine (lemma)
che rimane dopo essere stata separata dalla desinenza. Il processo di steming consiste nell’analisi del
testo di un documento e nella sostituzione di tutte le forme derivate con il corrispondente stem.
• Tecniche per la scelta di termini con elevato potere discriminante. Estrarre i termini che meglio
rappresentano il contenuto informativo di un documento basato sulla frequenza di occorrenza dei
termini.
I termini che costituiscono la rappresentazione di sintesi di un documento sono scelti da una lista predefinita,
detta vocabolario controllato o thesaurus: raccolta di termini correlati fra loro mediante relazioni
terminologiche come la sinonimia (collega due termini aventi sintassi diversa ma medesimo significato),
iperonimia (mette in relazione due termini in cui il secondo ha un significato più specifico del primo,
relazione di specializzazione), iponimia (mette in relazione due termini in cui il secondo ha un significato più
generale del primo, relazione di generalizzazione), meronimia (relazione di composizione) e olonimia
(relazione di contenimento).
Con il vocabolario controllato il sistema tende a uniformare la terminologia usata nelle rappresentazioni di
sintesi, semplificando il compito della componente di indicizzazione.
L’indice è costituito da una lista di coppie (T , R ) dove T è un termine dell’indice e R sono i riferimenti ai
i i i i
documenti del corpus collegati a T . in approcci più sofisticati, R può contenere informazioni ulteriori.
i i
La componente di interrogazione funge da interfaccia del sistema di Information Retrieval e permette
all’utente di formulare le proprie richieste espresse in termini di chiavi di ricerca. Le chiavi di ricerca inserite
dall’utente possono essere sottoposte a una fase iniziale di normalizzazione (eliminazione di eventuali spazi
superflui e segni di interpunzione; eliminazione di stop word e l’estrazione di stem). In seguito le chiavi di
ricerca sono passate alla componente di matching che si occupa concretamente di individuare i documenti
che costituiranno il risultato, cioè sul confronto di ogni chiave di ricerca K con tutti i termini T che
j i
compongono l’indice ei documenti.
Le tecniche di matching esatto sono il confronto tra due termini T e T è positivo se e solo se T = T , ma
h k h k
non è in grado di individuare la corrispondenza tra termini simili o legami da relazioni terminologiche.
Le tecniche di matching per similarità sono caratterizzate dal fatto che il risultato del confronto fra due
termini T e T non è un valore booleano (sì/no) ma è un valore numerico che indica la similarità fra T e T .
h k h k
Classificate:
• Tecniche sintattiche. Si tratta di tecniche basate sul confronto delle stringe di testo che compongono i
termini considerati, come la distanza di editing che valuta la similarità di due termini T e T in
h k
funzione del numero di caratteri che è necessario modificare per trasformare T in T
h k.
• Tecniche linguistiche. Si tratta di tecniche basate sull’uso di strumenti linguistici per valutare la
similarità fra due termini.
Il risultato dell’interrogazione è composto da una lista di documenti con associato un valore di rilevanza.
Data una interrogazione I e un sistema di Information Retrieval IR, possiamo suddividere i documenti del
corpus in due sottoinsiemi: i documenti reperiti e non.
Documenti rilevanti Documenti non rilevanti
Documenti reperiti A - documenti reperiti e rilevanti B - documenti reperiti ma non
rilevanti (falsi positivi)
Documenti non C - documenti non reperiti, ma D - documenti non reperiti e non
reperiti rilevanti (falsi negativi) rilevanti
Coefficienti per la valutazione dei risultati di un sistema:
• Precision (P). misura la precisione del sistema IR, cioè il rapporto tra il numero di A e il totale di
A
P=
A+B. A B
+ 24
Fondamenti Di Informatica Per Le Scienze Umanistiche
• Recall (R). misura l’accuratezza del sistema IR, cioè il rapporto fra il numero di A e il totale di A +
A
R=
C. A+C
Precision e Recall hanno 1 come valore massimo che corrisponde al comportamento ottimale del sistema IR,
cioè tutti i documenti rilevanti. Quando P < 1, il sistema IR restituisce nel risultato documenti non rilevanti
che l’utente dovrà riconoscere e ignorare, mentre quando R < 1, il sistema IR omette di restituire nel risultato
documenti rilevanti che l’utente non avrà modo di visualizzare e consultare.
4 aprile 2012
Modulo B
Programmazione, tema informatico. Gestione di contenuti sul web.
Wordpress = caratteristica comune e base informatica, infrastruttura permette di mettere in piedi un blog.
Permette di scegliere chi commentare, come...piccola interfaccia per pubblicare contenuti web, conoscenza
minima di HTML, strumenti come Javascript.
- il web come strumento di pubblicazione e comunicazione rappresenta una risorsa non soltanto per i
professionisti informatici.
- gli strumenti per la creazione e la pubblicazione di contenuti su web - blog, e microblog, bacheche
elettroniche - offrono possibilità di comunicazione aperte a individui di diversa estrazione.
- Essere dotati di competenze tecniche sul versante informatico è un valore aggiunto.
Microblog come Twitter, post pubblicazioni sociali, brevi, istantanei, solo connettività.
C’è il concetto di blog, pubblicazione di contenuti, ma micro perché la struttura dei messaggi è breve.
Due tipi di pubblicazioni:
- quelli che gestiscono la pagina, parte attiva del blog, e pubblica contenuti e poi permette ad altri di
commentare.
Html → linguaggio utilizzato per creare pagine Web.
Linguaggio testuale, codice della pagina, quello che viene utilizzato da un browser per leggere e
rappresentato. Composto da un marcatore (<strong>) termini racchiusi dal marcatore, o (<ul>) elenco
punteggiato.
Marcatori = comandi che dicono a HTML cosa fare (<...>).
Programmazione: dettare al calcolatore cosa deve fare per realizzare un certo obiettivo.
Programma:
- nozioni di algoritmo (astrazione del concetto di programma)
- scrivere algoritmi (variabili, tipi di dato, funzioni) predisporre variabili e funzioni per risolvere problemi.
- programmare in Javascript (sequenza, t