Appunti per la preparazione all'esame di Sistemi per il Recupero delle Informazioni

Name: Appunti per la preparazione all'esame di Sistemi per il Recupero delle Informazioni
Rating: 4.7 (3 reviews)
Author: MartyEss

Revisionato il 01/05/2026

di MartyEss

Publisher

Vota 4,7/5 (3)

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Appunti di Sistemi per il Recupero delle Informazioni basato su appunti personali del publisher presi alle lezioni del prof. Pozzani dell’università degli Studi di Verona, Univr, …

Esame Sistemi per il recupero delle informazioni

Facoltà Interfacoltà

Dal corso del Prof. Pozzani Gabriele

Università Università degli Studi di Verona

A.A. 2014-2015

8 pagine

3 download

Appunto

Scarica

Estratto del documento

Introduzione ai sistemi informativi e ai sistemi per il recupero delle informazioni

Sistema informativo: definizione e componenti

Si descriva cosa è un sistema informativo, di cosa si occupa, come è composto, quali obiettivi ha e in che relazione è rispetto al sistema organizzativo e al sistema informatico. Elencare (solo elencare!) i diversi tipi di sistemi informativi.

Un sistema informativo è un sistema che si occupa della gestione delle informazioni ed è solitamente composto da risorse umane e dispositivi che si occupano dell’elaborazione e della memorizzazione delle informazioni. La gestione di tali informazioni avviene seguendo quattro step principali: input/acquisizione dell’informazione dall’esterno o dall’interno dell’organizzazione cui fa capo il sistema informativo, memorizzazione delle informazioni acquisite, elaborazione delle informazioni e la loro trasformazione con il fine di renderle più funzionali per il sistema informativo, ed infine l’output/distribuzione delle informazioni verso l’esterno dell’organizzazione o al suo interno.

Multimedia
Database
Information retrieval
Question answering
Hypertext
World wide web

Differenza tra "dato" e "informazione"

Nell’ambito dei sistemi informativi, un dato è un elemento (o simbolo) privo di significato esplicito, è un valore al quale va attribuita un’interpretazione, è dunque la rappresentazione più essenziale di un’informazione. L’informazione, dunque, è l’unione del dato e della sua interpretazione, ovvero del simbolo e del suo significato, essa, a differenza del dato, apporta e trasmette conoscenza in maniera più o meno esatta ed esplicita (esempio: cartello stradale).

Documenti nel contesto dell'IR

Si descriva cosa è un documento (riportando anche alcuni esempi) nel contesto dell'IR, come può essere classificato, e cosa e quali sono i diversi surrogati di un documento. Cosa significa che un SRI è “full-text”?

Un documento è una collezione di informazioni che può essere rintracciato in base alla descrizione del suo contenuto e rappresentato attraverso diverse forme e formati (testo, immagini, audio, video). Un surrogato è una rappresentazione parziale di un documento, che però non ne preclude una ricerca mirata e precisa, anzi, la velocizza e la facilita. I surrogati di un documento possono essere: il suo identificativo (utilizzato nei SRI base come gli archivi, non trasmette conoscenza immediata del documento), parole o frasi chiave (utilizzate soprattutto per l’indicizzazione del documento stesso, esse racchiudono in poche lettere il significato più elementare del documento), un sommario (una sorta di riassunto normalmente realizzato dall’autore del documento), un estratto (un insieme di frasi chiave selezionate da qualcuno diverso dall’autore), una revisione (simile ad un sommario, solo che non è scritta dall’autore e normalmente contiene anche critiche e giudizi nei confronti del documento), full text (ovvero il documento completo). Un SRI è definibile Full Text quando permette ricerche all’interno dell’intero documento, riuscendo così ad esaminare interamente il suo contenuto.

Architettura di un sistema per il recupero delle informazioni

Si rappresenti graficamente e si descriva l’architettura di un sistema per il recupero delle informazioni e in particolare quali sono gli scopi principali dell'indicizzazione.

Un utente pone un'interrogazione (query) al sistema di recupero delle informazioni, il SRI, grazie all’indicizzazione dei documenti, ricerca all’interno di tutta la collezione i documenti/surrogati che maggiormente soddisfano la query. Infine, attraverso un’interfaccia, il SRI propone all’utente un elenco dei documenti ritornati ritenuti rilevanti. L’indicizzazione è fondamentale in quanto riduce i tempi di ricerca del SRI aumentandone l’efficienza, l’indicizzazione serve dunque a facilitare il compito del SRI permettendogli di identificare documenti/surrogati attraverso le loro parole chiave, senza dover dunque accedere ai documenti stessi, nonché permette, inversamente, di sapere in quali documenti si trova un determinato termine.

Tipi di interrogazioni

Diversi tipi di interrogazioni nei sistemi di recupero informazioni

Si citino i diversi tipi di interrogazione messi a disposizione dai sistemi per il recupero delle informazioni. Si descrivano in particolare le interrogazioni vettoriali, sottolineando i problemi che esse presentano, e dando brevemente l'idea su cui si basa il recupero dei documenti per questo tipo di interrogazioni. OPPURE Si descrivano in particolare le interrogazioni booleane (riportando anche qualche esempio) e sottolineando i principali problemi che esse presentano OPPURE booleane estese.

Esistono diversi tipi di interrogazioni nel campo dei SRI: le interrogazioni booleane, le interrogazioni vettoriali, le interrogazioni fuzzy, le interrogazioni probabilistiche, le interrogazioni booleane estese e le interrogazioni in linguaggio naturale.

Interrogazioni vettoriali

Le interrogazioni vettoriali si basano principalmente sulla pesatura dei termini all’interno dell’interrogazione e dei documenti, ai termini vengono assegnati dei valori non binari. Dunque, a differenza delle interrogazioni booleane, un’interrogazione non è necessariamente sempre vera o sempre falsa, ma viene valutato il grado di similarità tra la query e i vari documenti, ritornando anche quelli che la soddisfano parzialmente. I pesi dei termini delle query possono essere valutati in due modi: secondo un approccio assoluto, ovvero valutando il peso dei termini all’interno del documento, oppure secondo un approccio relativo, ovvero valutando il rapporto tra i pesi dei vari termini.

Il peso dei termini dei documenti viene principalmente calcolato secondo la formula TF-IDF: ovvero il peso del termine k nel documento h (W) è pari alla moltiplicazione tra la frequenza dei termini all’interno del documento h (term frequency, TF) e l’inverso della frequenza dei termini all’interno di tutti i documenti della collezione (inverse document frequency, IDF). Più un termine k compare in un documento, più quel termine avrà un peso maggiore all’interno di esso, ma più un termine compare nell’intera collezione di documenti, più quel termine sarà irrilevante all’interno sia del documento che della collezione (ad esempio congiunzioni, preposizioni…).

In un’interrogazione vettoriale, sia i termini che i documenti sono rappresentati appunto come vettori su un piano cartesiano. Per valutare la similarità tra una query e un documento si possono misurare la distanza euclidea tra i due vettori (la similarità è massima quando un’interrogazione e un documento presentano gli stessi termini con gli stessi pesi) oppure la misura del coseno (la similarità è massima quando un documento e un’interrogazione presentano gli stessi termini in proporzioni simili). Quest’ultimo metro di paragone è il più usato. I principali svantaggi legati alle interrogazioni vettoriali sono proprio legati alla pesatura dei termini, in quanto molti SRI non prevedono l’esplicitazione del peso di ogni singolo termine, in più non si possono utilizzare operatori booleani per inserire i termini da escludere.

Interrogazioni booleane

Le interrogazioni booleane sono le prime ad essere state inventate e sono le più elementari, si basano principalmente su un sistema binario basato sui termini presenti nella query e quelli presenti nei documenti/surrogati. Un’interrogazione booleana può essere sempre vera o sempre falsa, non esistono vie di mezzo, un documento viene scartato se non soddisfa completamente l’interrogazione, e fa uso di operatori booleani quali AND (∧), OR (∨) e NOT (¬). All’interno di un’interrogazione possono essere espressi i termini che l’utente sta cercando, definiti valori booleani.

Per esempio, se si sta cercando un ristorante che è anche una pizzeria si porrà la seguente interrogazione: ristorante ∧ pizzeria. Se si cerca un ristorante che potrebbe essere anche (ma non necessariamente) una pizzeria si porrà la seguente interrogazione: ristorante ∨ pizzeria.

Anteprima

Vedrai una selezione di 3 pagine su 8

Appunti per la preparazione all'esame di Sistemi per il Recupero delle Informazioni Pag. 1

Appunti per la preparazione all'esame di Sistemi per il Recupero delle Informazioni Pag. 2

Anteprima di 3 pagg. su 8.
Scarica il documento per vederlo tutto.

Scarica

Appunti per la preparazione all'esame di Sistemi per il Recupero delle Informazioni Pag. 6

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Ingegneria industriale e dell'informazione ING-INF/05 Sistemi di elaborazione delle informazioni

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher MartyEss di informazioni apprese con la frequenza delle lezioni di Sistemi per il recupero delle informazioni e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Verona o del prof Pozzani Gabriele.

Appunti correlati