vuoi
o PayPal
tutte le volte che vuoi
La relazione associativa mette in relazione tutti i termini che non rientrano nelle due relazioni precedenti, ma che comun-
que sono relazionati tra loro. Per indicare che un termine è associato in qualche modo ad un altro si usa RT (related term).
15) Descrivere finalità, struttura e caratteristiche degli indici inversi posizionali.
Un indice inverso posizionale è un indice che non solo crea una posting list dei documenti dove un determinato termine è
presente, ma associa a ciascun termine anche la posizione all’interno di un determinato documento. Questo tipo di indice
si rivela fondamentale quando l’interrogazione di un utente è una frase oppure una sequenza ben definita di parole.
16) Descrivere la legge di Zipf, di Heaps e cosa è una stop list.
La legge di Zipf è una legge empirica che relaziona i termini e la loro frequenza all’interno di un documento. Secondo la
legge di Zipf: frequenza5 = frequenza1/5. Questa legge è utile per la creazione delle stop list, essa infatti permette di indi-
viduare quali parole sono troppo presenti e quindi inutili e quelle troppo poco presenti per poter rappresentare un docu-
mento all’interno di un indice. Un’altra legge è quella di Heaps che dimostra il rapporto tra i termini presenti in un vocabo-
lario e il numero di documenti all’interno della collezione, all’aumentare del numero dei documenti il vocabolario manter-
β
rà valori pressoché costanti (è più difficile trovare nuovi termini se una collezione è già numerosa). Vocabolario = Kn (do-
ve n è il numero di parole della collezione e gli altri due sono valori variabili).
5. SISTEMI PER IL RECUPERO DELLE INFO MULTIMEDIALI
17) Dire cosa si intende per “content-based image retrieval” nell'ambito dei SRI multimediali.
Quando si parla di content-based image retrieval si fa rifermento ad un sistema per il recupero delle informazioni multi-
mediali legato al recupero delle immagini. Tali immagini sono ritornate sulla base del loro contenuto e delle loro caratteri-
stiche tecniche (non della loro descrizione), ad esempio i colori presenti nell’immagine, la luminosità, i contorni, ecc…
18) Dire cosa si intende per “gap semantico” nell'ambito dei SRI multimediali.
Con gap semantico si intende la differenza tra il contenuto di un file multimediale e il suo significato (rappresentazione e
significato, descrizione e contenuto). Un immagine, un video o un file audio non hanno un significato immediato come lo
può avere un testo. Certamente hanno un contenuto più ricco e complesso, ma la loro interpretazione non è facilmente
estraibile o riassumibile. Il gap semantico è molto più evidente in file audio. Il gap semantico è inoltre il principale proble-
ma che un SRI si trova ad affrontare.
6. SISTEMI PER IL RECUPERO DELLE INFO SUL WEB
19) Si descriva cosa si intende per “web spam” (o spamdexing)? Descrivere le principali tecniche di web spam.
Il web spam, o spamdexing, è una strategia non lecita utilizzata per migliorare il proprio ranking e la propria visibilità
all’interno dei motori di ricerca. Esistono due diverse tipologie di web spam: la prima legata all’utilizzo dei link (link spam),
la seconda legata ai contenuti (content spam). Il content spam è a sua volta suddividibile in quattro diverse tecniche: ke-
yword stuffing (l’inserimento in una pagina di un numero eccessivo di parole chiave ripetute, è però facilmente identifica-
bile dai motori di ricerca, caduto in disuso), testo nascosto o invisibile (testo dello stesso colore dello sfondo o troppo pic-
colo per essere notato dall’utente, il motore di ricerca riesce però ad identificarlo e, se non riconosciuto come web spam,
ad indicizzarlo), doorway pages (pagine web sostanzialmente vuote create solo per attirare i motori di ricerca, ma che ri-
mandano gli utenti ad altre pagine), cloacking (un’evoluzione delle doorway pages che permette di ingannare i motori di
ricerca: mostrano loro un certo contenuto in modo da essere ben indicizzati, ma mostrano pura pubblicità all’utente). Il
link spam è a sua volta diviso in tre sottotipi: link farm (pagine di una stessa comunità che rimandano l’una all’altra), blog
spam (creazione di blog vuoti con solo link verso una pagina di riferimento), using word-writable pages (si inseriscono link
all’interno di pagine ottimamente indicizzate e modificabili da ogni utente, in modo da rimandare il maggior numero di u-
tenti alla propria pagina – Wikipedia, Yahoo Answers).
20) Disegnare e descrivere struttura, parti e funzionamento dell'architettura centralizzata crawler-indexer dei motori di
ricerca sul web.
Un crawler-indexer è un programma che permette la scoperta e la conseguente indicizzazione delle pagine web. Il crawler
esplora il web seguendo i link che trova e così passando da una pagina all’altra attraverso i collegamenti, l’indexer indicizza
le pagine che il crawler ha identificato. Nel momento in cui un utente pone un’interrogazione, l’interfaccia la trasferisce al
motore di ricerca, questo si collega ad un indice, che fa riferimento all’indexer che a sua volta si collega al crawler, che si
collega al web. All’utente è visibile solo l’interfaccia del motore di ricerca: indice, indexer e crawler non sono visibili.
L’indice viene usato per ridurre il tempo di ricerca, senza aver bisogno di accedere alle pagine originali. Poiché gli utenti
normalmente visualizzano solo i risultati della prima pagina, il motore di ricerca ritorna solo i primi risultati, i seguenti
vengono calcolati solo su richiesta. Index Indexer
Motore di
Interfaccia
User ricerca Crawler
WEB
21) Descrivere Google PageRank: cosa è, a cosa serve, su quali idee si basa e quali svantaggi ha?
Google PageRank è il primo algoritmo legato al ranking delle pagine web e si basa sui link presenti nelle pagine e sulla loro
struttura. È basato su due idee principali: più pagine puntano ad una pagina x attraverso i link, più la pagina sarà di qualità,
dunque all’aumentare del numero di link che puntano ad x, aumenterà anche il PageRank di x; pagine di qualità puntano a
pagine di qualità, dunque più il PageRank dei siti che puntano ad x è alto, più si alzerà il PageRank di x. Il PageRank viene
utilizzato anche per compiere ricerche e collezionare informazioni: permette di misurare l’importanza di una rivista scien-
tifica, di predire il numero di veicoli su una determinata strada, ecc.. Il più grande svantaggio consiste nel suo essere facil-
mente manipolabile, infatti i link possono essere acquistati, si può incorrere in problemi di web spam; inoltre è basato sul
random user model secondo il quale un utente clicca in maniera casuale su un link, ma non è così.
8. RICERCA SEMANTICA
22) Dire cosa è la ricerca semantica nei SRI web, quali sono i suoi obiettivi e descrivere il principale problema che essa deve
superare.
La ricerca semantica nei SRI web è un processo attraverso il quale una ricerca viene eseguita non solo tenendo conto delle
sequenze di stringhe/parole, ma anche del loro significato e del loro campo semantico (precedentemente organizzato in
synset – gruppi di parole organizzati secondo le relazioni semantiche che esistono fra i termini). I principali obiettivi della
ricerca semantica sono quattro: aggiungere semantica ai termini presenti in un documento e quindi in un indice, di conse-
guenza aggiungere semantica al documento stesso, riuscire ad organizzare i risultati in base al loro concetto, riuscire a
comprendere in maniera completa ciò che l’utente ha richiesto, quale concetto era sottinteso. Il principale problema lega-
to alla ricerca semantica è proprio legato alla lingua utilizzata: in una lingua (come l’italiano) una parola può avere più si-
gnificati, come può un SRI intuire a quale significato l’utente fa riferimento? Questo potrebbe incidere sui risultati ritornati
e ritenuti rilevanti dal SRI, che però possono risultare inutili per l’utente: il SRI elude questo problema presentando
all’utente i risultati per tutti i possibili significati di quella parola.
9. RICERCA PERSONALIZZATA
23) Descrivere brevemente cosa si intende per ricerca personalizzata. Quali sono i suoi scopi, come si differenzia dalla ri-
cerca generica e in che rapporto è con quest'ultima.
Una ricerca personalizzata è un processo attraverso il quale un motore di ricerca risponde ad un’interrogazione ed agisce
sulla base delle caratteristiche, dei metodi e degli interessi dell’utente che ha posto una determinata interrogazione (risul-
tati specifici e differenziati per ogni singolo utente). La ricerca personalizzata ha due principali scopi, uno esplicito e uno
implicito: il primo è quello di rendere il SRI più efficace e dunque più utile all’utente, il secondo è quello di aiutare le a-
ziende a diffondere pubblicità mirate all’utente, in modo da aumentare la propria redditività. La ricerca personalizzata è
totalmente soggettiva, esalta le differenze tra gli individui e crea profili utente per poter essere efficace, la ricerca generica
invece è una ricerca totalmente oggettiva, a tutti gli utenti compariranno gli stessi risultati (one size fits all vs. one size for
one person). I due tipi di ricerca si integrano reciprocamente: il ranking avviene sempre attraverso criteri oggettivi, in un
secondo momento i risultati vengono filtrati attraverso una ricerca personalizzata (quali risultati sono generalmente rile-
vanti quali sono rilevanti anche per questo specifico utente)
24) Cos’è un profilo utente?
Un profilo utente è la raccolta di tutte le informazioni riguardanti un specifico utente compiuta da un SRI che si avvale di
una ricerca personalizzata. Le informazioni possono essere fornite direttamente dall’utente nel momento in cui crea un
account personale, anche se possono non essere del tutto vere o complete, oppure possono essere raccolte dal SRI in ma-
niera implicita, attraverso l’osservazione del comportamento dell’utente nella ricerca e l’analisi dei documenti, la raccolta
implicita è tendenzialmente probabilistica.
11. SEARCH ENGINE OPTIMIZATION
25) Descrivere cosa si intende con SEO (Search Engine Optimization), su quali idee/principi si basa e quali sono le sue finali-
tà.
Con SEO si intende un insieme di tecniche lecite usate per migliorare la visibilità e la reperibilità di un sito o di una pagina
all’interno di un motore di ricerca. Queste tecniche vengono messe in pratica attraverso la modifica e la miglioria dei con-
tenuti (anchor text, immagini, suddivisione del testo) e della struttura (titolo, url, facilità di navigazione, descrizione) della