vuoi
o PayPal
tutte le volte che vuoi
World Wide Web Consortium (W3C). Attualmente Berners-Lee ha creato la Www Foundation per studiare
le condizioni di diversità dalle quali è possibile accedere al web.
1.12 - Il presente del web: Web 2.0?
•• Il web secondo Berners-Lee è un qualcosa di incompiuto. Gli obiettivi del web 2.0 sono: puntare
sull’offerta di servizi e non di software; considerare il web una architettura di partecipazione; elaborare
strategie per lo sfruttamento dell’intelligenza collettiva. Si tratta di usare il contenuto prodotto dagli utenti in
diverse forme, organizzandolo in maniera per posta. Il web 2.0 è insomma il bene comune sotto forma
di contenuti digitali messi al servizio di business privati. È un capitalismo 2.0. Con il web 2.0 nascono
nuovi mediatori che guadagnano solo per trovarsi in una certa posizione di organizzatori dei contenuti
collettivi. Il web 2.0 è il regno dell’amatorialità. Non ci sono professionisti e, quando lo sono, vengono
trattati come se non lo fossero. Nel web 2.0 nascono software sociali per accedere, organizzare e
categorizzare le risorse del web (come Wikipedia). Nel web 2.0 gli utenti possono fornire implicitamente
dati grazie alle descrizioni delle loro attività: Amazon registra i comportamenti dei clienti e li usa per fornire
ai potenziali nuovi utenti consigli su articoli di loro eventuale interesse, basandosi sulle preferenze di chi li
ha preceduti. Gli utenti a volte contribuiscono anche attivamente alla costruzione delle preferenze,
scrivendo recensioni e fornendo valutazioni esplicite su libri e altri articoli. Questi strumenti sono
problematici perché gli utenti non sanno di essere messi al “servizio” della comunità, spesso a fini di lucro.
1.13 - “Open data” e “Open access”: il web desiderabile nel futuro
•• Il movimento dell’open data vuole rendere disponibili e aperti i dati in tutti i campi in cui siano utilizzabili.
Esistono già alcune banche dati collettive. Si tratta di produrre socialmente contenuti di qualità e di metterli
a disposizione di tutti senza scopo di lucro. Ogni contenuto deve essere organizzato con tag per essere
facilmente rintracciato. L’e-governement 2.0 vuole trasparenza e collaborazione delle pubbliche
amministrazioni in relazione con i cittadini. Il movimento dell’open data è incluso in quello dell’open access:
la letteratura sull’open access è digitale, online, priva di costi e priva di restrizioni dovute al copyright e alle
licenze d’uso: la conoscenza deve essere accessibile a tutti senza restrizioni. Gli archivi pubblici sono
un'altra componente dell’open access. Tutte le attività sono rette da content management system,
strumenti per la gestione e l’organizzazione dei contenuti digitali. La grande sfida del web del futuro
consiste nel non tradire lo spirito di condivisione della conoscenza, considerata come un bene pubblico.
4 - Cercare e organizzare
4.1 - Il paradosso della ricerca secondo Platone
•• Fin dall’antichità, vi è difficoltà nell’organizzare e nell’accedere alle informazioni al fine di creare nuova
conoscenza. Socrate espone il paradosso della ricerca: non è possibile, secondo Menone, cercare né
quello che si sa né quello che non si sa. Quello che si sa perché conoscendolo non c’è bisogno di cercarlo;
quello che non si sa perché neanche si sa cosa si cerca. Socrate risolve il paradosso ipotizzando una pre-
comprensione della nostra scoperta futura, dovuta alla precedente esperienza nell’Iperuranio nella quale
abbiamo potuto sperimentare l’esistenza delle idee, che ci permette di comprendere che cosa cerchiamo,
anche se ancora non lo conosciamo a livello conscio: nonostante la nostra condizione pre-umana sia del
tutto dimenticata, questa ci guiderebbe attraverso la memoria di un vago ricordo delle idee che ci
permetterebbe di riconoscere e ricollegare le nostre scoperte a questa conoscenza originaria. Quando
produciamo nuova conoscenza, non lo facciamo partendo dal nulla, ma interpretiamo i dati secondo un
modello di riferimento pregiudiziale che ci permette di dare un senso all’esperienza del fenomeno che
stiamo cercando di comprendere. Cartesio crede che quando cerchiamo una nuova conoscenza lo
facciamo a partire da una idea chiara di che cosa dobbiamo trovare, anche se ne ignoriamo ancora i
dettagli: il processo cognitivo non procede al buio ma anzi è il prodotto di quello che sappiamo già,
sommato alle nostre ipotesi su quello che ancora ignoriamo. La scelta di rappresentazione e
organizzazione della conoscenza adottata dai motori di ricerca per reperire le informazioni non è sempre
legata alla natura associativa e distribuita.
4.2 - La topologia del web: i nodi non sono tutti uguali
•• Arpanet è stata creata per evitare l’isolamento degli scienziati e favorire lo scambio e la condivisione
delle risorse disponibili sia in termini di tecnologia sia di sapere. Solo più tardi il web servirà come
strumento per accrescere le possibilità di interazione tra uomo e macchina. Da un progetto di mappatura
della rete si scoperta la totale assenza di democrazia, equità e valori egualitari nel web. Il web si comporta
come un ecosistema dinamico nel quale le pagine continuamente nascono, cambiano indirizzo, muoiono, si
spostano, si modificano seguendo una distribuzione che segue delle leggi di potenza non scritte. Nel web
pochi nodi hanno moltissimi collegamenti e la maggior parte dei nodi è solo poco connessa con il resto del
web. Solo alcuni dei “continenti” del web sono facili da navigare, mentre la maggior parte dei nodi
rimangono nascosti per l’utente: il web non garantisce quindi l’accesso totale a tutte le informazioni
pubblicate online. Le reti sociali sono dominate da alcuni nodi iperconnessi (gli hubs).
4.3 - Il ruolo dei “search engines” nella ricerca di informazioni sul web
•• Circa la metà degli americani consulta i motori di ricerca ogni giorno (nel 2008). L’uso dei motori di
ricerca riguarda la parte più ricca, più colta, più tecnologica e più giovane della popolazione web. I motori di
ricerca rappresentano il filtro del materiale presente sul web. Google ha come obiettivo dichiarato quello di
organizzare l’informazione mondiale. Gli utenti considerano efficienti i risultati dei motori di ricerca. I filtri del
web stanno avendo un ruolo sempre maggiore nel determinare la sopravvivenza, la diffusione e la visibilità
delle informazioni in rete. Ogni motore di ricerca può garantire una copertura poco parziale delle pagine
web. I motori di ricerca svolgono un ruolo di mediazione tra la massa di informazione disponibile (ingestibile
per gli esseri umani) e le risposte rilevanti alle loro domande espresse in forma di quei (interrogazioni,
parole chiave). I motori di ricerca tutelano l’utente dall’eccesso informativo presentando una lista di risultati
che il più delle volte riesce a soddisfare la sua curiosità. È impossibile misurare l’efficienza di un motore,
sia perché non ci sono metriche adatte per fare questa valutazione sia perché non esiste uno strumento
alternativo che ne possa valutare i risultati. Una risorsa che non viene menzionata nelle pagine dei risultati
di ricerca è destinata a rimanere per sempre ignota e questo vale anche per quei documenti che, anche se
presenti nella lista dei risultati proposti da motore, si trovano nelle pagine successive.
4.4 - Il funzionamento dei motori di ricerca
•• I crawlers sono agenti software che vengono inviati dai motori di ricerca per esplorare il web. È su di loro
che il motore conta per acquisire le informazioni presenti nelle pagine web. Visitano le pagine di cui
possiedono le Url e si spostano da una pagina all’altra seguendo i link che trovano sulla loro strada.
Siccome possono entrare nelle pagine solo usando l’accesso fornito da altre pagine con gli inbound links,
questi frequentano soprattutto le porzioni del web meglio connesse tra loro e hanno molte difficoltà ad
addentrarsi in zone impervie del web. Esistono alcune parti della rete che sono loro vietate. Esistono poi
delle pagine inaccessibili ai crawlers per motivi tecnici (il tipo di hosting delle pagine non sopporterebbe la
sollecitazione dovuta all’interrogazione meccanica, causando il depila of service per tutti i visitatori) o per la
policy aziendale. Di questo tipo sono le pagine generate dinamicamente (ottenute in risposte alle nostre
interrogazioni). Ultimamente però le tecnologie di ricerca sul web riescono anche a scassinare pagine non
in formato html (pdf, word, excel, powerpoint…).
•• Una volta acquisiti i contenuti delle pagine visitate, i crawlers le riversano nel page repository: il
repository di un motore di ricerca è il suo deposito di informazioni. In questo sono contenuti tutti i dati delle
pagine indicizzate, che possono poi essere associate alle parole chiave di un utente. Nel deposito del
motore è presente, quindi, una copia delle pagine indicizzate (la copia cache) che risale al momento in cui
il crawler ha avuto accesso alla pagina per l’ultima volta. È quindi possibile che una pagina non sia più
accessibile direttamente nel web, ma che sia comunque visibile nella copia cache chee risiede nel
repository del motore. Quando facciamo delle ricerche in rete usando un motore non stiamo interrogando
direttamente il web, ma solo quella parte del web copiata nel repository del motore scelto. Da queste
informazioni viene generato l’indice inverso. Quando il motore indicizza la pagina, associa la sua Url a tutte
le parole che vi sono contenute, come fosse un vassoio, fatto delle sequenze di lettere che formano le
parole. Gli utenti richiedono che vengano associate delle Url alle parole chiave presenti nell’interrogazione.
In altre zone del motore vengono effettuate tutte quelle operazioni basate sulla linguistica. vengono valutate
le parole, anche in base alla loro posizione nella pagina (una parola nel titolo o nei metatag viene
considerata più rilevante nella caratterizzazione della pagina in questione). Si eliminano tutte le espressioni
(congiunzioni, articoli…) presenti in tutti i testi scritti che non contribuiscono all’attribuzione di senso di
quella pagina. Le queries sono la sequenza di parole che l’utente usa per interrogare il motore: il più delle
volte non si pone una domanda precisa, ma si inserisce una lista di parole chiave che dovrebbero
concettualizzare la propria ricerca. I principali motori di ricerca usano molto il metodo delle quei
suggestions: suggeriscono la prosecuzione di una query o correggono un eventuale errore di ortografia o
addirittura suggeriscono altri sinonimi alternativi a quello prescelto, magari più popolari: è un tentativo di
riorganizzare la ricerca dell’utente sulla base dell&rsquo