Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
IL WWW E LA RICERCA DI INFORMAZIONI
Il Web è un servizio di Internet che permette la fruizione di diversi tipi di contenuti attraverso una
struttura ipertestuale. La fruizione può essere pubblica oppure ristretta ad alcune categorie di
utenti.
Internet è l’infrastruttura che permette di fruire di diversi servizi, il WWW è uno di questi. Per
esempio, l’FTP (File Transfer Protocol) è un altro servizio di Internet, distinto dal WWW.
Per poter fruire dei servizi del Web è necessario dotarsi di strumenti dedicati: uno di questi è il
browser.
Un browser web è un software che consente agli utenti di visualizzare e interagire con contenuti
presenti in una pagina web. In sostanza, il browser è in grado di interpretare il codice HTML e
visualizzarlo in forma di ipertesto.
Tra i primi browser che hanno avuto una certa diffusione si può citare Mosaic che è stato il primo a
essere multipiattaforma nonché a offrire una veste grafica accattivante oltre che funzionalità utili
quali i segnalibri.
Un altro nome degno di nota è il Netscape Navigator; fu il primo browser commerciale, ovvero che
doveva essere acquistato dalle aziende private, mentre gli altri utenti potevano utilizzarlo
gratuitamente. Una grande innovazione portata da Netscape fu la così detta “on the fly display”,
ovvero la possibilità di vedere apparire gli oggetti di una pagina mano a mano che questa veniva
caricata. Da Navigator nacque Mozilla, la sua versione open source.
Il browser Internet Explorer, lanciato da Microsoft, oggi ha una leadership messa in discussione da
concorrenti molto agguerriti, primi fra tutti Firefox e Google Chrome.
Nessuno è in grado di imporre l’evoluzione di Internet né sotto il profilo tecnologico né sotto il
profilo dei contenuti e dei servizi erogati. Esistono però delle organizzazioni che governano alcuni
aspetti specifici di Internet e hanno l’obiettivo di promuoverne la crescita in modo ordinato. A livello
internazionale possiamo citare:
• ICANN : ente internazionale non profit, ha l’incarico di assegnare gli indirizzi IP e svolge il
ruolo di identificatore di protocollo e gestore del sistema dei nomi a dominio di primo livello
(TLD) generico, del codice internazionale (ccTLD) e dei sistemi di root server. ICANN ha la
responsabilità di coordinare la gestione di alcuni aspetti tecnici del DNS per assicurare
risolvibilità universali, in modo che tutti gli utenti di Internet siano in grado di trovare tutti gli
indirizzi validi.
A livello locale, esistono poi società private dette Domain Name Registrar, che controllano la
registrazione dei domini. Per i domini .it i Registrar fanno riferimento al NIC, la Registration
Authority italiana che a sua volta fa riferimento a ICANN;
• IEFT : sovrintende all’evoluzione dei protocolli TCP/IP. È una comunità aperta di tecnici,
specialisti e ricercatori interessati all’evoluzione tecnica e tecnologica di Internet. Si occupa di
sviluppare e promuovere standard Internet, in particolare TCP/IP e la suite di protocolli Internet,
in stretta cooperazione con W3C e l’ISO/IEC. Il lavoro viene svolto da gruppi che operano
tramite mailing list aperte alla partecipazione di chiunque sia interessato e si riuniscono tre
volte all’anno. I gruppi di lavoro si occupano ciascuno di uno specifico argomento e sono
organizzati in aree;
• W3C : sviluppa standard per l’evoluzione del Web come per esempio l’HTML e L’XHTML.
Il controllo dei contenuti del Web:
- non tutti i contenuti provengono da singoli individui che operano in piena autonomia; molti di
questi sono infatti filtrati o controllati da organizzazioni quali aziende, editori, pubbliche
amministrazioni;
- i contenuti, essendo fruibili da una vasta audience, possono anche scatenare reazioni di
sostegno o di dissenso, alle volte anche molto vigorose. Vi è quindi una sorta di controllo
sociale che tende a regolare i comportamenti dei singoli;
- alcuni contenuti sono controllati da organizzazioni a ciò preposte al fine di bloccare degli atti
illeciti.
Si possono individuare tre tipi di censura:
1. a seguito della valutazione del contenuto ma dopo la sua pubblicazione: viene applicata
su specifici contenuti che vengono ritenuti non idonei a rimanere presenti in rete;
2. a seguito della valutazione del contenuto e prima della pubblicazione: consiste nel
controllo dei contenuti destinati alla pubblicazione su Internet prima che questi vengano resi
disponibili. Questo tipo di censura è però applicabile a un numero limitato di fonti e molto
spesso sono gli stessi provider di contenuti che, al fine di non incorrere in eventuali sanzioni,
chiedono una valutazione preventiva dell’idoneità di alcuni contenuti;
3. preventiva: non colpisce il contenuto specifico ma la fonte del contenuto, a prescindere quindi
dalla presunta pericolosità o meno del messaggio veicolato. Questa forma di censura è
applicata in alcuni Paesi dove le libertà individuali sono fortemente limitate.
Attori che hanno un peso determinante nell’evoluzione del Web dal punto di vista dei contenuti e
della loro fruizione:
- Google [YouTube, Gmail, Google Maps]
- Facebook, leader dei social network
- Yahoo!
- Microsoft [Internet Explorer, Messenger]
- America Online (AOL)
I migliori motori di ricerca riescono a indicizzare oltre 1000 miliardi di pagine. Questo però è solo il
numero di pagine indicizzate, cioè conosciute dai motori di ricerca. Esiste poi un numero non
meglio precisato di pagine che i motori di ricerca non vedono; questa parte del web non visibile è
detta dark web o deep web.
Si stima che la quantità di dati presente in Internet sia di 5 milioni di Terabyte.
Quali problematiche genera la grandezza del web? Innanzitutto, è difficile trovare ciò che
veramente interessa, oppure si trovano moltissime informazioni, magari simili tra loro, che
richiedono molto (troppo) tempo per l’analisi e la sistematizzazione. Questo fenomeno è
conosciuto come overload informatico.
Una delle sfide di chi offre servizi sul web è quindi quella di trovare delle modalità di ricerca e
trattamento delle informazioni che permettano agli utenti di risparmiare tempo senza diminuire la
qualità delle informazioni ottenute o meglio, di migliorarle.
Modi per ricercare le informazioni nel web:
• navigazione tramite ipertesti : si va alla ricerca di informazioni di interesse muovendosi tra i
link proposti dalle pagine web;
• motori di ricerca : metodo più diffuso di ingresso nel mondo del web.
Il primo motore di ricerca può essere datato 1990, prima quindi dell’avvento del Web. Il suo
nome era Archie ed era in grado di ricercare tra il testo dei nomi dei file. Nel 1991 arrivò
Veronica che era in grado di ricercare i contenuti nei file di testo. Nel 1993, due antenati degli
attuali motori di ricerca furono WWW Wanderer e ALIWEB. Nel dicembre 1993 arrivarono tre
prodotti che possono essere definiti dei veri motori di ricerca, ovvero permettevano agli utenti
di ricercare le informazioni immettendo delle parole di ricerca. Questi erano JumpStation,
WWW Worm e RBSE. Un altro nome importante è Yahoo!, apparso nel 1994 e tuttora
presente. Anche Lycos apparve nello stesso anno e, sebbene con meno fortuna, continua la
sua attività.
Numerosi altri attori entrarono in scena, ma la vera discontinuità di mercato arrivò con il lancio
di Google, che mise in discussione alcuni paradigmi ormai consolidati, come il fatto che la
naturale evoluzione di un motore di ricerca fosse il concetto di portale. Google, grazie al suo
sofisticato algoritmo di ricerca, migliorò notevolmente la qualità dei risultati proposti agli utenti
e, grazie alla grafica molto leggera, consentì di ottenere ottime prestazioni anche su computer
obsoleti o con reti non molto veloci.
Il motore di ricerca si può definire come un servizio attivato attraverso l’immissione di parole o
chiavi ricerca.
Classificazione motori di ricerca:
orizzontale : anche chiamato generalista, non ha una specificità settoriale particolare
o
e permette quindi di ricercare informazioni in qualsiasi pagina Web, a prescindere dalla
tipologia di contenuto;
verticale : caratterizzato da un ambito di ricerca limitato e specialistico. All’interno di
o
questa categoria si possono poi proporre due ulteriori classificazioni:
per argomento: specializzati in determinate tematiche;
per tipologia di contenuto: limitano la loro ricerca a determinati formati dei
contenuti come video e immagini;
meta motore di ricerca : motori che aggregano le ricerche di altri motori. Inoltrano le
o
chiavi di ricerca immesse dall’utente ad altri motori e poi radunano i risultati sotto
un’interfaccia omogenea, magari togliendo i risultati ridondanti;
• directory (o web directory): presentano elenchi di siti coerenti con la classificazione
adottata, utilizzando una suddivisione gerarchica secondo specifici argomenti. Le directory
vengono alimentate da esseri umani, ovvero la classificazione di un sito sotto un certo
argomento non è svolta in automatico ma è fatta manualmente. Il pregio delle directory è che di
solito i contenuti dei siti sono molto coerenti con le loro classificazioni. La classificazione
umana, però, non permette alle directory di organizzare un numero elevato di siti e di farlo
molto velocemente. Inoltre, mentre un motore di ricerca individua l’informazione in qualsiasi
pagina del sito e permette di accedervi direttamente, normalmente nei siti elencati nelle
directory si accede alla home page, ed è quindi compito dell’utente trovare l’informazione
puntuale di interesse;
• banche dati
: la banca dati raduna informazioni, spesso di natura quantitativa, che vengono
organizzate da esseri umani. Sono ottimi servizi, disponibili via Web, che offrono una notevole
quantità di informazioni, molto spesso di natura quantitativa, inerenti specifici argomenti.
Alcune di esse sono gratuite, molte altre a pagamento, con cifre anche non sostenibili dal
singolo individuo, limitandone quindi la possibilità di acquisto a organizzazioni di grandi
dimensioni;
Portale: siti con l’obiettivo di presentare all’utente tante “porte” di accesso al mondo di Internet,
ovvero la possibilità di accedere a tanti contenuti da un unico punto di partenza. Anche i portali si
possono suddividere in orizzontali/generalisti e verticali, ovvero che si occupano prevalentemente
di una specifica tematica e cercano di offrire molti contenuti legati a essa.
Il funzionamento di un motore di ricerca può essere schematizzato secondo il processo:
• analisi: entra in gioco il crawler, detto anche spider, ovvero un software che au