Che materia stai cercando?

Motori di ricerca

Appunti della facoltà di lettere e filosofia del professor Formenti sulla teoria e la tecnica dei nuovi media. Il file contiene una lunga trattazione dall'invenzione del web (Tim Burnes-Lee), l'adozione di motori di ricerca fino ad i linguaggi http e html.

Esame di Teoria e tecnica dei nuovi media docente Prof. C. Formenti

Anteprima

ESTRATTO DOCUMENTO

Vi sono molti modi per mettere in collegamento gli sviluppatori con le aziende Open Source. In

Italia, SUN Microsystem offre la possibilità di pubblicare il proprio curriculum su una mappa di

Google (utilizzando le Google API), attraverso il portale javaopenbusiness.it. Sono gli sviluppatori

stessi a segnalare il proprio profilo, creando così una mappa delle competenze Open Source in Italia

attraverso gli strumenti resi disponibili da SUN e da Google.

Google può quindi contare sull’implementazione praticamente gratuita dei propri prodotti da parte

di centinaia di utenti; a questo si aggiunte l’investimento mirato di gare come Summer of Code,

festival dedicati alla promozione e sviluppo dei propri servizi e, ultimo ma non meno importante,

sistemi di reclutamento eccezionalmente dinamici. Tra questi, si trova anche il video-reclutamento,

direttamente sulle pagine di video.google.com, con interviste a dipendenti entusiasti e a Sergey Brin

in persona, tutti concordi nell’illustrare i privilegi del lavoro a Mountain View .

62

Ambienti ibridi fra università e azienda

Date queste premesse, l’avvicinamento di Google all’Open Source appare quanto mai strategico e

interessato, per quanto senz’altro originato da un comune sentire rispetto alle dinamiche cooperative

tipiche delle comunità di sviluppo Free Software, nate nell’humus accademico. La strategia

dell’accumulo evidenziata in precedenza è all’opera anche in questo ambito: infatti Google si

comporta come una sorta di buco nero che usa codici aperti, o addirittura ne favorisce la stesura e li

attira, per poi immetterli nel proprio circuito. Ad esempio, nessuna delle modifiche che i

programmatori di Google hanno apportato agli strumenti aperti usati è mai stata resa pubblica. In

particolare il loro Google Web Server (GWS) è una versione modificata di una versione di Apache,

il server web Open Source più diffuso nella Rete. Questo significa senz’altro sfruttare le

potenzialità e le realizzazioni del metodo di sviluppo aperto, senza però condividere le proprie

implementazioni e miglioramenti.

Un fattore di primaria importanza a proposito delle relazioni con il mondo Open Source è che

Google nasce a Stanford, un’università nota per la sua capacità di generare start-up aggressive e

competitive basandosi su ricerche di elevato profilo. Per quanto Stanford fosse, e continui a essere,

un ambiente favorevole allo sviluppo di progetti Open Source, il legame a doppio filo con il capitale

di rischio rende difficile e anzi impossibile proseguire sulla strada dell’eccellenza accademica una

volta usciti dal campus.

Un breve accenno alla ricerca accademica americana è necessario per comprendere le origini di

Google, tra l’Open Source e la ricerca orientata al profitto. Infatti a livello più generale va

sottolineato il carattere accentratore dell’università statunitense a proposito di creazione

intellettuale: tutti i progetti sviluppati in campo accademico sono tendenzialmente copyright

dell’università che ha ospitato il gruppo di ricerca. Stanford non fa eccezione: del resto, negli Stati

Uniti le accademie sono storicamente legate al mondo degli affari, e spesso sono vere e proprie

imprese. I brevetti universitari sulle invenzioni dei ricercatori fruttano royalties di tutto rispetto;

inoltre conferiscono prestigio ai centri di ricerca e agli studenti/ricercatori/imprenditori.

Le università sono ambienti ibridi, tra il pubblico e il privato. Negli USA fino al 2002, almeno in

teoria, i luoghi di ricerca pubblici non potevano brevettare le loro invenzioni; lo stesso si dica per i

laboratori privati ma finanziati con fondi pubblici (quindi spesso anche le università). Infatti il

pagamento dei dazi ostacola la libera circolazione dei saperi nella ricerca scientifica, la possibilità

di riprodurre, verificare o falsificare i risultati sperimentali. Questo in base all’Experimental Use

Defense, “protezione dell’uso sperimentale”, un principio che autorizza l’uso gratuito di tecnologie

brevettate nell’ambito della ricerca, introdotto nel 1813, e abolito appunto nel 2002 con la sentenza

a favore del ricercatore John Madey. Madey ha citato in giudizio la Duke University, per cui

lavorava, perché usava un’apparecchiatura da lui brevettata per ricerche laser su elettroni liberi. La

Corte ha ritenuto che l’Experimental Use Defense fosse stato concepito per proteggere lo scienziato

dedito alla ricerca disinteressata e libera, ma evidentemente nelle università questa attività non è più

così innocente e, anche nel caso non sia direttamente commerciale, può essere considerata un

“affare lecito” (legitimate business), poiché procura finanziamenti e necessita di forza lavoro e di

personale in formazione (studenti). Cade così ogni distinzione fra la ricerca privata e quella

pubblica .

63

Naturalmente, tutti i progetti nati a Stanford sono sottoposti a brevetto da parte dell’università, e

questa commistione fra incentivo ai progetti Open Source da una parte, e brevettabilità selvaggia

dall’altra, non giova certo all’ideale, né tanto meno alla pratica, della “ricerca” in sé, tanto

sbandierata come punto d’orgoglio e di forza di Google.

La questione del brevetto si fa ancora più interessante se ricordiamo che il successo di Google si

basa su un algoritmo ideato da Larry Page, a partire dalla collaborazione con Sergey Brin, quando

erano ricercatori alla facoltà di Scienze Informatiche presso Stanford. L’algoritmo che ha

rivoluzionato l’indicizzazione della Rete è quindi è di proprietà di Stanford, sottoposto a regolare

brevetto. Andiamo a scoprire nel dettaglio come funziona questo prodigio, come riesce a fornire

risultati in tempi più rapidi di qualsiasi concorrente, quasi che davvero potesse dare a ogni utente

“ciò che vuole”.

IV. Algoritmi, che passione!

La crescita vertiginosa di Google non ha intaccato la sua fama di motore rapido ed efficiente,

affidabile e completo: tutti abbiamo sentito dire che “se non c’è su Google, non esiste!” e che

“Google è più veloce”. Alla base di questo successo, oltre agli elementi che abbiamo analizzato

finora, si trova l’algoritmo di PageRank, già citato in apertura, che guida lo spider di Google alla

scoperta delle Reti. Vediamo in dettaglio di cosa si tratta e come funziona.

Algoritmi e vita reale

Un algoritmo è un metodo risolutivo applicato a un problema, un procedimento che si compone

64

di passi semplici da eseguire in sequenza per ottenere un dato risultato. Un algoritmo che perviene

alla soluzione del problema è detto corretto, e se la soluzione viene ottenuta in tempi brevi è detto

efficiente. Esistono molti diversi tipi di algoritmi, impiegati nei campi più disparati delle scienze;

non si tratta però di astruse procedure che riguardano un’esigua minoranza di studiosi, bensì di

pratiche che influenzano le nostre vite quotidiane molto più di quanto non sembri di primo acchito.

Ad esempio, le tecniche per registrare un programma televisivo utilizzano algoritmi, ma anche i

metodi per ordinare un mazzo di carte o per pianificare le soste di un viaggio particolarmente lungo.

In un tempo relativamente prevedibile, realizzando una serie di passi semplici e replicabili in

maniera identica, scegliamo più o meno implicitamente gli algoritmi adeguati alla soluzione che

stiamo cercando. Semplici significa soprattutto specificati in modo non ambiguo, immediatamente

evidenti per chi applicherà l’algoritmo, cioè per il suo esecutore. In questo senso, una ricetta è un

algoritmo: “fate bollire tre litri d’acqua in una pentola, salate e gettate cinquecento grammi di riso,

scolate dopo dodici minuti, aggiungete spezie a volontà” è una descrizione di passi semplici e non

ambigui, se il destinatario della ricetta è in grado di disambiguare passaggi come “salare”, oppure

“aggiungete spezie a volontà”.

Gli algoritmi non sono necessariamente metodi per raggiungere una soluzione nel minor tempo

possibile. Infatti ne esistono alcuni che si occupano di ottenere soluzioni accettabili senza

preoccuparsi del fattore tempo; altri ancora permettono di raggiungere un risultato nel minor

numero di passaggi, oppure hanno come priorità il risparmio di risorse .

65

Importa qui sottolineare, al di là di qualsiasi approfondimento specialistico, la natura pratica,

applicativa degli algoritmi. Gli algoritmi riguardano tutti noi perché sono pratiche concrete per

raggiungere un dato obiettivo. In campo informatico vengono utilizzati per risolvere problemi

ricorrenti nella programmazione dei software, nella progettazione delle reti e nella costruzione di

apparecchiature hardware. Negli ultimi anni, soprattutto a causa della crescente importanza dei

modelli reticolari di analisi e interpretazione della realtà, molti ricercatori hanno focalizzato i loro

studi sulle metodologie di costruzione e di percorrenza delle reti e dei dati che ne costituiscono la

materia viva. L’economia della ricerca di cui parla John Battelle è resa possibile dal

66

perfezionamento di algoritmi per la ricerca di informazioni, studiati per accrescere le possibilità di

reperimento e condivisione dei dati in maniera sempre più efficiente, veloce, affidabile e sicura. Il

caso più noto al grande pubblico è il fenomeno del peer-to-peer: invece di creare enormi banche dati

a cui è necessario accedere per trovare video, audio, testi, software e ogni genere di informazioni,

vengono sviluppati in continuazione algoritmi sempre più ottimizzati per facilitare la creazione di

reti altamente decentrate, nelle quali ogni utente si può mettere in contatto direttamente con altri

utenti e attuare scambi proficui .

67

La strategia dell’oggettività

L’aumento vertiginoso della qualità e della quantità di banda dei nostri computer, insieme alla

costante diminuzione dei costi, ci ha permesso di navigare in internet meglio, per più tempo e più

velocemente. Solo vent’anni fa i modem a pochi baud (numero di simboli trasmesso al secondo)

erano un lusso per pochi, mentre ora anche in Italia la fibra ottica, attraverso cui viaggiano milioni

di byte al secondo, è una tecnologia accessibile.

Dieci anni fa erano necessarie elevate competenze informatiche per creare contenuti adatti alle reti

digitali; ora invece la maggiore facilità di pubblicazione di contenuti sul web, l’onnipresenza della

posta elettronica, il miglioramento dei sistemi di scrittura collettiva online, come blog, wiki, portali,

mailing list e parallelamente l’abbassamento dei costi di registrazione e manutenzione dei domini e

degli spazi Internet favoriscono la trasformazione degli utenti: da semplici fruitori di informazioni

messe a disposizione da specialisti dell’IT, essi divengono sempre più creatori di informazioni.

Il miglioramento della connettività procede dunque di pari passo con una crescita esponenziale dei

dati immessi in rete e quindi, come già abbiamo avuto modo di notare, implica la pressante

necessità di strumenti di ricerca sempre migliori. L’urgenza diffusa a ogni livello di servizi di

ricerca attira forzatamente l’interesse di sociologi, informatici, ergonomisti, designer, studiosi della

comunicazione in genere. D’altra parte, il diluvio informazionale delle reti globali non è una banale

“messa in rete” delle società così come le conosciamo, ma un fenomeno estremamente complesso,

che esige interpretazioni non banali. Crediamo pertanto che tale impegno teorico e pratico, non

possa essere delegato agli specialisti, ma debba essere frutto di un’elaborazione collettiva.

Infatti se da un lato la costruzione di reti autogestite può essere un’occasione per ampliare e

collegare fra loro zone autonome, dall’altro il controllo sociale trova nelle tecnologie

dell’informazione uno strumento di repressione formidabile.

La realizzazione di questo secondo scenario, di cui il caso Echelon è solo la manifestazione più

68

clamorosa, appare certamente più probabile alla luce del costante aumento del numero di individui

che producono informazioni, contrapposto alla diminuzione continua dei fornitori di strumenti di

ricerca. L’accesso alle informazioni prodotte da un numero sempre più imponente di individui è

gestito da un pugno di monopolisti che riducono una delicata questione sociale e politica a una gara

di marketing senza esclusione di colpi, nella quale l’adozione di un algoritmo migliore risulta essere

l’elemento vincente.

Infatti un algoritmo di ricerca è uno strumento tecnico che attiva un meccanismo di marketing

estremamente sottile: l’utente si fida del fatto che i risultati non siano filtrati e corrispondano alle

preferenze di navigazione che la comunità di utenti genera. In sostanza, si propaga un meccanismo

di fiducia nell’oggettività della tecnica (nello specifico, la procedura algoritmica che genera il

risultato dell’interrogazione) che viene ritenuta “buona” in quanto non influenzata dalle

idiosincrasie e dalle preferenze di individui umani. Le macchine “buone”, figlie di una scienza

“oggettiva” e di una ricerca “disinteressata”, non manipoleranno i risultati, non ci diranno bugie

perché non possono mentire e comunque non avrebbero alcun interesse a farlo. La realtà è ben

diversa e questa credenza si rivela un’ipotesi demagogica, dietro alla quale le macchine del

marketing e del controllo accumulano profitti favolosi.

Il caso di Google è l’esempio lampante di questa “strategia dell’oggettività” legata alla tecnica:

infatti il motore di ricerca “buono per motto” sfrutta e traccia interamente e in maniera continuativa

i comportamenti degli utenti che utilizzano i suoi servizi, al fine di profilare le loro abitudini e

inserire nelle loro attività (navigazione, posta, gestione file, ecc.) pubblicità personalizzate,

contestuali, leggere, onnipresenti, e possibilmente in grado di generare feedback, in modo che gli

utenti siano in grado di fornire nel modo più semplici informazioni utili per i venditori e anzi

giungano a migliorare essi stessi i “suggerimenti pubblicitari”, esprimendo le proprie preferenze. La

richiesta continua dell’opinione degli utenti, oltre a lusingare le persone che si sentono partecipi di

una vasta “democrazia elettronica”, è in effetti il modo più semplice ed efficace per ottenere

informazioni preziose dal punto di vista commerciale sui gusti dei consumatori. Sono le preferenze

(e l’inconsapevolezza) degli utenti a far vincere un motore di ricerca sugli altri, poiché un sito molto

visitato può modificare i sui contenuti in base a “suggerimenti” commerciali e attivare di

conseguenza virtuosi movimenti economici .

Da un punto di vista squisitamente informatico, ai motori di ricerca compete la gestione di quattro

elementi: la ricerca di dati nella rete (spider), la memorizzazione delle informazioni in appositi

archivi (basi di dati), un valido algoritmo per ordinare i dati secondo le ricerche formulate

(interrogazione), e infine lo sviluppo di un’interfaccia capace di soddisfare l’utente; ciascuno dei

primi tre aspetti viene curato da un apposito tipo di algoritmo: ricerca,

memorizzazione/archiviazione, interrogazione.

La potenza di Google, come di Yahoo! e altri giganti della ricerca in rete, è dunque basata su:

8. “spider”, ovvero un software per prelevare contenuti dalle reti;

9. hard-disk di enorme capienza per memorizzare i dati su supporti affidabili e ridondanti, onde

evitare qualsiasi perdita accidentale;

10. un sistema rapido per trovare (e ordinare) i risultati di un’ interrogazione in base al valore di

ranking delle pagine;

11. infine un’interfaccia utente via web (ma non solo: Google Desktop e Google Earth, ad

esempio, sono programmi da installare sulla macchina dell’utente) per rispondere alle

richieste riguardanti queste informazioni.

Spider, basi di dati e ricerche

Lo spider è un applicativo che, nella maggior parte dei casi, viene sviluppato nei laboratori di

ricerca degli stessi motori di ricerca. Il suo scopo è quello di navigare saltando tra un link e l’altro

sulle pagine del web raccogliendo informazioni: formati dei documenti, parole chiave, autori delle

pagine, ulteriori links, ecc. Al termine delle sue esplorazioni il software-spider consegna il tutto alla

base di dati che archivierà le informazioni. Inoltre lo spider deve preoccuparsi di captare le

variazioni di ogni sito e quindi programmare una successiva visita per immagazzinare nuovi dati. In

particolare lo spider di Google gestisce due tipologie di scansioni dei siti, una mensile approfondita,

Deep-crawl, e una giornaliera di aggiornamento, Fresh-crawl. In questo modo la base dati di

Google viene costantemente aggiornata dallo spider sulle evoluzioni delle reti. Dopo una scansione

approfondita Google impiega qualche giorno per aggiornare le varie indicizzazioni e propagare i

nuovi risultati in tutti i datacenter. Questo lasso di tempo è noto come Google dance, (danza di

Google): i risultati delle ricerche differiscono anche sensibilmente, poiché fanno riferimento a indici

diversi. A partire dal 2003 Google ha modificato le sue metodologie di catalogazione e

aggiornamento, limitando drasticamente gli effetti della “danza” e spalmandoli nel tempo; in effetti,

ora i risultati delle ricerche variano in modo dinamico e continuativo senza nessuno stravolgimento

periodico. In realtà i risultati delle ricerche differiscono anche in base alle precedenti navigazioni

degli utenti, che vengono archiviate e utilizzate per “migliorare”, nel senso di “semplificare”, il

reperimento delle informazioni .

69

La sequenza di scelte che l’applicativo compie per indicizzare un sito è la vera potenza

dell’algoritmo di Google. Mentre l’algoritmo di base PageRank è depositato sotto brevetto da

Stanford, e quindi pubblico, questi ulteriori passaggi algoritmici non sono rilasciati pubblicamente

né da Google, né da nessuno dei motori di ricerca attualmente in uso; allo stesso modo non sono

pubblici i processi di salvataggio nella base di dati.

In ambito informatico, una base di dati (database) è, in sostanza, un archivio digitale; nella sua

forma più semplice – e attualmente più diffusa – è rappresentabile sotto forma di una o più tabelle

in relazione fra loro che presentano valori in entrata e valori in uscita: si parla allora di database

relazionale. Come ogni archivio, una base di dati è organizzata secondo precise regole di

stoccaggio, estrazione e continuo miglioramento dei dati stessi (recupero di dati corrotti, correzione

di voci duplicate, costante reingegnerizzazione dei processi di acquisizione dei dati, ecc.).

Gli informatici studiano da decenni le metodologie di ricerca, immissione e miglioramento dei

dati in database, sperimentando linguaggi di programmazione e approcci differenti (gerarachico,

reticolare, relazionale, a oggetti, ecc.). La progettazione di una base di dati è una componente

cruciale del processo di sviluppo di un sistema informativo complesso come Google, poiché da essa

dipende essenzialmente la sua funzionalità. Per ottenere una rapida estrazione dei dati e, in

generale, una gestione efficiente, è quindi fondamentale la corretta individuazione degli scopi del

database e, nel caso dei database relazionali, delle tabelle, da definire attraverso i loro campi e le

relazioni che le legano. Naturalmente è necessario adottare approssimazioni inevitabili nei passaggi

fra le lingue naturali, analogiche, e i dati immessi, digitali, che sono evidentemente discreti: zero o

uno, l’informazione è presente oppure no, non esistono vie di mezzo. Il punto dolente è la

segretezza di queste metodologie: come avviene in tutti i progetti di sviluppo proprietari, a

differenza di quelli liberi, è molto difficile sapere quali strumenti e quali algoritmi siano stati

utilizzati.

Attraverso i testi redatti dai centri di ricerca e dalle università è possibile reperire le scarse

informazioni rese pubbliche a proposito dei progetti proprietari. Su questi testi si trovano

informazioni utili per comprendere la struttura dei computer e la gestione dei dati da parte dei

motori di ricerca. Per dare un’idea della potenza di calcolo attualmente disponibile, vengono

descritti computer capaci di convertire indirizzi Internet in sequenze univoche di byte utili come

indici per i database in 0.5 microsecondi e capaci di eseguire 9000 spider in contemporanea;

scendendo nel concreto, si tratta di sistemi in grado di analizzare e immagazzinare circa 50 milioni

di nuove pagine al giorno .

70

L’ultimo elemento algoritmico che si cela dietro alla “semplice” facciata di Google è il dispositivo

di ricerca, ovvero quel sistema che, data una interrogazione utente, è capace di trovare i risultati più

congrui, ordinarli per importanza e ranking, infine inviarli all’interfaccia.

Alcune università e laboratori hanno deciso di rendere pubbliche le loro ricerche in tal senso, in

particolare le soluzioni raggiunte e i differenti approcci utilizzati per ottimizzare la velocità di

accesso alle informazioni, la complessità dell’ordinamento e la selezione dei parametri di input più

interessanti.

I motori di ricerca, infatti, devono essere in grado di fornire risultati ottimali quasi

istantaneamente, offrendo nel contempo un ventaglio di possibilità di scelta il più ampio possibile.

Google rappresenta senz’altro lo stato dell’arte dei motori di ricerca: simili straordinari risultati si

possono ottenere solo grazie all’implementazione di opportuni filtri, come vedremo

approfonditamente nel prossimo capitolo.

Per ora è importante sapere che l’esito migliore viene assicurato attraverso il giusto bilanciamento

tra potenza di calcolo e qualità dell’algoritmo di ricerca. Ricercare un’informazione tra i terabyte (1

TB = 1000 GigaByte) o petabyte (1 PB = 1000 TB = 1 milione di GigaByte) necessita l’impiego di

straordinari supporti di archiviazione e formidabili sistemi di indicizzazione, con il compito di

individuare sia in quale punto dell’enorme archivio si trova l’informazione che calcolare il tempo

necessario per prelevarla.

La Rete trabocca di leggende non sempre verificate né verificabili a proposito della capacità

computazionale di Google, anche perché l’azienda rivela pochi particolari della propria

infrastruttura tecnologica. Alcune fonti parlano di centinaia di migliaia di computer collegati fra

loro in migliaia di giganteschi cluster che montano apposite distribuzioni GNU/Linux; altre di

supercomputer, dispositivi la cui estetica rimanda a scenari fantascientifici: enormi silos super

refrigerati nei quali uno o più bracci meccanici spostano alla massima velocità migliaia di dischi

rigidi. Entrambe le soluzioni sono plausibili, insieme ad altre ancora, e non sono necessariamente in

contraddizione. Di certo, l’estrema scalabilità delle macchine di Google consente prestazioni

eccezionali, dal momento che il sistema è “aperto” a continui miglioramenti.

Dalla brand-identity all’interfaccia partecipativa

Ricerca, archiviazione e reperimento dei dati sono procedure estremamente complesse e

necessitano, per essere comprese a fondo, conoscenze e approfondimenti che esulano dagli intenti

di questo testo. Vedremo più avanti alcuni dettagli del loro funzionamento. Un’attenzione

particolare va dedicata all’interfaccia perché mentre le performance dell’algoritmo e l’architettura

della base di dati sono elementi strutturali del motore di ricerca che rimangono invisibili all’utente,

l’interfaccia è progettata e gestita come immagine di Google stesso.

Per interfaccia intendiamo innanzitutto il “blank box” , quello spazio vuoto nel quale si

71

immettono le proprie domande o “intenzioni di ricerca” nel quadro della pagina universale di

Google, studiata per risultare accogliente, confortevole, famigliare.

Si tratta di un’impostazione detta universale perché viene declinata in numerose lingue (al

momento, oltre 104 fra lingue e dialetti personalizzabili per oltre 113 paesi) e in ognuna di queste

presenta un modello di interazione che rimane invariato e che unifica i comportamenti di ricerca in

uno schema unico e omogeneo.

Sulla pagina di Google ci troviamo di fronte un’interfaccia lineare composta da elementi

essenziali, ciascuno con una funzione ben precisa e universalmente riconosciuta. Essa è in grado di

accettare indicazioni di ricerca di diversa natura e complessità, dall’introduzione di semplici parole

chiave (es. “ippolita”) a parole composte, che vanno poste tra virgolette (es. “comunità scrivente”),

fino a ricerche mirate: ad esempio, le ricerche possono essere limitate a un sito particolare, oppure a

una lingua specifica, a pagine provenienti solo da un determinato dominio, o ancora a documenti di

un certo formato, e così via, a seconda del grado di raffinatezza che si vuole ottenere. Si tratta cioè

di un esempio riuscito d’interfaccia che raggiunge il non semplice obiettivo di associare un

significato positivo allo spazio bianco della pagina. L’interfaccia si presenta senza orpelli, quasi

vuota, o meglio riempita da un unico elemento “vuoto”: il blank box, che rassicura l’utente e tende a

indurre comportamenti attivi, invece di provocare lo smarrimento dovuto all’assenza di punti di

riferimento, o viceversa dalla presenza di input visivi sovrabbondanti. Si evita così la confusione

generata dalle pagine troppo piene, quasi fossero affette da una sorta di horror vacui, da un’ansia

comunicativa che, nel tentativo di attirare l’utente con mille banner, effetti grafici, giochini, ottiene

spesso l’effetto contrario.

Non esiste una navigazione vera e propria sulla pagina di Google: le diverse componenti della

pagina hanno un significato funzionale, servono per accedere a servizi, non per condurre l’utente in

un percorso; il loro utilizzo innesca comportamenti che diventano parte molto rapidamente di una

routine di ricerca, al punto da apparire istintivi dopo poco tempo. L’interfaccia del motore di ricerca

è studiata in modo che l’utilizzo, la dinamica di funzionamento e le aspettative dell’utente, un

utente generico, si ripetano; anzi, anche dopo aver immagazzinato e digerito le “personalizzazioni”

dell’utente stesso, le pratiche di ricerca rimangono sostanzialmente identiche, tanto che possiamo

parlare di uno strumento “universale”.

La disposizione di testi e immagini è lineare e si avvale dell’utilizzo di elementi grafici ricorrenti,

ad esempio l’impiego dei colori elementari; le immagini usate sono qualitativamente omogenee. Lo

stile di progettazione dell’interfaccia è sobrio, quasi scarno e, a dispetto del design di tendenza delle

brand-identity (e della corporate-identity) orientato alla ricerca di una specificità estetica, fa

72

riferimento a qualità percettive elementari ma molto efficaci nella loro semplicità.

Da questa identificazione visiva immediata deriva una facilità d’uso nettamente superiore rispetto

ai motori di ricerca concorrenti. Il livello di ergonomia raggiunto è stupefacente: Google non ha la

necessità di mostrarsi come un accentratore di servizi attraverso la propria interfaccia; in altre

parole, la sua architettura visiva è quella tipica dei portali multiservizio. Le interfacce dei diversi

servizi sono autonome e sostanzialmente indipendenti, caratterizzate tutte dalla presenza della

“blank box” e non linkate le une con le altre in maniera diretta. Ad esempio, sono necessari molti

passaggi non intuitivi per raggiungere il servizio di code.google.com, pensato per tecnici di vario

livello, partendo dal servizio base di ricerca delle immagini, ovvero images.google.com, indirizzato

a un pubblico più generico: è necessario scendere “in profondità” nel sito google.com e sapere cosa

cercare. Nonostante questa frammentazione, siamo tutti in grado di riconoscere la rete di servizi

offerta da Google; inoltre i fruitori sono in grado di utilizzare in maniera combinata e integrata le

risorse informative messe a disposizione, sia per coloro che si limitano al semplice uso del browser,

sia per Google-dipendenti, i Google-totally-addicted che si precipitano entusiasti su ogni nuovo

73

servizio.

Questa deterritorializzazione dei servizi genera un peculiare meccanismo relazionale: gli utenti

non vengono a conoscenza delle nuove sezioni direttamente da Google, ma dalla rete informale

degli utilizzatori, da altri siti sui quali i visitatori espongono i loro gusti e discutono delle loro

abitudini. La vasta gamma dei servizi offerta da Google viene automaticamente localizzata dal

fruitore stesso nel momento in cui si interessa a un nuovo servizio: ad esempio, per quanto riguarda

la zona geografica, viene presentata immediatamente l’interfaccia linguistica appropriata all’utente.

D’altra parte, è semplice inquadrare la tipologia di utenti a cui un servizio è indirizzato, e valutare il

grado di preparazione tecnica richiesto, o il grado di affinità con gli altri utilizzatori. Il meccanismo

di passaparola diventa dunque simile a un “PageRank relazionale”.

In prima approssimazione, esistono una dimensione relazionale locale, nella quale il passaparola

avviene fra amici e conoscenti, e una dimensione relazionale tipologica, nella quale un certo tipo di

utenti, identificabili in base a parametri statistici (età, sesso, impiego, ecc.) utilizza un particolare

servizio e mette in moto l’economia relazionale.

I dieci problemi relativi all’usabilità dei siti web, discussi da Jakob Nielsen , fra i più noti

74

studiosi di interfacce utente, sembrano non intaccare minimamente il sito di Google che, nonostante

sia scritto in linguaggio HTML totalmente fuori standard , riesce ad assicurare la piena visibilità su

75

tutti i browser, grafici o testuali che siano.

La pulizia grafica delle pagine viene esaltata da un’ottima gestione visiva degli aspetti

commerciali. Nessun link pubblicitario in homepage o nelle pagine di documentazione e

informazione: la pubblicità in Google si trova solo tra i risultati delle ricerche, appositamente

separata dai risultati proposti ma non estranea agli argomenti ricercati. Si può dire quindi che

Google è capace di esprimere, quantomeno circa la disposizione scenica delle sue interfacce, il

giusto compromesso tra rispetto degli utenti e necessità di ritorno economico. La pubblicità,

principale fonte di introiti di Google, viene progettata e realizzata in modo da non diventare

invasiva e non distrarre gli utenti dal loro utilizzo dei servizi.

I link pubblicitari sono sponsorizzati in modo dinamico per seguire il percorso compiuto da un

utente all’interno del motore di ricerca e quindi, in seconda istanza, sui siti Internet.

I collegamenti commerciali dunque non sono statici, ma si modificano e accompagnano le

ricerche degli utenti; questo è possibile anche grazie ai feed RSS (acronimo di RDF Site Summary,

o di Really Simple Syndication), uno dei formati più utilizzati per la distribuzione di contenuti Web,

e in virtù delle diverse sorgenti informative digitali (quotidiani, riviste, agenzie di stampa, ecc.) in

grado di modificare dinamicamente l’homepage di Google. Infatti Google mette la sua homepage a

disposizione degli utenti registrati, rendendola totalmente configurabile grazie all’aggiunta di feed

RSS: è così possibile impostare le previsioni del tempo automatiche per le città che si desidera

monitorare, oppure scandagliare l’archivio storico delle ricerche effettuate. Si possono organizzare i

segnalibri e gli ultimi messaggi di posta ricevuti, ma anche tenere sotto controllo i file del proprio

computer senza soluzione di continuità rispetto ai contenuti web, grazie all’applicativo Google

desktop.

Il meccanismo di promozione pubblicitaria, i servizi e i sofisticati meccanismi di profilazione

dell’utente sembrano costituire un tutt’uno a livello estetico e contenutistico; dal canto loro, i link

sponsorizzati sarebbero in questo senso nient’altro che semplici suggerimenti, graficamente

compatibili e concettualmente allineati con l’operazione di ricerca che si sta compiendo.

L’economia di Google è altamente integrata con l’interfaccia, al punto da poter essere esclusa a

livello visivo da chi non ne è interessato e sfruttata da chi invece trova interessante i link e i percorsi

commerciali proposti.

Anche Yahoo! e molti altri motori di ricerca e portali mettono a disposizione strumenti analoghi

76

per la personalizzazione della propria homepage; tuttavia la quantità e la qualità delle offerte di

Google, al momento, rimane insuperata. Si tratta di configurazioni piuttosto semplici, ma che

richiedono in ogni caso una certa dimestichezza con le interfacce web e un po’ di tempo per essere

realizzate. In ambito web la soglia di attenzione è notoriamente bassissima, le pagine vengono

visualizzate e abbandonate in tempi molto rapidi, dell’ordine di pochi secondi; perciò un utente che

investe parecchi minuti, o decine di minuti, opera delle scelte che rivelano molto di sé e delle

proprie abitudini di consumatore. Queste informazioni, accuratamente archiviate dalla compagnia di

turno (Google o Yahoo! che sia) costituiscono la vera ricchezza prodotta dall’utente stesso, e sono

fondamentali per proporre beni e servizi mirati da parte delle aziende sponsor.

La personalizzazione delle pagine rende un sito più amichevole, il sito stesso diventa come uno

strumento personale in cui l’utente investe tempo, scegliendo colori, aspetto, contenuti. Un

visitatore abituale in grado di configurare la propria pagina iniziale viene cooptato e reso partecipe

nella costruzione dell’interfaccia web. Concedere il potere e il controllo su alcune pagine all’utente

significa promuoverlo da semplice bersaglio di campagne pubblicitarie a consumatore “intelligente”

ed è senz’altro il modo migliore e più sottile per creare fidelizzazione promuovendo l’interazione.

SI profilano ambienti dotati di interfacce partecipative e non esclusive per ricevere pubblicità

sempre più personalizzate, per entrare tutti insieme nel dorato mondo di Google.

PageRank, o l’autorità assoluta di un mondo chiuso

L’algoritmo che permette a Google di assegnare un valore alle pagine indicizzate dallo spider è

noto come PageRank.

Sappiamo già che il funzionamento del PageRank si basa sulla popolarità di una pagina web,

calcolata in base al numero di siti che hanno almeno un link puntato a essa. A parità di numero link,

due pagine web avranno PageRank diversi in base all’importanza di chi li ha linkati: con questo

meccanismo si valuta l’aspetto “qualitativo” dei siti. I link presenti nelle pagine web più linkate

otterranno importanza superiore rispetto a quelli presenti nelle pagine meno linkate.

Facciamo un esempio concreto: spesso, controllando le statistiche di accesso relative a un sito, si

riscontrano un numero enorme di contatti provenienti da siti pornografici. Questo avviene perché

Google attribuisce un ranking dipendente dagli accessi, che a loro volta vengono visualizzati nelle

pagine di statistiche pubbliche. Esistono perciò programmi che sfruttano la pervasività di questa

logica di connessione e valutazione dei nodi di una rete per innalzare il proprio rank; come spesso

accade, i primi sperimentatori sono i siti pornografici (come è stato per le gallerie di immagini su

web, o per il commercio online).

In pratica vengono utilizzati alcuni programmi che si occupano di cercare i siti con statistiche di

accesso pubbliche; viene quindi effettuato un numero molto elevato di richieste, simulando visite

provenienti da un finto link presente in un altro sito, che nella maggior parte dei casi è appunto un

sito pornografico. Questo meccanismo di bombardamento fa letteralmente impennare il numero di

accessi al sito in questione e di conseguenza le statistiche mostrano incrementi evidenti; in questo

modo aumenterà sensibilmente il Google-Ranking del sito e in ultima analisi anche quello del sito

pornografico da cui i link sono arrivati: insomma, un guadagno per tutti, almeno a livello di

visibilità.

Questo tipo di operazione non è illegale: nessuno vieta di fare richieste a un sito Internet; grazie a

questa pratica i siti a statistica pubblica ottengono un ranking più elevato. Inoltre, tale meccanismo

ci consente di illustrare come anche la magia tecnologica del ranking di Google, ritenuto oggettivo e

veritiero, sia legata ai “bassifondi” della rete niente affatto autorevoli e a pratiche di linking

piuttosto equivoche.

Altre pratiche non illegali che sfruttano l’approccio all’indicizzazione di Google sono note come

SEO (Search Engine Optimization); si tratta di un insieme di attività svolte per migliorare il

posizionamento di un sito web nei risultati della ricerca. L’offerta di un posto di primo piano

avviene spesso attraverso e-mail di spam provenienti da indirizzi improbabili, evidentemente

tradotte con programmi automatici, che promettono strabilianti risultati:

“Noi registriamo il Suo sito internet in 910 motori di ricerca, registro e catalogo web. Noi

portiamo il Suo sito internet sui primi posti di Google e Yahoo! Provateci! Non si corre nessun

rischio. Al posto di 349_ soltanto 299_ (costo unico, senza abbonamento).” Ovviamente Google

continua a rivendicare la propria trasparenza: “nessuno può garantire che il vostro sito compaia al

primo posto nei risultati di Google” .

77

Dal punto di vista matematico, una conseguenza del PageRank basato sull’analisi dei link è

l’integrità della base di dati; ovvero, la determinazione di uno spazio circoscritto, per quanto ampio,

nel quale compiere ricerche. Infatti, se le pagine sono valutate e scoperte solo attraverso link ciò

significa che non esistono pagine non linkate o isole di documenti slegati dal resto del web: in

sostanza, nel mondo di Google esiste sempre un percorso che porta da una pagina a una qualsiasi

altra presente nella base di dati, cioè nelle reti indicizzate.

Le ricerche quindi saranno tendenzialmente funzionali, evitando al massimo la possibilità di link

rotti (broken link) o di informazioni diverse da quelle precedentemente archiviate, presenti nella

memoria nascosta (cache memory). Il problema è che in questo modo gli utenti sono indotti a

credere erroneamente che Internet sia un mondo chiuso, connesso, completo, privo di strade poco

illuminate o di percorsi preferenziali, poiché sembrerebbe che, data un’interrogazione, si giunga

sempre al risultato “giusto”.

Ciò dipende dal fatto che la visione googoliana di Internet scaturisce interamente dai percorsi che

lo spider compie nel suo rimbalzare da un collegamento all’altro. Se una pagina non è citata da

nessun altro sito, allora essa non comparirà mai in nessuna interrogazione compiuta da un utente,

perché lo spider non ha mai avuto modo di trovarla, pesarla e valutarla. Tuttavia questo non

significa affatto che siano assenti isole di dati, tutt’altro.

Ne sono un esempio i siti dinamici, nei quali le funzionalità offerte si basano totalmente sulle

scelte dell’utente. Uno di questi siti è trenitalia.com: compilando l’apposita scheda (form), il sito è

capace di fornire in tempo reale gli orari dei treni, le coincidenze, i percorsi più veloci per

raggiungere una destinazione. Google non è in grado di comprendere le richieste di questo form e

quindi non indicizza gli orari e i percorsi generati dinamicamente da trenitalia.com. Solo

l’intervento umano può superare questo scoglio. L’unica soluzione proposta da Google è di

inglobare nella sua interfaccia strumenti di redirezionamento sui siti di compagnie aeree o

ferroviarie nel momento in cui l’utente ricerca un percorso, destinazione e arrivo.

L’integrità referenziale proposta dalla base dati di Google deve essere rivista, perché sottintende

l’idea di un mondo unico per tutti, chiuso e finito. Al contrario, tracciare un percorso in una rete

complessa significa compiere un’esplorazione che determina sempre dei risultati relativi e parziali.

Il sogno di un Google contenitore di tutta Internet è un’idea demagogica particolarmente comoda,

utile per sostenere la completezza e l’affidabilità delle informazioni disponibili, insomma tutte le

caratteristiche che rendono Google un “servizio unico”, un dispensatore di verità. Nelle ricerche

della vita quotidiana tale chiusura assoluta è molto utile, perché conduce rapidamente a un risultato;

in realtà però ci illude che la libertà consista nell’ottenere una qualità totale. Sappiamo invece che in

un sistema reticolare complesso non esistono verità assolute, ma solo autorità distribuite a seconda

del percorso che si desidera affrontare, o anche solamente in funzione del tempo che si è disposti a

investire nella ricerca. La qualità dipende interamente dalla nostra soggettiva percezione

dell’accettabilità del risultato. Le reti che siamo in grado di analizzare, apprezzare e vivere, sono

oggetti complessi i cui nodi e collegamenti sono in costante mutamento. Poiché il compito di

accettare un elaborato di navigazione relativo a una ricerca dipende in ultima analisi dall’utente,

risulta essenziale l’esercizio della capacità critica, la consapevolezza della soggettività del proprio

punto di vista. Per generare il percorso che davvero ci interessa analizzare è necessario ipotizzare

l’esistenza di una rete finita e limitata, un mondo chiuso solo dalle nostre esigenze personali,

sapendo tuttavia che si tratta di una localizzazione soggettiva, non assoluta né costante nel tempo.

Esplorare una rete implica la capacità di dividere le reti in sottoreti di analisi e corrisponde alla

creazione di piccoli mondi localizzati e temporanei .

78

In pratica nella navigazione quotidiana i collegamenti casuali sono di primaria importanza: la

creazione di collegamenti nuovi e inaspettati non può in alcun modo essere prevista dall’analisi

degli elementi della rete suggerita dal ranking Google. Questi collegamenti hanno la funzione di

“porte dimensionali” e consentono la diminuzione o addirittura l’annullamento delle distanze fra

due nodi della rete.

PageRank, o la moneta della scienza

Inoltre, l’algoritmo del PageRank, a differenza di quanto riporta la vulgata, non è una invenzione

originale di Google, ma si fonda sulle scoperte matematico-statistiche di Andrej Andreevic Markov,

che nei primi anni del XX secolo analizzò i fenomeni statistici su sistemi chiusi, cioè quei sistemi in

cui ogni elemento è causa o effetto solo di altri elementi del sistema stesso .

79

Sergey Brin e Larry Page sono sicuramente partiti da questa base teorica, ma i miglioramenti che

sono stati apportati non sono stati del tutto resi pubblici, al di là del brevetto depositato da Stanford.

L’esempio migliore per chiarire la morfologia di questo algoritmo è il passa parola fra amici e

conoscenti. Nelle relazioni interpersonali più si parla di un dato evento, più questo assume

importanza e contemporaneamente diventa parte di un patrimonio comune. Se si limita la diffusione

di quel dato evento a una sfera ristretta la sua popolarità sarà minore. Lo stesso vale per gli uomini

di spettacolo: più riescono a far parlare di sé maggiore sarà il loro ranking, più saranno conosciuti e

più saranno famosi (è per questo che esistono trasmissioni autoreferenziali come “L’Isola dei

Famosi”...). Questa stessa logica viene applicata da Google ai dati online.

Google propaganda questo suo metodo in maniera molto convincente, diffondendo l’immagine di

Internet come una grande democrazia, poiché l’algoritmo agisce come se i link fossero voti relativi

ai siti: poco importa se si linka per dire male o dire bene: l’importante è che se ne parli. La forzatura

di questa “democrazia globale” ottenuta attraverso un algoritmo è evidente a chiunque: come se la

democrazia dipendesse dalla tecnologia e non dalle pratiche degli individui.

L’origine culturale di questa pratica, come già accennato , è derivata dal sistema, estremamente

80

elitario, della revisione dei pari (peer-rieview) da parte dei referees delle pubblicazioni scientifiche:

in questo modo il contributo individuale di ogni ricercatore si inserisce in una rete di rapporti,

verifiche e valutazioni che consente la trasmissione e il controllo dei risultati della ricerca. La

democrazia globale di Google si configura insomma come l’applicazione del “metodo scientifico”

delle pubblicazioni alla Rete, grazie all’algoritmo di PageRank, una sorta di “referee tecnologico”

in grado di valutare in maniera oggettiva le informazioni del web, tenendo conto delle preferenze

espresse dal “popolo dei navigatori” attraverso i link, e proporle nell’ordine giusto.

Il parallelo è stringente: da un lato, le pubblicazioni scientifiche acquistano peso e autorevolezza

in base al loro collocamento nel quadro del loro specifico campo di ricerca; tale collocamento viene

ottenuto tramite le citazioni, ovvero i riferimenti alla letteratura. In questo modo la ricerca

scientifica garantisce la propria continuità, poiché ogni nuovo articolo non nasce nel vuoto, ma si

pone come il “presente” del lungo percorso della tradizione scientifica. Dall’altro lato, i link delle

pagine web vengono interpretati dallo spider di Google come “citazioni”, che aumentano appunto

l’autorevolezza, cioè il ranking, di quella pagina.

L’elitarismo scientifico, base del sentimento di timorato rispetto che incute la “scienza” si basa

curiosamente sulla pratica della pubblicazione: del resto, rendere “pubblico” non implica rendere

“accessibile” e “comprensibile” . Infatti “le scoperte degli scienziati, teoriche o sperimentali che

81

siano, non sono e non possono essere considerate conoscenza scientifica finché non siano state

registrate in modo permanente”, come sosteneva negli anni Settanta il sociologo Robert Merton .

82

L’affermazione è forse eccessivamente perentoria (la scienza antica si tramandava in modo

tutt’altro che pubblico: si pensi alla scuola pitagorica in Grecia, alla distinzione fra scritti esoterici

ed essoterici, ecc.), ma evidenzia correttamente il carattere eminentemente pubblico della

conoscenza scientifica moderna. La comunicazione non è quindi un sottoprodotto della ricerca,

bensì parte integrante di una forma di sapere i cui presupposti sono il carattere cumulativo e quello

cooperativo. La scienza, almeno a partire dal XVI secolo, da una parte è orientata al conseguimento

di risultati nuovi, che possano rappresentare un aumento del patrimonio conoscitivo, dall’altra

assume come punto di partenza i frutti delle ricerche precedenti. Possiamo abbozzare una storia

della comunicazione scientifica che si evolve insieme ai media destinati a supportarla: dalla fitta

corrispondenza epistolare fra gli scienziati alla stampa periodica su riviste erudite, fino alla

comunicazione digitale. Non a caso i primi nodi di Internet furono centri di ricerca accademica, che

avevano la necessità di comunicare e condividere le proprie informazioni.

Tuttavia la mutazione del supporto non ha prodotto un sostanziale cambiamento nel metodo di

connessione tipico di questa forma comunicativa, che rimane quello delle citazioni. Descritte come

“moneta della scienza”, le citazioni sarebbero una sorta di tributo degli scienziati ai loro maestri e

ispiratori. Più concretamente, collegano la ricerca presentata con quelle già svolte dallo stesso

autore o da altri. Tuttavia è ragionevole assumere che il numero di citazioni ricevute da un

determinato lavoro possa rappresentare un’indicazione della sua importanza o almeno del suo

impatto sulla comunità scientifica. Negli anni questo sistema è diventato materia di studio specifica:

l’analisi bibliometrica è una disciplina che utilizza tecniche matematiche e statistiche per analizzare

i modelli di distribuzione dell’informazione, e in particolare delle pubblicazioni. Attualmente la

bibliometria, e in particolare il suo più noto indicatore, l’impact factor , viene comunemente usata

83

come criterio “oggettivo” per valutare la qualità del lavoro scientifico svolto da un singolo

ricercatore o da un’istituzione. Un grande archivio per l’analisi bibliometrica è stato messo online

nel 1993 proprio a Stanford, la culla di Google. Il progetto SPIRES (Stanford Public Information

REtrieval System) nacque nel 1974 dalla raccolta di note bibliografiche sugli articoli di fisica

84

delle alte energie curata dalla biblioteca universitaria di Stanford. Limitatamente al ristretto campo

d’analisi (la fisica delle alte energie), SPIRES è un database completo e ad accesso gratuito, che

consente ricerche complesse anche sulle citazioni, una palestra che Brin e Page hanno saputo

sfruttare al meglio per mettere a punto l’algoritmo di PageRank. Accanto all’algoritmo vi sono poi

alcuni accorgimenti che contribuiscono a rendere Google un vero e proprio strumento di

mediazione globale del web.

V. In aggiunta altre maliziose funzionalità

I filtri sugli algoritmi: banche dati preconfezionate e controllo degli utenti

La teoria dei grafi è la base matematica per l'elaborazione di tutti gli algoritmi sulle reti, tra cui

85

figura anche il PageRank. Questo ramo della matematica si occupa tra l'altro di studiare i metodi per

gestire, creare, percorrere diverse tipologie di reti descrivibili attraverso grafi e le loro rispettive

grandezze. La teoria dei grafi ha avuto un particolare sviluppo a partire dalla metà del XX secolo

con l'introduzione dei calcolatori elettronici. Possiamo immaginare geometricamente un grafo come

un insieme di punti nello spazio e di curve continue che connettono coppie di punti senza

intersecarsi tra loro. Nella teoria dei grafi, si dice grafo (da non confondere con grafico) una figura

costituita da punti, detti vertici o nodi, e da linee che li uniscono, dette lati o spigoli o archi .

86

Una rete è un particolare tipo di grafo, nelle quali è possibile assegnare un valore differente a ogni

arco (un “peso”), che potrà essere utilizzato per generare valori di percorrenza diversi. Internet è un

grafo e lo stesso si può dire per l'insieme delle pagine Web; il sistema di ricerca di Google è

organizzato a partire da questo assunto.

Uno degli elementi fondamentali degli algoritmi sulle reti è il fattore tempo in relazione al numero

di nodi esaminati. Il tempo di completamento di un percorso (o di una ricerca) che collega un nodo

della rete a un altro dipende dal numero degli elementi della rete e varia sempre tra un valore

minimo e un valore massimo, che possono essere anche molto differenti tra loro, a seconda

dell'algoritmo che si utilizza per generare il percorso.

Nella rete delle pagine Web ogni pagina è un nodo del grafo complessivo e ogni link è un

lato/spigolo/arco. Se consideriamo la premessa sul fattore tempo, appare evidente che i risultati

proposti da Google come risultato di una qualsiasi interrogazione (tecnicamente, una query su

database) non si possono appoggiare su una consultazione di “tutto” il suo ipotetico Internet.

Lo spider di Google è perennemente impegnato nell'arduo compito di copiare Internet nella sua

base di dati; tuttavia, non è credibile che a ogni interrogazione il motore di ricerca sfogli

puntualmente tutto il suo database per trovare i risultati più congrui. Il fattore chiave che consente

di ottenere risultati quasi immediati dipende da un'oculata serie di limitazioni nella selezione

generale, cioè, concretamente, dall'applicazione di particolari filtri. Data un'interrogazione al

motore di ricerca, un filtro garantisce la velocità del risultato finale per mezzo di una serie di scarti

e scelte studiati appositamente per limitare l'intervallo (range) dei possibili blocchi di dati da

analizzare.

In questo modo Google può fornire risultati alle interrogazioni in tempi eccezionalmente rapidi.

Tuttavia, se la ricerca diventa rapida, contemporaneamente risulta poco trasparente, cioè non del

tutto coerente con i dati presenti complessivamente sulla porzione di rete indicizzata. In altre parole,

i risultati della ricerca saranno ottenuti velocemente non solo grazie alla potenza di calcolo

disponibile, ma anche e soprattutto perché i filtri permettono di ridurre il bacino di informazioni

dalle quali attingere.

Il compito di un filtro consiste nell'operare drastiche selezioni sui nodi della rete in modo da

escluderli (o valorizzarli) unitamente ad altri eventuali collegamenti associati. L'applicazione di

questi dispositivi ha l'obiettivo di escludere (o includere) interi blocchi tra i risultati complessivi.

Tutto questo è possibile mediante l'uso di banche dati di ricerche preconfezionate, per cui a

interrogazioni standard vengono fornite risposte standard, ma anche tramite la profilazione

dell'utente basata sulle sue ricerche precedenti, in base alla sua lingua, alla sua posizione geografica

ecc. In questo modo, un utente che compie abitualmente ricerche in italiano non interrogherà l'intera

banca dati di Google, ma solo la porzione in italiano, con un evidente risparmio di tempo.

Su quantità di dati elevate, è impensabile impiegare algoritmi trasparenti, cioè che vadano a

toccare tutti i nodi della rete; è necessario introdurre manipolazioni, semplificazioni o riduzioni

delle possibilità di analisi. Questo per ragioni tecniche, di computabilità matematica in senso stretto,

e anche, ovviamente, per motivi economici. Inoltre, senza peccare di ingiustificata malizia, in un

sistema basato su approssimazioni dettate da filtri si può facilmente concepire l'inserimento di filtri

ulteriori per aggiungere o spostare in posizioni visibili i risultati commerciali, a pagamento, oppure

di semplice propaganda.

Tuttavia bisogna osservare che dal punto di vista di Google i filtri aggiuntivi non sono legati

direttamente a un interesse economico, poiché non servono a vendere un prodotto, ma sono legati al

fruitore, alle sue abitudini e ai suoi interessi personali. Google infatti vende pubblicità, non prodotti

(o solo in minima parte, ad esempio i prodotti hardware come Google Mini e altri sistemi di

indicizzazione per aziende): il suo interesse principale è dunque ottenere dati aggregati in base a

parametri sui quali poter effettuare le campagne pubblicitarie con precisione. La personalizzazione

dei risultati in base al destinatario è possibile sulla base di informazioni che Google stesso fornisce

e che vengono raccolte nel modo meno invasivo possibile. Ad esempio, mailbox, blogs, hardisks

virtuali, e altri servizi simili rappresentano altrettante banche dati utili alla profilazione degli utenti

molto più di quanto si immagini.

I servizi “extra” messi a disposizione da Google, al di là del semplice motore di ricerca, sono

perciò utili all'azienda per sperimentare nuove vie, ma anche e soprattutto perché svolgono un

fondamentale ruolo di “accentratori di informazioni personali” degli utenti.

Un esempio eclatante sono state le mailbox di GMail, una sorta di hard disk virtuale presso

Google (al momento, oltre 2GB di spazio online, in costante crescita), offerte attraverso un sistema

di propagazione basato sul PageRank stesso. In breve, ogni nodo della rete di Google (utente) ha a

disposizione un peso (un certo numero di inviti) e può usarlo per offrire lo stesso servizio (link) ai

suoi conoscenti. Grazie a questo metodo ogni soggetto coinvolto viene controllato dal punto di vista

dell'uso del servizio; al contempo, mette a disposizione di Google informazioni essenziali sui propri

conoscenti e amici.

In un secondo tempo, il meccanismo si propaga alla rete delle persone invitate, che possono

effettuare nuovi inviti: in questo modo si va a creare un grafo delle relazioni umane tra gli utenti di

enorme valore strategico per la personalizzazione delle inserzioni pubblicitarie.

Se consideriamo tutte le informazioni che si posso estrapolare dall'invio di email (a chi, per quale

ragione, in che lingua, in che formati, con quali parole chiave, con quali allegati, ecc.), possiamo

immaginare che esista nella banca dati di Google, oltre a una copia forzatamente parziale ma

significativa di Internet, anche una copia parziale, ma altrettanto significativa, delle relazioni

umane, emotive, professionali dei fruitori del servizio.

In teoria i filtri servono semplicemente per rendere più rapida l'interrogazione e più rispondente

alle esigenze degli individui; sono anche assolutamente necessari da un punto di vista tecnico.

Tuttavia, il loro utilizzo dimostra come sia estremamente semplice per un soggetto di fatto egemone

nel campo dei servizi di ricerca sfruttarne le peculiarità per approfittare dei dati a sua disposizione

in senso commerciale e lesivo della privacy.

In breve: attualmente, la base di dati di Google, attraverso alcune parole chiave, è in grado di

ordinare i risultati di una ricerca (query) in maniera diversificata a seconda del tipo di utente che si

trova a servire, ovvero in base ai dati relativi a quell'utente che sono in suo possesso. Lungi

dall'essere risultati “oggettivi”, i risultati di ogni ricerca sono quindi calibrati; anzi, l'utilizzo dei

servizi di ricerca affina le capacità del sistema di “riconoscere” l'utente e servirgli risultati adeguati.

L'utilizzo di ogni servizio è subordinato all'accettazione di regolamenti e liberatorie da parte degli

utenti, e Google in ogni caso si impegna a non divulgare informazioni riservate e personali in

genere; è facile però pensare che Google possa commercializzare o sfruttare per i più diversi scopi i

dati dei propri utenti. Senza considerare per il momento l'opportunità (sarebbe meglio dire: la

certezza) che militari e forze di polizia di vario tipo possano richiedere e avere accesso a simili

informazioni per millantate ragioni di “sicurezza nazionale”. L'aggiunta di filtri di ricerca al fine di

personalizzare i risultati è in concreto lo scenario più semplice da immaginare.

I cookies di Google, biscotti che lasciano il segno

La profilazione degli utenti si basa sempre su un sistema di selezione e riconoscimento. Nella

87

rete di Internet distinguiamo fra metodi di profilazione esplicita e implicita. La profilazione esplicita

necessita di un’apposita procedura di registrazione, che implica l’invio tramite un modulo (form) di

dati personali da parte dell’utente. Le informazioni inviate, archiviate nella base dati, vengono

analizzate attraverso una serie di parametri utili a segmentare in gruppi omogenei la totalità degli

utenti registrati (età, sesso, professione, interessi, ecc.). La profilazione implicita viene invece

realizzata tramite il tracciamento di utenti anonimi nel corso delle loro visite a un sito, tramite

indirizzo IP oppure tramite cookies, ovvero biscotti. I cookies sono piccoli file di testo utilizzati dai

siti web per immagazzinare alcune informazioni nel computer dell'utente. Nel momento in cui il

fruitore ritorna su quei siti, il browser riconsegna le informazioni salvate nel “biscotto”. L'obiettivo

è automatizzare alcune operazioni di autenticazione (login), ricordare eventuali operazioni in corso,

ma soprattutto associare il visitatore a tutte le informazioni memorizzate nelle sue precedenti visite.

La maggior parte dei siti Internet che offrono servizi online utilizzano i cookies e Google non fa

assolutamente eccezione . Grazie alla combinazione di cookies e filtri aggiuntivi sugli algoritmi è

88

possibile tenere traccia della navigazione di una persona e accumulare informazioni sulla sua

“impronta”.

Facciamo un esempio: l'individuo X possiede un numero di telefono cellulare registrato a proprio

nome, con il quale chiama la propria famiglia, alcuni amici e i colleghi di lavoro. Dopo un certo

lasso di tempo decide di cancellare quel numero e di utilizzarne un altro non registrato a proprio

nome, ritenendo in questo modo di proteggere la propria privacy. Con il nuovo telefono ristabilisce

la sua cerchia di conoscenze, contattando la propria famiglia, alcuni amici e i colleghi di lavoro.

Quella sequenza di “collegamenti sociali” (famiglia, amici, colleghi), risulta essere una sequenza

unica tra tutte le telefonate del mondo, legata indissolubilmente al protagonista di questo esempio.

Non è impossibile formalizzare una simile sequenza con un grafo che rappresenta i nodi e gli archi

di una rete: i valori (i rispettivi “pesi” degli archi che collegano i nodi) potrebbero essere assegnati

associando alla “vicinanza” un proporzionale grado di “amicizia” con il punto di partenza

dell'analisi, cioè con il nostro ipotetico individuo X.

La rimozione dei cookies è quindi un'ottima pratica di difesa della privacy, ma un ragionamento

analogo all'esempio precedente può facilmente essere modulato sull'utilizzo dei motori di ricerca.

Tramite i cookies, cercando informazioni su alcuni specifici intervalli tematici, è infatti possibile

identificare gruppi di persone, se non direttamente individui in base alla loro impronta univoca

lasciata sulla rete.

La stessa traccia univoca che scandisce i nostri movimenti, i nostri contatti sociali (o telefonici), è

unica quanto le preferenze, i gusti, le idiosincrasie, le passioni che ci distinguono dagli altri. Le

nostre passioni sono, in questo caso, i siti che visitiamo, e soprattutto, le ricerche che effettuiamo

durante la nostra navigazione. Questa mole di informazioni che noi forniamo a un qualunque

motore di ricerca rende possibile la ricostruzione della nostra “impronta” .

89

Come ogni biscotto che si rispetti, anche quelli Internet hanno una data di scadenza. I siti Internet

che consegnano al nostro browser un cookie sono obbligati a impostare una data di scadenza,

ovvero una data dopo la quale il browser può procedere all'eliminazione dei dati contenuti nel

cookie stesso. Non è banale utilizzare al meglio i cookies; è certamente degno di nota il fatto che

Google abbia saputo sfruttare a suo vantaggio un artificio tecnico noto agli sviluppatori del mondo

POSIX (lo standard internazionale che permette l'interoperabilità dei sistemi operativi Unix e Unixlike,

che comprendono anche GNU/Linux). Infatti, la data di scadenza di Google è il 2038, ovvero

pressoché la data massima impostabile in un cookies e ciò comporta che il browser dei nostri

sistemi operativi non rimuoverà mai quel cookies e le informazioni in esso salvate .

90

Onanismo tecnologico: crea, ricerca e consuma i tuoi contenuti

È impossibile seguire le rapidissime evoluzioni e innovazioni “made in Google”: i rilasci di nuovi

servizi si susseguono in maniera quasi convulsa, e diventa molto difficile capire quali siano

realmente destinati ad avere un impatto nelle nostre vite e quali invece saranno dimenticati nel giro

di qualche mese o settimana. Del resto, è anche poco interessante e utile perdersi in elaborazioni

complicate, in tassonomie esaustive che inevitabilmente tralasciano eccezioni significative, se

consideriamo l'elevata depauperabilità delle informazioni e delle innovazioni su Internet. La natura

fluida e dinamica della rete scoraggia, se mai qualcuno ne sentisse ancora il bisogno, qualsiasi

approccio totalizzante e onnicomprensivo, che si rivela velleitario nel momento stesso della sua

farraginosa esposizione.

È tuttavia possibile abbozzare, da una prospettiva soggettiva e situata, una visione complessiva del

fenomeno Google, senza addentrarci nelle specifiche tecniche né tanto meno in pronostici futuribili

di scarsa attendibilità. È senz'altro rilevante l'estremizzazione della figura del “prosumer”,

attraverso l'accento posto sul concetto di personalizzazione.

Google è noto per l'abitudine consolidata a rilasciare versioni beta, non definitive e ancora in fase

di test, dei suoi servizi: questa dinamica, come abbiamo visto nel capitolo precedente, è

direttamente mutuata dalle comunità di sviluppo del Free Software. Gli utenti, fornendo feedback,

suggerimenti e impressioni d'uso, contribuiscono in maniera determinante all'affermazione o meno

di un nuovo servizio: sono al tempo stesso produttori e fruitori dei servizi che utilizzano, figure

ibride dette appunto prosumer .

91

Ponendosi come soggetto di mediazione globale dei contenuti del web, Google in sostanza vende

tecnologie e risultati di ricerca (mediante la pubblicità) agli utenti, che da un lato tendono a essere

creatori dei contenuti della rete, dall'altro i consumatori di quegli stessi contenuti attraverso i servizi

di Google, che hanno modellato fortemente in prima persona.

Due esempi, apparentemente slegati fra loro, possono chiarire questo ciclo chiuso di produzione e

consumo di contenuti: il Google Web Toolkit (GWT) e la convergenza fra GTalk e Nokia .

92 93

Google ha rilasciato nel maggio 2006 il Google Web Toolkit, un framework che permette di

sviluppare applicazioni AJAX attraverso il linguaggio Java. AJAX (Asynchronous JavaScript and

XML) è una tecnica per sviluppare applicazioni web interattive e dinamiche usando una

combinazione del classico HTML (o XHTML) con CSS per la parte visiva e JavaScript per

mostrare dinamicamente le informazioni e interagire con esse. Siti estremamente dinamici,

insomma, nei quali non è necessario attendere ogni volta il caricamento di tutte le informazioni

della pagina. Gmail, ad esempio, utilizza AJAX. La novità è significativa perché in questo modo

cambia l'approccio alla creazione delle applicazioni web, che vengono scritte in un linguaggio a

oggetti di alto livello, Java, poi compilate dal GWT e rese compatibili con tutti i browser. Tuttavia,

questa innovazione non giustifica l'annuncio in pompa magna dell'avvento di un fantomatico “web

2.0” che rivoluzionerà Internet rendendola adatta alle macchine. Infatti, tecnologie per la creazione

di software multipiattaforma, per la condivisione dei propri bookmark, il social networking,

l'aggregazione automatica dei dati, ecc. sono note da anni. Inoltre, l'ipocrisia di multinazionali come

SUN che millantano l'ingresso nell'Era della Partecipazione (Partecipation Age), da una parte

dimentica l'attitudine alla cooperazione in ambito informatico propria della cultura hacker da

decenni, dall'altra spaccia per una grande rivoluzione l'uso degli strati più elementari

(standardizzazione attraverso XML/RDF) delle innovazioni proposte da organismi come il W3C a

proposito del web semantico .

94

Di certo AJAX e tecnologie affini risolvono alla radice il problema molto comune della portabilità

dei siti web, che al momento sono difficilmente visualizzabili da tutti i browser. Il codice del

framework è disponibile sotto licenza Apache, ovvero sostanzialmente Open Source, ma, come

accade per le iniziative di code.google.com, alcune parti fondamentali (in questo caso, il

compilatore Java-to-JavaScript e l’hosted web browser) vengono distribuite solo in binario e

occorre sottoscrivere un’apposita licenza, che sostanzialmente vieta di ridistribuirli, di derivarne

ulteriori prodotti e di includerli in prodotti commerciali. Inoltre, ogni volta che si usa l’hosted web

browser, che permette di provare le applicazioni sulla propria macchina prima di pubblicarle su

internet, viene contattato un server di Google, ufficialmente per verificare che si stia usando la

versione più aggiornata del prodotto. È evidente però che si tratta di un metodo di controllo

estremamente efficace, applicato agli sviluppatori invece che agli utenti. Certo, il codice prodotto è

distribuibile liberamente, anche con scopi commerciali.

GWT è in pratica uno strumento semplice per creare siti perfettamente compatibili con i sistemi di

indicizzazione di Google. Al momento, è necessario conoscere un linguaggio non banale come

Java, ma non è avveniristico immaginare lo sviluppo di strumenti che permettano anche a un utente

alle prime armi di posizionare sulla propria pagina web oggetti come barre degli strumenti, gallerie

di immagini, menù di vario tipo e ogni sorta di oggetti web senza scrivere una riga di codice.

Naturalmente esistono già programmi estremamente semplici per creare siti web (WYSIWYG,

What You See Is What You Get); ma GWT è via web. Questi contenuti sarebbero quindi

immediatamente pronti per essere fruiti su dispositivi fissi o mobili di qualsiasi tipo, purché siano in

grado di accedere al web.

Immaginiamo ora che Google stringa accordi commerciali per la costruzione di hardware su

misura, offrendo a chiunque usa i suoi servizi strumenti semplici per costruire pagine web

visualizzabili su PC, palmari, ecc. e indicizzate nella maniera più semplice possibile dai suoi spider.

Google infatti non fornisce programmi dietro pagamento di licenza, come Microsoft: ha bisogno,

come sappiamo, di diffondere i propri standard per poter gestire più facilmente la sua economia di

ricerca.

Ed ecco GTalk e Nokia. GoogleTalk è il servizio VoIP di Google, integrato da poco nella casella

95

di posta GMail, in modo che gli appartenenti alla “Google community” possano non solo mandarsi

mail, ma anche chattare e parlare in tempo reale. A partire da fine maggio 2006 è disponibile sui

nuovi dispositivi mobili di Nokia, chiamati “internet tablet”, sorta di cellulari evoluti pensati per

navigare sul web. In questo modo Google entra dalla porta principale nel mondo della telefonia

mobile, con la prospettiva di integrarsi ben presto con le reti senza fili pubbliche (wireless o wimax)

che cominciano a essere installate in diverse città, aeroporti, aree di servizio sulle autostrade,

ecc. Una prospettiva di convergenza sul video è altrettanto plausibile: video.google.com è una

miniera di video, e la televisione sui cellulari è il prossimo passo.

In altre parole, Google fornisce gli strumenti per creare contenuti secondo i suoi standard. Questa

è la personalizzazione estrema, l'equivalente del meccanismo “code lunghe” (che permette di

fornire esattamente il prodotto personalizzato per ogni consumatore) nel campo della creazione di

contenuti web: l'utente crea “esattamente” quello che vuole nel formato standard di Google. La

decentralizzazione totale a livello di creazione di contenuti è parallela alla decentralizzazione totale

della pubblicità, e quindi della fornitura di prodotti “personalizzati”.

Un sistema pervasivo per imporre uno standard, ma formalmente “democratico” perché nelle mani

degli utenti, a portata di click, a portata di browser. Quella che viene spacciata per democrazia

elettronica si trasforma in una standardizzazione che consente di digerire i contenuti creati da una

miriade di utenti e associare ad essi la pubblicità più adatta.

Browser come ambienti di sviluppo

L'esplosione di nuovi e sempre più potenti servizi web a partire dal 2005 sta trasformando il

browser da strumento di semplice navigazione a strumento di sviluppo. Un ampio ventaglio di

tecnologie stravolge gli standard di programmazione web correnti, offrendo agli sviluppatori uno

strumento facile, multipiattaforma, completo e affidabile: il browser, appunto.

Negli ultimi anni si è lentamente modellato un nuovo stile nella creazione di siti internet, anche

grazie alle maggiori attenzioni verso la portabilità e l'accessibilità dei contenuti: ne sono un chiaro

indizio la diffusione dei fogli di stile (Cascading Style Sheet, standard CSS e CSS2) invece

dell'HTML nudo e crudo, dei validatori, dello stesso standard XML. Grafici e web designer trovano

nei browser sempre più sofisticati e rispettosi dei vari standard ottimi alleati, riuscendo a realizzare

siti conformi alle norme per la visualizzazione sui dispositivi più disparati e contemporaneamente a

mantenere, e anzi ampliare, la propria libertà d'espressione.

In particolare, la nascita di browser come Mozilla Firefox e la loro rapida diffusione ha consentito

una forte interazione fra gli sviluppatori di siti internet e gli sviluppatori di questo browser,

giungendo in breve tempo a sanare quasi tutti i bug e le incompatibilità sugli standard web.

L'incompatibilità fra Internet Explorer, Opera, e molti altri browser proprietari e non, è un problema

noto a chiunque abbia creato pagine web. La sinergia sviluppata da Mozilla, apparentemente

semplice e forse ovvia, costituisce una novità assoluta nella storia dei browser. Un'altra

caratteristica interessante dei prodotti Mozilla è la struttura modulare sviluppata intorno al motore

di rendering Gecko, che consente l'aggiunta di qualsiasi funzionalità immaginabile: tra i più noti e

diffusi, strumenti per eliminare la pubblicità dalle pagine web, per avere sempre sott'occhio le

previsioni del tempo o l'andamento della borsa.

I browser sono insomma strumenti sempre più affidabili, permettono la creazione di siti internet

complessi e assumono le caratteristiche di veri e propri programmi: tendono addirittura a sostituire

gli applicativi di uso comune. L'esempio lampante sono i vari strumenti per ufficio proposti da

Google come alternativa web alla suite di produttività Microsoft Office e anche a Openoffice . Al

96

momento, è possibile utilizzare Writely (prodotto da una società acquisita) come elaboratore di

testi, Google Spreadsheets come foglio elettronico, Google Page Creator per creare pagine web

velocemente. Tutti i servizi sono in fase di betatesting a invito: è necessario avere un account

Google per utilizzarli, ovviamente sotto stretto controllo.

Gli sviluppatori, da parte loro, spostano il loro interesse sempre più verso il web, anche grazie

all'utilizzo di strumenti come GWT. Naturalmente Microsoft non sta a guardare e ha già pronta la

versione beta (allineandosi alla strategia di “betatesting diffuso” di Google, derivata come sappiamo

dalle pratiche del Free Software) di Office System (ovvero Office 2007), che prevede

un'integrazione sempre più spinta con gli strumenti web, pur rimanendo un applicativo da installare.

I browser si stanno dunque trasformando in ambienti di sviluppo completi per la creazione di

contenuti standard, ovvero SDK (Standard Development Kit). Dove sta realmente l'innovazione che

ha reso possibile trasformare i browser in SDK? Sicuramente, possiamo parlare di un nuovo

paradigma della programmazione: si possono ora creare programmi realmente multipiattaforma,

distribuiti, lato client, residenti sui server, facilmente aggiornabili, e senza bisogno di complessi

framework da installare sui computer degli utenti. I contenuti, compresi i dati personali degli utenti,

sono sempre più stoccati su macchine remote (ad esempio i server di Google), a cui si accede via


PAGINE

38

PESO

194.70 KB

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea in scienze della comunicazione
SSD:
A.A.: 2013-2014

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher cecilialll di informazioni apprese con la frequenza delle lezioni di Teoria e tecnica dei nuovi media e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Salento - Unisalento o del prof Formenti Carlo.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Teoria e tecnica dei nuovi media

Coda lunga
Appunto
Nozioni sulle reti
Appunto
Influenze del copyright
Appunto
Informazione e autonomia
Appunto