vuoi
o PayPal
tutte le volte che vuoi
Informatica: Internet
Matematica: gli algoritmi
Internet: da Arpanet al Page Rank 5°C Marcolin Lorenzo
3.1 Guerra Fredda e nascita dell’ARPA
Il 4 ottobre 1957 l’URSS manda in orbita lo Sputnik (Fig. 3.1.1), ricordato come il
primo satellite artificiale della storia, a testimoniare l’incredibile progresso
tecnologico di questa nazione. Siamo in piena Guerra Fredda e questa Figura 3.1.1 - Sputnik
operazione dell’Unione Sovietica venne ritenuta un’offesa inammissibile da parte
degli Stati Uniti. L’anno successivo organizzarono pertanto una contromossa che
prese avvio dalla fondazione dell’ARPA (Advanced Research Projects Agency) da parte del Dipartimento
della Difesa, un’agenzia che operò con l’obbiettivo di ampliare e sviluppare la ricerca.
3.2 ARPANET
Le varie sedi, dislocate sul territorio americano, possedevano potenti computer
in grado di catalogare le informazioni raccolte ed elaborare dati. Tuttavia
questi computer non potevano comunicare tra loro a causa dei diversi formati
di archiviazione che utilizzavano, poiché provenivano da diversi produttori. Così
vennero stanziati dei fondi destinati a supportare le ricerche per ARPANET
(1969). Figura 3.3.1 – Figura 3.3.2-
3.3 Packet Switching (Paul Baran) Rete distribuita Rete centralizzata
Questo progetto prevedeva la creazione di una rete che facilitasse la condivisione dei dati ottenuti durante
le ricerche. A questo scopo venne utilizzata la tecnologia della “commutazione di pacchetto” (packet
switching) studiata da Paul Baran, un dipendente della Rand Corporation, centro della costa occidentale
legato alla ricerca militare e aerospaziale. Il suo intento fu quello di ideare una rete invulnerabile ad
attacchi esterni poiché durante la Guerra Fredda si temevano i
bombardamenti nucleari. Progettò quindi una rete distribuita (Fig. 3.3.1)
i cui computer non facciano capo ad un unico nodo centrale (Fig. 3.3.2),
ma siano indipendenti e in grado di generare, far passare e ricevere dati.
Il packet switching prevede infine la condivisione delle informazioni
attraverso la divisione in vari pacchetti, inviati separatamente e
successivamente riuniti una volta raggiunta la destinazione. Ogni
computer in una rete distribuita riceve pacchetti e in base alla
destinazione li rinvia. Un metodo geniale che permette l’invulnerabilità
nucleare, poiché per interrompere la condivisione di informazioni
sarebbe necessario distruggere tutti i computer.
Questa sorprendente tecnologia assieme all’utilizzo di un IMP (Interface
Messange Processor), un computer dedicato alla gestione del traffico
dati, fu quindi impiegata nella realizzazione di ARPANET nel 1969, anno Figura 3.3.3 –
in cui venne inaugurato il primo nodo. Il professor Kleinrock dall’ Il professor Kleinrock
di fronte al primo IMP
Università della California di Los Angeles (UCLA) si mise in collegamento
con l’Università di Stanford, inviando poche lettere dell’alfabeto (Fig. 3.3.3). In seguito furono collegate
altre università quali quelle di Santa Barbara e dello Utah (Fig. 3.3.4). I quattro nodi furono messi in
3
Internet: da Arpanet al Page Rank 5°C Marcolin Lorenzo
comunicazione con circuiti a 50 Kbps. Una velocità di trasferimento assai bassa se pensiamo che alcuni
collegamenti odierni permettono lo scambio di file a 20 Mbps e oltre.
3.4 Protocollo TCP/IP
Altri due nomi che hanno segnato la storia di Internet sono Robert
Kahn e Vinton Cerf responsabili della definizione della struttura vera e
propria di Internet. Diedero vita al progetto di realizzare una
cooperazione tra le reti in grado di mettere in comunicazione reti
diverse basate su pacchetti diversi e computer diversi. Andando così a
risolvere definitivamente il problema di compatibilità che aveva
innescato la creazione di ARPANET. Per far ciò fecero uso di un
protocollo per lo scambio dei file: il TCP/IP (Transmission Control
Protocol/Internet Protocol), del quale furono realizzate ben quattro
versioni durante gli anni ’70. Esso si articola in 2 sotto protocolli il TCP
e l’IP appunto. Il primo svolge una funzione puramente logistica sui
file. Si occupa infatti dell’organizzazione dei dati e del controllo nella
trasmissione, li scompone quindi nei vari pacchetti e li ricompone Figura 3.3.4 –
Schema di ARPANET nel 1969
quando giungono a destinazione. Il secondo invece si occupa della
vera e propria trasmissione dei pacchetti, gestisce il traffico tra i computer nella rete scegliendo la strada
migliore. Insomma la rete è un groviglio di strade in cui il traffico è gestito dall’IP e negli edifici da cui
partono e giungono dati è al lavoro il TCP. Infine ogni computer collegato in Rete è identificato da un solo
indirizzo numerico composto da 4 campi separati tra loro da un punto; ogni campo può assumere un valore
da 0 a 255. Questo identificativo ha la stessa funzione di un indirizzo, il primo campo indica la sottorete a
cui il computer appartiene, mentre gli altri individuano i computer secondari fino ad arrivare al singolo
computer. Il TCP/IP è il protocollo su cui opera Internet anche ai giorni nostri.
3.5 Da ARPANET ai giorni nostri.
In seguito negli anni ’80 ARPANET continuò l’aggiunta di nuovi nodi persino oltre oceano (Inghilterra e
Norvegia furono le prime due nazioni collegate ad ARPANET). Tuttavia nel 1990 la rete che diede i natali a
Internet divenne obsoleta e cominciarono ad apparire i primi service provider: società che privatizzarono la
rete offrendo un accesso previo un contributo. Alcune di queste società esistono tuttora e continuano a
distribuire l’accesso alla rete e ai relativi servizi.
3.6 World Wide Web (WWW)
Il vero anno di svolta nella storia di
Internet tuttavia fu il 1991 quando
Tim Berners Lee del Cern di Ginevra
sviluppò un sistema che desse
modo di consultare le informazioni
condivise nella rete in modo più
semplice ed intuitivo: il World Wide
Web. Come già accaduto in
precedenza egli definì un nuovo
protocollo: HTTP (HyperText Figura 3.6.1 – Prima pagina del Web visualizzata da un browser (in blu i link)
Transfer Protocol), un sistema che 4
Internet: da Arpanet al Page Rank 5°C Marcolin Lorenzo
permette la lettura di un documento, con la possibilità di saltare da un punto all’altro, utilizzando una serie
di collegamenti (link o meglio ancora hyperlink). (Fig. 3.6.1) In seguito vennero realizzati software in grado
di interpretare il codice HTML, con cui vengono scritti i nuovi documenti o più propriamente siti internet,
per far interagire l’utente con le informazioni in essa esposte (Fig. 3.6.2). Il primo browser (il programma
appena descritto) fu Mosaic e venne realizzato nel 1993. (Fig. 3.6.3)
Figura 3.6.2 – Parte della Prima pagina del Web in codice HTML
Figura 3.6.3 - Mosaic 5
Internet: da Arpanet al Page Rank 5°C Marcolin Lorenzo
4.1 Definizione di algoritmo
Con il termine algoritmo in informatica e in matematica ci si riferisce ad una serie di passaggi, eseguiti in un
determinato ordine e di numero finito, che portano ad un risultato, ad una risoluzione di un problema.
Il primo matematico che fece riferimento a questo concetto fu Muhammad ibn Mūsa 'l-Khwārizmī, che
pubblicò Libro sulla ricomposizione e riduzione, dal quale prende origine pure la parola algebra. Da questa
definizione si evincono le 4 proprietà che un algoritmo deve avere per essere tale:
1. Finitezza: la sequenza di istruzioni deve essere finita;
2. Effettività: essa deve portare ad un risultato;
3. Realizzabilità: le istruzioni devono essere eseguibili materialmente;
4. Non ambiguità: le istruzioni devono essere espresse in modo non ambiguo.
Il compito di un algoritmo è per
tanto quello di ricevere certi dati
(input) e di generare un valore
(output o soluzione) (Fig. 4.1.1).
Sono quindi procedimenti
deterministici che consentono di Figura 4.1.1 – Schema dei dati connessi ad un algoritmo
risolvere dei problemi senza far uso
di fantasia o creatività. Per eseguire un algoritmo basta applicare le istruzioni passo dopo passo, prestando
attenzione solamente a non commettere sviste. Infine è facile comprendere come una volta determinati i
dati di input si debbano ottenere risultati sempre uguali per quegli stessi input.
4.2 Page Rank
Esistono diversi tipi di algoritmo, tra questi ve n’è una
branca dedicata all’analisi del materiale in rete. Il più
famoso è sicuramente il Page Rank che assegna ad ogni
elemento di un collegamento ipertestuale (link) all’interno
di un sito internet, un peso numerico. L’obbiettivo è quindi
comporre una classificazione sulla base del numero di
collegamenti e rimandi di un sito internet in un altro. Il peso
numerico degli elementi E viene chiamato appunto Page
Rank di E, abbreviato PK (E).
Questo algoritmo fu inventato da Larry Page e Sergey Brin, fondatori di Google, e brevettato nel 2001.
Quindi divenne in seguito marchio registrato da Google. 6
Internet: da Arpanet al Page Rank 5°C Marcolin Lorenzo
La fama di Page Rank è strettamente connessa al motore di ricerca più utilizzato al mondo. Sta, infatti, alla
base del successo di Google poiché, applicato alla pagine del World Wilde Web, le ordina in base alla loro
popolarità, riproducendo lo stesso concetto di popolarità che esiste nei rapporti umani. E’ proprio il Page
Rank lo strumento grazie al quale eseguire una ricerca su Google è così facile e veloce. Il suo compito è
quello di proporci per primi i siti che possiedono un peso numerico maggiore e ai quali esistono più
collegamenti ipertestuali. In poche parole se cercando Wikipedia su Google, il primo risultato è proprio
l’enciclopedia libera, ciò vuol dire che questo sito ha il peso numerico maggiore, poiché nel web esistono
miliardi di collegamenti ipertestuali che rimandano all’enciclopedia. Fortunatamente l’algoritmo tiene
conto anche della pertinenza del contenuto di una pagina, nonché delle pagine ad essa correlate.
Moltoi sono quindi i fattori di cui tiene conto questo potente algoritmo, perciò la sua formula è parecchio
complessa. Quella riportata di seguito è pertanto semplificata:
Dove: PR[A]: valore di Page Rank della pagina di cui vogliamo sapere il peso numerico;
n: numero di pagine che contengono almeno un link verso A;
P : ogni pagina che contiene almeno un link verso A;
k
PR[P ]: valore di Page Rank di ogni pagine P ;
k k
C[P ]: numero complessivo di link contenuti nella pagina P ;
k k
d (damping factor): fattore deciso da Google e che nella documentazione originale assume valore
0,85. Può essere aggiustato da Google per decidere la percentuale di PageRank che deve transitare
da una pagina all'altra e il valore di PageRank minimo attribuito ad ogni pagina in archivio. 7
Internet: da Arpanet al Page Rank 5°C Marcolin Lorenzo
Dicevano: Internet distrugge i giornali, ci fa perdere posti di lavoro, porta la ricchezza creata
“
fuori dall’Italia. E persino: inquina le menti dei nostri figli. Orrore! Sulla ricetta concordavano:
gli faremo la guerra, a questi della Rete, gli faremo la guerra se non scenderanno a patti con
noi. Non uno che dicesse che forse in questi anni abbiamo fatto dei brutti giornali e dei pessimi
telegiornali dove è diventato quasi impossibile capire di che si sta parlando, anzi, di che si sta
litigando. Non uno che ammettesse che da una vita abbiamo drogato le vendite in edicola
allegando libri e cassette, giocattoli e profumi, tutto piuttosto che una idea nuova. Non uno
che ricordasse che quando è arrivato il Web i giornalisti scappavano per non lavorare ai siti di
news.
Non uno, lì, che avesse capito che Internet può piuttosto salvare il buon giornalismo perché
compie una azione fondamentale, l’unica di cui ha davvero bisogno; rimettere al centro di
tutto non la pubblicità o il potere, che purtroppo ci tengono al guinzaglio, ma coloro che
avrebbero dovuto sempre starci. I lettori. O meglio, i cittadini . „
Questo brano è tratto dall’articolo di fondo edito da Riccardo Luna, direttore di Wired, mensile che
racconta “Storie, idee e persone che cambiano il mondo” (una loro definizione). Egli immagina di
partecipare ad una riunione assieme ai personaggi più importanti dell’informazione, altri direttori e