vuoi
o PayPal
tutte le volte che vuoi
HTML -linguaggio
HTTP – protocollo
HTTP: -permette di trasferire le informazioni da un computer remoto fino al nostro computer
-viene utilizzato ogni volta che un utente richiede tramite il suo browser una pagina a un
server
-HTTP 1.0 è un protocollo stateless: non ha memoria delle pagine precedenti
-per ovviare usa i cookies: informazioni che il server chiede al client di registrare per poterle
recuperare in un secondo momento
-i cookie pongono problemi di privacy
-HTTP 1.1 usa sessioni che contengono più oggetti
standard URI: -permette di identificare in modo univoco una risorsa sul web
-si classifica in URL quando la risorsa viene identificata con una locazione
in URN quando viene identificata con un nome
peer-to-peer (P2P): -è un modello paritario di distribuzione del carico di lavoro o della
comunicazione
Posta elettronica: -i componenti che permettono l'invio della posta elettronica sono tre:
user agents, mail server, protocollo SMTP (Simple mail transfer protocol)
-user agent: permette all'utente di editare, inviare, ricevere posta elettronica
-per leggere la posta l'utente può sfruttare due protocolli:
POP3: prevede il trasferimento della posta dal proprio server di posta al
proprio computer
IMAP: permette di gestire la posta elettronica lasciandola sul mail server
3 – Rappresentazione dei dati nel web
I linguaggi di marcatura nascono con l'obiettivo di aggiungere al testo meta-informazioni leggibili
da un essere umano
XML: -linguaggio di marcatura più diffuso, perché facile da essere letto e scritto da un essere
umano oltre che dalle macchine
tag: -è un marcatore utilizzato in un linguaggio di marcatura per fornire una meta-informazione
al testo
-una descrizione XML ha essenzialmente una struttura ad albero
-un albero può essere rappresentato come un grafo
-un grafo si dice connesso se fra due suoi nodi qualsiasi vi è sempre un cammino che li connette
-ogni nodo corrisponde ad una decisione tra due opzioni
(visita in ampiezza, visita in profondità)
DTD e XML Schema: -sono due linguaggi per definire una grammatica per un linguaggio di
marcatura
Attributi: -coppie nome-valore, dove il nome indica il nome dell'attributo, il valore ciò che gli è
associato
Namespace XML: -sono una sorta di dizionario di marcatori e attributi
Le entity: -servono per rappresentare caratteri speciali nei documenti XML
4 – Pagine web, usabilità e accessibilità
HTML: -è un linguaggio di marcatura standard per descrivere le pagine web
-tutta l'informazione della pagina web è contenuta nel tag <html> che a sua volta è
strutturato in un <head> e un <body>
-l'head contiene l'intestazione della pagina e le keywords che verranno usate dai
motori di ricerca
marcatori metatestuali: <html>, <head>, <body>
marcatori strutturali: <h1>titolo, <h2> sottotitolo, <p> paragrafo
fra questi vi sono quelli che regolano l'aspetto grafico
marcatori per la creazione di ipertesto e multimedialità
marcatori per la creazione di pagine interattive
HTML e XHTML sono ambedue linguaggi nati per scrivere pagine web
-una pagina XHTML è una pagina XML ben formata
-i documenti XHTML, diversamente da quelli XML, devono contenere un solo nodo radice
-il più diffuso resta ancora HTML
CSS (Cascading Style Sheets): è un linguaggio per descrivere lo stile di presentazione dei
documenti
Linguaggio di programmazione: -linguaggio per descrivere programmi
Server e client: -i server hanno il compito di gestire tutti i client che fanno richiesta di un
servizio, mentre il client interagisce direttamente con un solo utente
Linguaggi per il server
Linguaggi per il browser: -hanno come caratteristica principale quella di descrivere l'interazione
locale con l'utente
Ajax: -modello ibrido
-le informazioni sono caricate dal browser dinamicamente a seguito di una richiesta
effettuata a un server
Accessibilità: facilità con cui un utente qualunque può fruire del sito
-è determinata anche in relazione alla qualità del sito una volta ridotto a forma
lineare
-programma per linearizzare: lynx
Usabilità: misura della bontà dell'esperienza degli utenti
Legge di Fitts: -durante la progettazione dell'interfaccia bisogna tener conto della legge di
Fitts: l'equazione indica quanto è facile puntare un obiettivo
Regole di Krug: -non farmi pensare
-sintesi estrema
-ogni click deve essere una scelta non ambigua che non richiede impegno
Regola della piramide rovesciata: -le conclusioni devono essere enunciate all'inizio del testo,
perché in genere la parte iniziale del testo ha una probabilità
maggiore di essere letta rispetto al testo
Ogni sito web può avere struttura lineare o a grafo
5 – Informal Retrieval e Motori di ricerca
motori di ricerca: -sono un'interfaccia verso il mare di informazione del web
-hanno un notevole controllo sul flusso dell'informazione
-per decidere il valore di una pagina usano anche la struttura di riferimento fra
pagine
Information retrieval: -consiste nell'insieme delle tecniche usate per il recupero dell'informazione
web crawler: -sono degli agenti software che esplorano in modo automatico il web alla ricerca di
nuove pagine oppure aggiornano le informazioni relative alle pagine già trovate in
passato
-mantengono una lista delle pagine visitate per evitare di visitare con troppa
frequenza le stesse pagine
-il protocollo di crawling che di fatto è lo standard è robot esclusion protocol
-dei protocolli di crawling beneficiano sia i crawler che i siti web: i crawler
ottengono le risposte alle loro richieste e i siti guadagnano visibilità offerta dai
motori di ricerca
-il protocollo tra siti e crawler chiamato sitemaps fornisce una mappa delle pagine
del sito da usare durante la fase esplorativa
distribuzione di Zipf: -descrive la distribuzione dell'occorrenza delle parole
-approssimativamente la seconda parola più usata ha un'occorrenza che è
metà della prima, la terza un terzo della prima
-generalmente l'80% di un documento è composto solo dal 20% di parole
diverse
-il prodotto fra la frequenza e la posizione di una parola è costante e quindi
corrisponde ad una iperbole
-il calcolo della frequenza di occorrenza indica ai motori di ricerca quanto ogni parola è importante
-i termini che servono a discriminare il contenuto si trovano di solito nelle frequenze intermedie
Linguaggio di interrogazione: sono linguaggi informatici realizzati per effettuare richieste
d'informazione in un archivio di dati come i database
Distanza di Hamming: -si definisce solo per parole con stesso numero di lettere
-corrisponde al numero di parole diverse
Distanza di Levehstein: -serve a misurare le differenze tra due sequenze di caratteri anche di
lunghezza diversa
Accuratezza dei risultati: recupero: proporzione fra pg pertinenti trovate e pg totali trovate
precisione: proporzione fra pg pertinenti e pg trovate
silenzio: proporzione fra pg pertinenti non trovate e pg trovate
rumore: percentuale di pagine trovate ma non pertinenti
Rilevanza dei risultati: -Google PageRank: algoritmo basato sulla struttura dei collegamenti
fra pagine
I motori di ricerca non sono mai perfettamente aggiornati in tempo reale perché sarebbe impossibile
6 - Web 2.0 e oltre
PDP (peer-to-peer): -modello paritario
-queste architetture permettono la distribuzione di dati e calcoli tra i
partecipanti al sistema, detti nodi o peer
-le più note reti p2p sono quelle che servono a condividere file come quelle
basate su Gnutella, eMule, o Bitorrent, Skype
prosumer: -termine che indica l'utente con entrambi i ruoli di consumatore e produttore
web citizen journalists
user generated content
applicazione web: -programma software accessibile tramite browser
architettura del web 2.0: -passaggio da agente stateless a stateful: i browser ora fanno uso di
sessioni
-i browser si sono aperti all'arricchimento delle loro funzionalità
tramite meccanismi di plug-in (ex. Social browsing)
social web: -spesso si usa per riferirsi ai social network
-idea dell'identità digitale unica: digital self – pone il problema della privacy
web collaborativo: -indica le iniziative, i progetti e le altre attività cooperative create utilizzando
gli strumenti del web
-wiki: contenuti scritti da una molteplicità di autori
web semantico: -permette alle macchine di elaborare l'informazione, vedendo i dati non solo
come un insieme di simboli, privi di significato, ma di idee e concetti fra loro
collegati
tecniche per estrarre l'informazione da una pagina web: -analisi dei motori di ricerca
-tecniche di analisi della linguistica
computazionale
web services: sono il punto di arrivo della computazione orientata ai servizi
web 3.0: sarà caratterizzato da: web semantico, 3D, geospazio, identità digitale
7 - Blog
-il web di una volta era per lo più costituito da siti aziendali, che in molti casi erano versioni
elettroniche dei media tradizionali come giornali o riviste
blog: -strumenti di self-publishing
-da web log “registro in rete”
-oggi i blog, poiché molto versatili, sono diventati CMS (Content Management System)
-se si utilizza un servizio di hosting il dominio del sito in genere non appartiene all'autore: i
blog gratuiti di wordpress rimangono tutti sotto il dominio di wordpress.com, quelli su
Blogger rimangono sotto blogger.com
-se si possiede il pacchetto software il blog risiede sui propri server, di solito si usa a scopo
professionale, si ha totale libertà di personalizzazione
-blog collettivi
-video blog: YouTube
-foto-blog: Flickr
-microblog: Twitter
-articoli o post sono i contenuti principali dei blog, pubblicati in ordine temporale (origine di
diario)
-l'indirizzo di ogni post (permalink) rimane costante nel tempo per non invalidare le
citazioni tramite link
-le pagine dei blog hanno la struttura dei siti ordinari, ma il numero delle pagine è spesso
ridotto, hanno il compito di dare informazioni sul blog stesso, vengono create al momento
della creazione del blog e raramente modificate
-la struttura delle pagine è gerarchica
tag cloud: -mostrano i tag di un blog enfatizzando la loro popolarità
-tag e categorie hanno uno scopo simile: associare dei concetti ai post, questo porta
spesso ad una certa confusione; le categorie tendono a essere poche e molto generali,
mentre i tag sono molti e più specifici; le categorie hanno struttura gerarchica, i tag
non hanno struttura; la tendenza è quella di usare solamente uno di questi
meccanismi
Messa