Estratto del documento

Lezione 1: documenti digitali

Definizione di documento e informazione

Documento: qualunque fonte di informazione registrata o conservata su un supporto materiale utilizzabile per molteplici scopi.

Informazione: riduzione di incertezza in relazione a un certo evento o a una scelta da effettuare.

Documento digitale (elettronico)

È concettualmente molto simile a un documento tradizionale, ma:

  • L'informazione è numerica
  • Il supporto è elettronico (es. CD, DVD, hard disk ecc.)
  • Deve essere memorizzato in un determinato formato

Formati di documenti elettronici

Il formato di un documento elettronico:

  • Indica in che modo memorizzare le informazioni
  • Consente di interpretarle e visualizzarle in modo corretto
  • Deve obbligatoriamente essere specificato

Tipi di formati:

  • Proprietari: qualsiasi formato di file di cui non siano liberamente fruibili le specifiche tecniche complete, in opposto al concetto di formato aperto. Possono essere associati ai file solo usando appositi software. Esempio: il file "esempio.docx" (formato DOCX) può essere creato solo con il software di videoscrittura Microsoft Word 2007.
  • Open source (aperti)

Ogni tipo di documento può essere salvato in uno o più formati:

  • Formati per documenti testuali:
    • TXT (.txt): contiene solo caratteri di scrittura semplice
    • DOC/DOCX (.doc/.docx): formato proprietario di Microsoft, per file di testo prodotti con Word
    • ODT (.odt): formato open source, per file di testo prodotti con OpenOffice Writer
    • RTF (.rtf): formato proprietario multipiattaforma, per file di testo prodotti con vari software di videoscrittura
  • Formati per immagini:
    • Immagini raster:
      • Comprimere in modo lossless:
        • TIFF: formato per comprimere in modo lossless immagini raster
        • PNG: formato aperto, per comprimere in modo lossless immagini raster
        • GIF: formato per comprimere in modo lossless immagini raster, anche animate
      • Comprimere in modo lossy:
        • JPEG: formato aperto, per comprimere in modo lossy immagini raster
    • Immagini vettoriali:
      • EPS: formato per immagini vettoriali
      • SVG: formato per immagini vettoriali

Identificazione del documento elettronico

Ogni documento elettronico è identificato da:

  • Un nome arbitrario scelto dall'utente.
  • Un'estensione: una serie di lettere unite al nome da un punto.

Rappresentazione binaria

Il sistema binario consente di rappresentare i numeri utilizzando i soli simboli: 0 e 1; ciascuno di questi due simboli corrisponde a un bit.

Bit (binary digit, ovvero cifra digitale):

  • È la più piccola quantità di informazione che un calcolatore può elaborare
  • Può assumere uno fra due stati (o valori): 0 o 1; assegnare uno di questi due stati a un bit equivale a scegliere una fra due alternative equiprobabili in merito a un certo evento.

Insiemi di bit

  • Byte (= 8 bit)
  • Kilobyte (= 1024 byte)

Libro cartaceo e digitale (E-book)

Libro cartaceo: Pubblicazione non periodica diffusa al pubblico, legata alla distribuzione tramite canali commerciali. Pubblicazione a stampa, il cui progetto corrisponde esattamente a ciò che l'utente potrà leggere.

Libro digitale (E-book): È un testo elettronico che:

  • Dal punto di vista della forma testuale si riallaccia all'eredità della cultura del libro (un testo strutturato, ragionevolmente esteso, compiuto, opportunamente codificato e di norma accompagnato da un insieme di metadati descrittivi, organizzato per una lettura almeno parzialmente lineare attraverso un'interfaccia paginata)
  • Dal punto di vista della fruizione può essere utilizzato attraverso dispositivi di lettura – siano essi dedicati o multifunzionali – e interfacce software capaci di permettere una lettura agevole di tali contenuti.

È un file elettronico in uno specifico formato, la cui visualizzazione dipende dal dispositivo elettronico usato; formati e dispositivi influenzano come l'utente vedrà il libro:

  • Ogni formato stabilisce come i contenuti devono essere visualizzati in modo diverso dagli altri;
  • Ogni dispositivo è diverso da tutti gli altri (es. dimensioni, schermo, formati supportati ecc.).

Affinché il progetto dell'e-book corrisponda esattamente a ciò che ogni utente vedrà sul suo dispositivo ci sono 3 soluzioni:

  • Formati con vincoli: la visualizzazione dell'e-book non dipende dal dispositivo usato (il formato con vincoli per eccellenza è il PDF)
  • Dispositivi simili: contraddistinti da caratteristiche tecniche simili (tutti gli iPad e Kindle hanno caratteristiche simili)
  • Formati standard: tecnologie compatibili e fra loro interoperabili (standard: insieme di norme da rispettare per creare tecnologie compatibili e fra loro interoperabili) (formati standard si adattano a tutto)

Queste soluzioni però in molti casi non sono sufficienti perché:

  • La condivisione degli standard è ancora poco diffusa
  • Si ha una molteplicità di formati che non sempre sono compatibili con ogni dispositivo di lettura

Ci sono così tanti formati diversi perché ognuno di essi ha vantaggi e svantaggi;

  • I formati spesso sono incompatibili con ogni dispositivo di lettura:
    • Per legare l'e-book all'uso di un software specifico per motivazioni commerciali: gli ebook che compriamo su Amazon li possiamo leggere solo sui dispositivi Kindle (perché sono anch'essi venduti da Amazon)
    • Scelta non voluta: un formato può subire delle modifiche nel tempo che lo renderanno incompatibile con i dispositivi

Lezione 2: codifica dei testi

Processo di codifica e decodifica

Processo di codifica: operazione che consente di trasformare informazioni in dati elaborabili dal computer (es. un testo in una sequenza di numeri).

Processo di decodifica: processo inverso alla codifica per tornare alla forma di rappresentazione originale.

Codice e condizioni per evitare la perdita di informazioni

Codice: per codificare e decodificare una fonte di informazione è necessario un codice, cioè l'insieme di regole per convertire l'informazione di partenza in un'altra forma di rappresentazione.

Per evitare di perdere informazioni durante la codifica o la decodifica è necessario rispettare 2 condizioni:

  • Corrispondenza biunivoca fra i simboli dei due alfabeti: dati due alfabeti A e B, a ogni elemento di A deve corrispondere un solo elemento di B, e viceversa.
  • Corrispondenza delle relazioni fra corrispondenti simboli dei due alfabeti: dati due alfabeti A e B, se due simboli di A sono in relazione fra loro, fra i corrispondenti simboli di B deve esistere lo stesso tipo di relazione.

Testo e codifica testuale

Testo: sequenza di simboli:

  • Caratteri veri e propri ("A", "e", "!" ecc.) (i caratteri presentano una forma grafica);
  • Codici di controllo, ovvero istruzioni che indicano spazi, ritorni a capo ecc. (non hanno una rappresentazione grafica);

Per codificare queste sequenze, a ciascun simbolo viene associato un codice numerico.

Codifica testuale: operazione che consente di rappresentare il testo in forma numerica; processo che consente quindi al computer di:

  • Trasformare testo in numeri
  • Elaborare questa informazione (es. aggiungere caratteri, eliminare caratteri ecc.)
  • Ottenere l'informazione elaborata (es. il testo modificato)

Livello di codifica di un testo

Ogni testo si articola in diversi piani (sequenze di caratteri, strutture morfologiche, strutture logiche, ecc.) e a ciascuno di questi piani corrisponde un differente livello di codifica.

Codifica di più basso livello: è relativa ai singoli caratteri, ovvero le unità minime dell'informazione testuale.

In informatica, un carattere:

  • Corrisponde a un grafema: l'unità minima del linguaggio scritto;
  • Coincide con ogni simbolo di un alfabeto, di un sistema di scrittura ecc. ("A", "B", "a", "3", "!", "@", ecc.).

Set di caratteri

Definizione di set di caratteri:

  • Un codice per la codifica dei caratteri è costituito da un set di caratteri, cioè una tabella in cui compaiono:
    • I simboli di un determinato alfabeto (es. lettere maiuscole e minuscole, numeri, segni di punteggiatura, codici di controllo ecc.);
    • I codici numerici associati a ciascun simbolo.

Tipi di set di caratteri:

  • ASCII (ISO-646):
    • Standard supportato da ogni piattaforma informatica, sistema operativo, software ecc.
    • Basato sull'alfabeto della lingua inglese.
    • 7 bit per codificare ogni carattere: rappresenta 128 simboli (95 caratteri + 33 codici di controllo)
  • ASCII è stato per molto tempo lo standard di riferimento per la codifica dei caratteri, ma presenta molti limiti:
    • Non codifica moltissimi caratteri necessari per scrivere in lingue diverse dall'inglese (es. le lettere accentate)
    • Non codifica i caratteri che appartengono ad alfabeti non latini
  • Set basati su 8 bit per carattere: 256 simboli a disposizione, comunque insufficienti
  • Standard ISO-8859: 16 codici diversi, ognuno per un determinato gruppo di lingue
  • Unicode:
    • Set standard, compatibile con i precedenti (es. ASCII, ISO-8859)
    • 32 bit per ogni carattere = oltre 4 miliardi di codici = caratteri di tutti i sistemi di scrittura e oltre
    • Codici basati sul sistema esadecimale (= sistema numerico posizionale con base 16, cioè: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F) rappresentati mediante la sigla U+ seguita da numeri (es. "a" = U+0061)
    • Organizzazione modulare in encoding a lunghezza variabile di byte; ci sono 3 encoding:
      • UTF-8: usa 8, 16, 24 o 32 bit per ogni carattere, in base alle esigenze contingenti, ed è oggi la codifica di riferimento.
      • UTF-16: usa o 16, 24 o 32 bit per ogni carattere
      • UTF-32: usa 32 bit per ogni carattere

Codifica di alto livello

È necessaria per rendere comprensibili al computer informazioni testuali complesse.

Linguaggi di markup (marcatura)

La codifica di alto livello opera mediante i linguaggi di markup.

Definizione dei linguaggi di markup:

  • Istruzioni che consentono di marcare gli elementi presenti in un testo specificandone la funzione. Il computer, naturalmente, non può comprendere alcuni livelli di significato (es. funzioni grammaticali, logiche, ecc.), a meno di non renderli espliciti con la codifica, ed i linguaggi di marcatura fanno esattamente questo.

Caratteristiche di un linguaggio di markup:

  • Codifica il livello logico, semantico o grafico del testo (livello grafico del testo: una data porzione di testo rappresenta un paragrafo, un'altra un capitolo ecc..).
  • È basato sull'uso di:
    • Tag (marcatori): speciali sequenze di caratteri per marcare il testo;
    • Regole sintattiche.

Può appartenere a due categorie:

  • Linguaggi procedurali:
    • Codificano informazioni tipografiche
    • Indicano come rappresentare l'aspetto grafico di un testo (es: dimensioni del testo, corsivo, grassetto ecc... cioè tutte le caratteristiche di formattazione):
      • Sullo schermo
      • Sulla pagina stampata
    • Descrivono come si presenta il documento (piuttosto che il testo)
    • Limiti:
      • Perdono informazioni importanti (es. livello logico)
      • Sono scarsamente portabili
    • RTF: è uno dei linguaggi procedurali
      • Esempio: nel linguaggio RTF, ogni tag è costituito dal simbolo "\" seguito dal nome del tag stesso (es. \b è il tag che rappresenta il grassetto): {\b RTF}. Un software che interpreta RTF visualizza questa porzione di testo così: RTF.
  • Linguaggi dichiarativi:
    • Sono orientati al testo:
      • Codificano informazioni di natura semantica
      • Indicano al computer come rappresentare la struttura astratta del testo (cioè non danno informazioni su come il testo si presenta graficamente, e questo compito è quindi affidato ai fogli di stile):
        • Suddivisione in partizioni logiche (es. capitoli, paragrafi...)
        • Funzione grammaticale delle parole (es. nomi, pronomi...), ecc.
    • Le informazioni tipografiche sono affidate ai fogli di stile.
    • Sono linguaggi standard aperti e portabili.
    • SGML: (Standard Generalized Markup Language) è uno dei principali linguaggi dichiarativi
      • È stato ideato per gestire e archiviare testi digitali, in particolare fonti documentarie, ma può essere usato per numerosi tipi di elaborazioni.
      • SGML è un metalinguaggio (ovvero un linguaggio per creare altri linguaggi: consente di creare linguaggi specifici per ogni tipo di codifica), poiché:
        • Non fornisce tag predefiniti
        • Consente di creare una marcatura per ogni livello testuale
      • In particolare, SGML definisce una serie di regole per:
        • Creare i tag: in SGML sono costituiti da una stringa di caratteri, che rappresentano il nome del tag, delimitata da parentesi uncinate: <nome_tag>
        • Assegnargli un significato
        • Applicarli correttamente al testo: per applicare i tag al testo, bisogna racchiudere l'elemento da marcare all'interno di un tag di apertura e uno di chiusura: <nome_tag>Testo da marcare</nome_tag>.
        • Esempio: <capitolo>Testo del capitolo</capitolo>
      • Il nome "capitolo" assegnato al tag è stato scelto in modo arbitrario dal codificatore, coerentemente con il significato del testo marcato.
      • I nomi dei tag e le regole per applicarli sono definiti in un documento a parte, la DTD (Document Type Definition) che è obbligatoria per ogni documento SGML; ed in essa bisogna:
        • Dichiarare i tag, assegnando loro un nome e delle proprietà
        • Stabilire cosa può occorrere al loro interno (altri tag oppure del testo)
        • Definire in quali posizioni possono essere applicati
    • Da SGML sono derivati:
      • XML: linguaggio di riferimento per la codifica testuale di alto livello che si presta a moltissime applicazioni
      • HTML: linguaggio che consente di creare pagine web (oggi sostituito da XHTML)

Parametri per valutare la qualità di un linguaggio di markup

  • Potenza espressiva: capacità di rappresentare più livelli semantici possibili
  • Livello di standardizzazione
  • Apertura: possibilità di utilizzarlo liberamente senza dover acquisire licenze d'uso particolari o software specifici
  • Portabilità: possibilità di usare il linguaggio indipendentemente da:
    • Piattaforma informatica
    • Software
    • Set di caratteri
    • Elaborazioni da effettuare
    • Supporto di memorizzazione

È importante per evitare il problema dell'obsolescenza informatica.

Metadati

Quando codifichiamo dei testi (es. documenti elettronici generici, e-book, pagine web ecc.), è opportuno corredarli di metadati: "dati che descrivono altri dati", ovvero istruzioni per descrivere specifiche caratteristiche del testo. I metadati, concretamente, non sono altro che tag, ma non in corrispondenza di elementi da marcare, ma per specificare delle informazioni.

Esempio: i metadati di un romanzo potrebbero essere il nome dell'autore, la data di pubblicazione, il nome dell'editore, la/e lingua/e del testo ecc., espressi secondo la specifica DC (Dublin Core):

<meta name="DC.title" content="Le avventure di Pinocchio"><meta name="DC.creator" content="Carlo Collodi">

Tipi di elaborazioni

Dopo che un testo è stato codificato, può essere esposto a varie operazioni (essere archiviato su supporti digitali, essere sottoposto ad analisi di vario tipo, ecc..)

Esempio: analisi della frequenza e del contesto di occorrenza di alcuni termini.

  • Livello testuale: lessicale
  • Elementi: specifiche parole (gli elementi sono quelli che verranno marcati)

Una volta individuate e marcate le parole, utilizzando software o applicazioni in grado di interpretare la codifica potremmo ottenere in modo automatico il computo delle occorrenze, l'individuazione dei contesti di occorrenza ecc.

Classificazione dei formati per E-book

Non esistono formati migliori di altri per i libri digitali, perché la scelta dipende dalle caratteristiche del documento che vogliamo creare; la classificazione si fa in base a:

  • Diffusione
  • Tipo di codifica usata:
    • Procedurale
    • Dichiarativa
  • Tipo di impaginazione:
    • Fissa:
      • I formati a impaginazione fissa ereditano il concetto di pagina dai libri tradizionali.
      • Si usa quando è fondamentale lasciare invariato l'aspetto grafico del testo (con tabelle, immagini ecc.), cioè quando:
        • Il destinatario di un file non deve modificarlo
        • Bisogna mantenere inalterati i riferimenti di pagina
        • Il documento è destinato alla stampa
      • PDF: è il più diffuso formato a impaginazione fissa
        • Nasce come formato per l'interscambio di documenti elettronici
        • È basato su codifica procedurale (PostScript)
        • È standard, portabile e aperto
        • Un documento PDF contiene:
          • Testo (ed eventualmente anche immagini, collegamenti a file audio/video ecc.)
          • Informazioni su:
            • Tipi di caratteri usati (i font)
            • Organizzazione del testo su una o più colonne
            • Posizione delle immagini, degli elementi grafici, delle tabelle
        • Può essere visualizzato utilizzando il software gratuito Adobe Acrobat Reader (scaricabile gratuitamente in rete).
        • La maggior parte dei software di videoscrittura e impaginazione consentono di salvare i documenti in questo formato.
        • Per modificare un PDF è necessario:
          • Adobe Acrobat Professional (a pagamento)
          • Ricorrere ad altri programmi (gratuiti) per convertire il documento in altri formati (ciò spesso porta a risultati non accettabili)
    • Variabile (fluida):
      • Nei formati a impaginazione variabile il concetto di pagina non esiste. Il testo, ed eventualmente gli altri elementi presenti, vengono presentati sotto forma di un flusso continuo.
      • Esempio: il testo de "Le avventure di Pinocchio" in formato HTML (pagina web).
Anteprima
Vedrai una selezione di 6 pagine su 24
Appunti di editoria digitale Pag. 1 Appunti di editoria digitale Pag. 2
Anteprima di 6 pagg. su 24.
Scarica il documento per vederlo tutto.
Appunti di editoria digitale Pag. 6
Anteprima di 6 pagg. su 24.
Scarica il documento per vederlo tutto.
Appunti di editoria digitale Pag. 11
Anteprima di 6 pagg. su 24.
Scarica il documento per vederlo tutto.
Appunti di editoria digitale Pag. 16
Anteprima di 6 pagg. su 24.
Scarica il documento per vederlo tutto.
Appunti di editoria digitale Pag. 21
1 su 24
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze antichità, filologico-letterarie e storico-artistiche L-ART/06 Cinema, fotografia e televisione

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher CassandraWolf di informazioni apprese con la frequenza delle lezioni di Editoria digitale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Pisa o del prof Tavosanis Mirko.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community