Concetti Chiave
- ASCII is a 7-bit character encoding standard that provides 128 configurations, with control characters from 1 to 31 no longer used due to communication protocol advancements.
- ASCII data transmission initially used an 8th bit for parity check, but later utilized it for encoding non-standard characters, leading to the Latin-1 extension for accented Latin letters.
- Unicode is a comprehensive character encoding system for almost all languages, including various symbols, and aligns with the ISO/IEC 10646 standard.
- Initially designed as a 16-bit encoding with 65,536 symbols, Unicode has expanded to over 136,000 code points, supporting up to 21 bits, with UTF-8, UTF-16, and UTF-32 as encoding methods.
- On Windows, ASCII characters can be accessed by pressing Alt and typing the corresponding decimal number on the numeric keypad.
Rappresentazione di caratteri
Ogni calcolatore ha a disposizione un set di caratteri, codificati sotto forma di numeri , la cui mappatura è detta codice di caratteri.
ASCII = American Standard Code for Information Interchange
- utilizza 7 bit da cui derivano 128 configurazioni
- i caratteri da 1 a 31 sono caratteri di controllo e non sono stampabili, molti di questi servono alla trasmissione dei dati nelle telescriventi, ma non vengono più usati a causa dell’evoluzione dei protocolli di comunicazione
- i dati vengono trasmessi byte, l’ottavo bit usato per verificare la correttezza del dato inviato (controllo di parità)
- dato che il formato ASCII non viene usato come protocollo di trasmissione, l’ottavo bit viene usato per codificare caratteri non standard
- la prima estensione dell’ASCII è Latin-1 che utilizza un codice a 8 bit per lettere latine con accenti e segni diacritici
- in seguito fu ideato lo standard IS 8859 che attraverso l’idea di pagina di codice che assegna un insieme di 256 caratteri a una lingua o insieme di lingue
Unicode:
- sistema per codifica di caratteri di quasi tutte le lingue, include simboli matematici, alfabeto Braille, ideogrammi, simboli cartografici...
- standard internazionale (allineato con standard ISO/IEC 10646)
- nel 1991 pensato come codifica a16 bit, quindi 65.536 simboli (code point)
- nel 1996 previsti code point con più di 16 bit
- nel 2017 presenti più di 136.000 code point, fino a 21 bit
- ha varie codifiche possibili: UTF-8 (8bit), UTF-16 (16 bit) e UTF-32 (32 bit)
I code point e i caratteri sono diversi, infatti alcuni caratteri che sono ottenibili con più code point e alcuni code point che sono percepiti come più caratteri affiancati.
Se si usa Windows si può ottenere ogni carattere ASCII premendo Alt e digitando il numero decimale corrispondente nel tastierino numerico.
Domande da interrogazione
- Qual è la funzione principale del codice ASCII?
- Come si è evoluto il sistema di codifica dei caratteri dopo l'ASCII?
- Quali sono le differenze tra code point e caratteri in Unicode?
Il codice ASCII è utilizzato per codificare caratteri sotto forma di numeri, permettendo la rappresentazione di 128 configurazioni tramite 7 bit.
Dopo l'ASCII, è stato introdotto il Latin-1 per lettere latine con accenti, seguito dallo standard IS 8859 per lingue specifiche, e infine Unicode, che supporta quasi tutte le lingue e simboli con diverse codifiche come UTF-8, UTF-16 e UTF-32.
In Unicode, i code point e i caratteri sono distinti; alcuni caratteri possono essere ottenuti con più code point, mentre alcuni code point possono rappresentare più caratteri affiancati.