CODIFICHE FILE DI TESTO
Codifica: insieme di regole che permettono di associare caratteri a configurazioni del supporto di memorizzazione/trasmissione.
La stessa informazione può essere scritta su supporti differenti e con codifiche differenti. Lo stesso supporto può essere decodificato in maniere differente.
Nell'informatica, la codifica ha sempre creato problemi ad esempio:
- Testo codificato con la codifica XYZ in
- Sequenza di byte trasportati ad un altro
- Testo ricostruito usando una decodifica
Esistono diverse codifiche per il testo:
- ASCII: 7 bit per carattere
- Sono codificate solo le lettere dell'alfabeto Inglese
- Latin-1 (ISO-8859-1): 8 bit per carattere, sono codificate le
- lettere delle principali lingue dell'area
- Alcuni "slot" sono lasciati non prefefiniti
- Windows-1252: Variante del Latin-1, alcuni caratteri col'
- Unicode
CODICE ASCII
Il codice ASCII è da gran lunga il codice alfanumerico più diffuso per lo scambio di informazioni tra sistemi di elaborazione. Il codice ASCII standard è codificato su 7 bit e quindi può rappresentare al massimo 27 = 128 simboli diversi. Esiste una versione che usa 8 bit e viene chiamato codice ASCII esteso ed è usato col' esempio dei personal computer IBM MS/DOS
Codifiche File di Testo
Codifica: Insieme di regole che permettono di associare caratteri a configurazioni del supporto di memorizzazione/trasmissione.
La stessa informazione può essere scritta su supporti differenti e con codifiche differenti. Lo stesso supporto può essere decodificato in maniere differente.
Nell'informatica, la codifica ha sempre creato problemi ad esempio:
- Testo codificato con la codifica XYZ in sequenza di byte
- Sequenza di byte trasferita ad un altro programma/elaboratore
- Testo ricostruito usando una decodifica non adeguata
Esistono diverse codifiche per il testo:
- ASCII: 7 bit per carattere - Sono codificate solo le lettere dell'alfabeto inglese (manca lettera accentata)
- Latin-1 (ISO-8859-1): 8 bit per carattere, sono codificate le lettere delle principali lingue dell'Europa dell'Ovest - Alcuni "slot" sono lasciati non prefefiniti
- Windows-1252: Variante del latin-1, alcuni caratteri col peso uso sono stati sostituiti
- Unicode
Codice ASCII
Il codice ASCII è da gran lunga il codice alfanumerico più diffuso per lo scambio di informazioni tra sistemi di elaborazione. Il codice ASCII standard è codificato su 7 bit e quindi può rappresentare al massimo 27-1 128 simboli diversi. Esiste una versione che usa 8 bit e viene chiamato codice ASCII esteso ed è usato col sistema IBM PS/DS
Tabella dei codici ASCII
- Tabella dei codici ASCII. Esempio:
- ASCII code for space character: 32+0 = 32
- ASCII code for 'L': 64+12 = 76
- ASCII code for 'a': 96+1 = 97
- Origine del problema: non sono gestite le lettere accentate (non sono presenti nell'alfabeto inglese)
Per gestire i caratteri speciali delle lingue diverse dall'inglese sono state create diverse codifiche. Ad esempio:
- ASCII estesa (8 bit)
- Big 5 (Tradizionale cinese)
- ISO-8859-1 "Latin-1" (fra, ita, spa, ted, ...)
- ISO-8859-7 (Grecia)
- ISO-8859-6 (Arabo)
- CP 1140 (IBM Western Europe)
- ...
Tali codifiche però sono tra loro incompatibili e per codificare correttamente bisogna conoscere la codifica usata.
Era Moderna: Unicode
Lo standard Unicode è stato introdotto per rappresentare i caratteri di testo in sistemi informatici ed è stato assunto come standard internazionale con lo stesso 150/IEC 106.
Unicode propone uno standard per rappresentare i caratteri e i simboli di tutti i linguaggi scritti, simboli, ecc.
Assegna ad ogni cifra 4 byte per carattere (fino 4 volte più grande rispetto alla codifica ASCII).
- 32 bit (4 byte)
- Codifica tutte le lingue conosciute
- Anche segni speciali es. ☺, ©, ...
Vantaggio (UNICOD) = Codifica tutte (per le nuove carat) teri delle lingue culturali esotiche.
Dato che devono gestire un grosso nucleo di dati con un grande dispendio di spazio sono stati creati dei formati ridotti di UNICODE:
- UTF-8: Salva i caratteri UNICOD in 8 bit (può essere usato solo per un sottoinsieme dell’alfabeto minuscole).
- UTF-16: Salva i caratteri UNICOD in 16 bit (usato per un sottoinsieme più ampio, con 16 bit e posibili codificæi 216 ≈ 5.000 caratteri existenti).
DIVERSE VERSIONI DI LINGUAGGIO PYTHON
Come sappiamo esistono delle versioni di Python, la 2.x e la 3.x che contengono grossi cambiamenti ma le librerie non sono ancora state adegu
-
Laboratorio Informatica
-
Lezioni, Laboratorio di informatica
-
Fondamenti di informatica (laboratorio)
-
Laboratorio di Informatica