Estratto del documento

CODIFICHE FILE DI TESTO

Codifica: insieme di regole che permettono di associare caratteri a configurazioni del supporto di memorizzazione/trasmissione.

La stessa informazione può essere scritta su supporti differenti e con codifiche differenti. Lo stesso supporto può essere decodificato in maniere differente.

Nell'informatica, la codifica ha sempre creato problemi ad esempio:

  • Testo codificato con la codifica XYZ in
  • Sequenza di byte trasportati ad un altro
  • Testo ricostruito usando una decodifica

Esistono diverse codifiche per il testo:

  • ASCII: 7 bit per carattere
    • Sono codificate solo le lettere dell'alfabeto Inglese
  • Latin-1 (ISO-8859-1): 8 bit per carattere, sono codificate le
    • lettere delle principali lingue dell'area
    • Alcuni "slot" sono lasciati non prefefiniti
  • Windows-1252: Variante del Latin-1, alcuni caratteri col'
  • Unicode

CODICE ASCII

Il codice ASCII è da gran lunga il codice alfanumerico più diffuso per lo scambio di informazioni tra sistemi di elaborazione. Il codice ASCII standard è codificato su 7 bit e quindi può rappresentare al massimo 27 = 128 simboli diversi. Esiste una versione che usa 8 bit e viene chiamato codice ASCII esteso ed è usato col' esempio dei personal computer IBM MS/DOS

Codifiche File di Testo

Codifica: Insieme di regole che permettono di associare caratteri a configurazioni del supporto di memorizzazione/trasmissione.

La stessa informazione può essere scritta su supporti differenti e con codifiche differenti. Lo stesso supporto può essere decodificato in maniere differente.

Nell'informatica, la codifica ha sempre creato problemi ad esempio:

  • Testo codificato con la codifica XYZ in sequenza di byte
  • Sequenza di byte trasferita ad un altro programma/elaboratore
  • Testo ricostruito usando una decodifica non adeguata

Esistono diverse codifiche per il testo:

  • ASCII: 7 bit per carattere - Sono codificate solo le lettere dell'alfabeto inglese (manca lettera accentata)
  • Latin-1 (ISO-8859-1): 8 bit per carattere, sono codificate le lettere delle principali lingue dell'Europa dell'Ovest - Alcuni "slot" sono lasciati non prefefiniti
  • Windows-1252: Variante del latin-1, alcuni caratteri col peso uso sono stati sostituiti
  • Unicode

Codice ASCII

Il codice ASCII è da gran lunga il codice alfanumerico più diffuso per lo scambio di informazioni tra sistemi di elaborazione. Il codice ASCII standard è codificato su 7 bit e quindi può rappresentare al massimo 27-1 128 simboli diversi. Esiste una versione che usa 8 bit e viene chiamato codice ASCII esteso ed è usato col sistema IBM PS/DS

Tabella dei codici ASCII

  • Tabella dei codici ASCII. Esempio:
  • ASCII code for space character: 32+0 = 32
  • ASCII code for 'L': 64+12 = 76
  • ASCII code for 'a': 96+1 = 97
  • Origine del problema: non sono gestite le lettere accentate (non sono presenti nell'alfabeto inglese)

Per gestire i caratteri speciali delle lingue diverse dall'inglese sono state create diverse codifiche. Ad esempio:

  • ASCII estesa (8 bit)
  • Big 5 (Tradizionale cinese)
  • ISO-8859-1 "Latin-1" (fra, ita, spa, ted, ...)
  • ISO-8859-7 (Grecia)
  • ISO-8859-6 (Arabo)
  • CP 1140 (IBM Western Europe)
  • ...

Tali codifiche però sono tra loro incompatibili e per codificare correttamente bisogna conoscere la codifica usata.

Era Moderna: Unicode

Lo standard Unicode è stato introdotto per rappresentare i caratteri di testo in sistemi informatici ed è stato assunto come standard internazionale con lo stesso 150/IEC 106.

Unicode propone uno standard per rappresentare i caratteri e i simboli di tutti i linguaggi scritti, simboli, ecc.

Assegna ad ogni cifra 4 byte per carattere (fino 4 volte più grande rispetto alla codifica ASCII).

  • 32 bit (4 byte)
  • Codifica tutte le lingue conosciute
  • Anche segni speciali es. ☺, ©, ...

Vantaggio (UNICOD) = Codifica tutte (per le nuove carat) teri delle lingue culturali esotiche.

Dato che devono gestire un grosso nucleo di dati con un grande dispendio di spazio sono stati creati dei formati ridotti di UNICODE:

  • UTF-8: Salva i caratteri UNICOD in 8 bit (può essere usato solo per un sottoinsieme dell’alfabeto minuscole).
  • UTF-16: Salva i caratteri UNICOD in 16 bit (usato per un sottoinsieme più ampio, con 16 bit e posibili codificæi 216 ≈ 5.000 caratteri existenti).

DIVERSE VERSIONI DI LINGUAGGIO PYTHON

Come sappiamo esistono delle versioni di Python, la 2.x e la 3.x che contengono grossi cambiamenti ma le librerie non sono ancora state adegu

Anteprima
Vedrai una selezione di 5 pagine su 16
Laboratorio informatica Pag. 1 Laboratorio informatica Pag. 2
Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.
Laboratorio informatica Pag. 6
Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.
Laboratorio informatica Pag. 11
Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.
Laboratorio informatica Pag. 16
1 su 16
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher giuseppe.lanzon di informazioni apprese con la frequenza delle lezioni di Laboratorio di informatica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Boselli Roberto.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community