Laboratorio informatica

Revisionato il 16/05/2026

di giuseppe.lanzon

Publisher

Vota

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Appunti completi di tutto per esame di laboratorio di informatica con il prof Roberto Boselli del Corso di laurea in scienze statistiche ed economiche, basati su appunti personali del publisher …

Esame Laboratorio di informatica

Facoltà Scienze statistiche

Dal corso del Prof. Boselli Roberto

Università Università degli Studi di Milano - Bicocca

A.A. 2016-2017

16 pagine

Appunto

Scarica

Estratto del documento

CODIFICHE FILE DI TESTO

Codifica: insieme di regole che permettono di associare caratteri a configurazioni del supporto di memorizzazione/trasmissione.

La stessa informazione può essere scritta su supporti differenti e con codifiche differenti. Lo stesso supporto può essere decodificato in maniere differente.

Nell'informatica, la codifica ha sempre creato problemi ad esempio:

Testo codificato con la codifica XYZ in
Sequenza di byte trasportati ad un altro
Testo ricostruito usando una decodifica

Esistono diverse codifiche per il testo:

ASCII: 7 bit per carattere
- Sono codificate solo le lettere dell'alfabeto Inglese
Latin-1 (ISO-8859-1): 8 bit per carattere, sono codificate le

lettere delle principali lingue dell'area
Alcuni "slot" sono lasciati non prefefiniti

Windows-1252: Variante del Latin-1, alcuni caratteri col'
Unicode

CODICE ASCII

Il codice ASCII è da gran lunga il codice alfanumerico più diffuso per lo scambio di informazioni tra sistemi di elaborazione. Il codice ASCII standard è codificato su 7 bit e quindi può rappresentare al massimo 2⁷ = 128 simboli diversi. Esiste una versione che usa 8 bit e viene chiamato codice ASCII esteso ed è usato col' esempio dei personal computer IBM MS/DOS

Codifiche File di Testo

Codifica: Insieme di regole che permettono di associare caratteri a configurazioni del supporto di memorizzazione/trasmissione.

La stessa informazione può essere scritta su supporti differenti e con codifiche differenti. Lo stesso supporto può essere decodificato in maniere differente.

Nell'informatica, la codifica ha sempre creato problemi ad esempio:

Testo codificato con la codifica XYZ in sequenza di byte
Sequenza di byte trasferita ad un altro programma/elaboratore
Testo ricostruito usando una decodifica non adeguata

Esistono diverse codifiche per il testo:

ASCII: 7 bit per carattere - Sono codificate solo le lettere dell'alfabeto inglese (manca lettera accentata)
Latin-1 (ISO-8859-1): 8 bit per carattere, sono codificate le lettere delle principali lingue dell'Europa dell'Ovest - Alcuni "slot" sono lasciati non prefefiniti
Windows-1252: Variante del latin-1, alcuni caratteri col peso uso sono stati sostituiti
Unicode

Codice ASCII

Il codice ASCII è da gran lunga il codice alfanumerico più diffuso per lo scambio di informazioni tra sistemi di elaborazione. Il codice ASCII standard è codificato su 7 bit e quindi può rappresentare al massimo 2⁷-1 128 simboli diversi. Esiste una versione che usa 8 bit e viene chiamato codice ASCII esteso ed è usato col sistema IBM PS/DS

Tabella dei codici ASCII

Tabella dei codici ASCII. Esempio:
ASCII code for space character: 32+0 = 32
ASCII code for 'L': 64+12 = 76
ASCII code for 'a': 96+1 = 97
Origine del problema: non sono gestite le lettere accentate (non sono presenti nell'alfabeto inglese)

Per gestire i caratteri speciali delle lingue diverse dall'inglese sono state create diverse codifiche. Ad esempio:

ASCII estesa (8 bit)
Big 5 (Tradizionale cinese)
ISO-8859-1 "Latin-1" (fra, ita, spa, ted, ...)
ISO-8859-7 (Grecia)
ISO-8859-6 (Arabo)
CP 1140 (IBM Western Europe)
...

Tali codifiche però sono tra loro incompatibili e per codificare correttamente bisogna conoscere la codifica usata.

Era Moderna: Unicode

Lo standard Unicode è stato introdotto per rappresentare i caratteri di testo in sistemi informatici ed è stato assunto come standard internazionale con lo stesso 150/IEC 106.

Unicode propone uno standard per rappresentare i caratteri e i simboli di tutti i linguaggi scritti, simboli, ecc.

Assegna ad ogni cifra 4 byte per carattere (fino 4 volte più grande rispetto alla codifica ASCII).

32 bit (4 byte)
Codifica tutte le lingue conosciute
Anche segni speciali es. ☺, ©, ...

Vantaggio (UNICOD) = Codifica tutte (per le nuove carat) teri delle lingue culturali esotiche.

Dato che devono gestire un grosso nucleo di dati con un grande dispendio di spazio sono stati creati dei formati ridotti di UNICODE:

UTF-8: Salva i caratteri UNICOD in 8 bit (può essere usato solo per un sottoinsieme dell’alfabeto minuscole).
UTF-16: Salva i caratteri UNICOD in 16 bit (usato per un sottoinsieme più ampio, con 16 bit e posibili codificæi 2¹⁶ ≈ 5.000 caratteri existenti).

DIVERSE VERSIONI DI LINGUAGGIO PYTHON

Come sappiamo esistono delle versioni di Python, la 2.x e la 3.x che contengono grossi cambiamenti ma le librerie non sono ancora state adegu

Anteprima

Vedrai una selezione di 5 pagine su 16

Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.

Scarica

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher giuseppe.lanzon di informazioni apprese con la frequenza delle lezioni di Laboratorio di informatica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Boselli Roberto.

Appunti correlati

Invia appunti e guadagna

Recensioni

Ti è piaciuto questo appunto?

CODIFICHE FILE DI TESTO

Codifiche File di Testo

Codice ASCII

Tabella dei codici ASCII

Era Moderna: Unicode

DIVERSE VERSIONI DI LINGUAGGIO PYTHON

Recensioni

Domande e risposte