Che materia stai cercando?

Traduzione assistita

Tsina su Traduzione assistita: Progetto di traduzione OmegaT. Utilizzando software OmegaT. Esame di Linguistica informatica basata su appunti personali del publisher presi alle lezioni del professore Franco Lorenzi dell’università degli Studi di Perugia - Unipg. Voto: 30 lode.

Esame di Linguistica informatica docente Prof. F. Lorenzi

Anteprima

ESTRATTO DOCUMENTO

attenzione. Se vengono cambiati, la formattazione del documento finale potrebbe presentare

problemi. Onde evitare questo, i tag devono essere riprodotti nei segmenti di arrivo con la stessa

dicitura, nello stesso numero e nello stesso ordine, rispettando tag di apertura e chiusura.

OmegaT supporta l’uso esteso di strumenti quali dizionari e glossari.

Il dizionario elettronico è un dizionario memorizzato sotto forma di dati per computer,

può essere caricato in una base di dati e interrogato mediante apposito software.

In OmegaT i lemmi, nel caso in cui sia riscontrata una corrispondenza con le espressioni

presenti nel segmento in traduzione, sono presentati all’utente durante il corso del lavoro. Sono

supportati i dizionari mono e bilingui nel formato tipico della piattaforma StarDict.

Per poterli utilizzare devono essere inseriti nella cartella /dictionary/ nella radice del

progetto. Anche in questo caso, vengono considerati tutti i file compatibili presenti nella

sottodirectory ed è possibile utilizzarne più di uno al medesimo tempo, a seconda delle proprie

esigenze.

Vi sono dizionari, dunque, specifici per registri linguistici e possono essere aggiornati e

utilizzati per la verifica delle traduzioni di particolari termini o vocaboli.

Alcuni sono liberamente consultabili e altri sono pubblicati sotto licenza GPL. Si possono

trovare facilmente online dizionari e enciclopedie, specialmente per la lingua inglese.

Dai collegamenti forniti dal Wiki di OmegaT ho trovato l’unico dizionario disponibile in

lingua spagnola e ho estratto il contenuto (tre file con le estensioni dz, idx e ifo) nella cartella

/dictionary/. Tuttavia, questo dizionario non si è rivelato molto utile poiché non era completo,

forniva una traduzione prettamente letterale e solo per alcuni termini incontrati nel testo.

È possibile, inoltre, copiare glossari di progetti precedenti nella cartella /glossary/, ciò

serve soprattutto nei casi in cui si utilizzi una terminologia specifica o tecnica condivisa da più

file tradotti. Il mio lavoro prevedeva, infatti, la traduzione di vocaboli tratti dalla lingua dei

Mapuche, quindi ho importato i file relativi al glossario di altri progetti di traduzione simili.

Tutti i termini che avevo aggiunto a questi glossari, e che erano presenti anche nel testo su cui

stavo lavorando, sono stati visualizzati automaticamente all’interno del visualizzatore

Glossario.

Per il segmento 0006 sono state riportate le voci chicha e muday, in riferimento a due

tipologie di bevande della popolazione autoctona, con relativa descrizione. Nel segmento 0024

è stata visualizzata la parola cultrunes in riferimento ai tamburi mapuche, e nel segmento 0043

il nome Caí-Caí che identifica una divinità del male sotto forma di serpente.

4 Con il tasto destro del mouse all’interno del testo spagnolo (o selezionando dal menu

Modifica la voce “aggiungi voce di glossario”), ho potuto aggiungere al mio glossario altri

termini particolari che potevano servirmi per future traduzioni.

OmegaT utilizza in modo predefinito file TSB con estensione .tab (codifica ASCII), utf8

(Unicode) o semplicemente .txt. La struttura di tali documenti è formata da tre colonne: la

prima contiene la parola nella lingua di partenza, la seconda la parola corrispondente nella

lingua di destinazione, ed infine la terza colonna (opzionale) può contenere qualsiasi

informazione, comprese osservazioni personali e definizioni anche in base al contesto.

Ho voluto inserire termini specifici in riferimento alla tribù dei Mapuche come loncos,

toquis, Caciques, Ngenechén e machis, incontrati nel testo spagnolo, che identificano particolari

figure, fornendo anche una breve descrizione con annotazioni a carattere culturale.

Così, per esempio, ho inserito la parola Toquis in riferimento alla massima autorità

mapuche eletta come guida durante la guerra, e ho aggiunto anche la traduzione letterale

“portatore d'ascia”. E per “Mapuche” ho inserito due opzioni di traduzione in italiano Mapuce e

Mapuche, termine composto dalle parole mapudungun Che, "Popolo", e Mapu, "della Terra”.

Altri termini aggiunti al glossario sono quelli specifici di piante, bevande, strumenti

musicali e costruzioni autoctoni come araucaria, rucas, chozas, rewe, trutucas, canelo di cui ho

voluto riportare anche la traduzione esatta italiana nella terminologia scientifica.

In altre occasioni ho scelto di riportare, per un determinato termine o espressione, oltre

alla traduzione più comune, una traduzione più accurata per contesto letterario.

Mi riferisco, per esempio, al verbo cansarse nel segmento 0006 che solitamente e

letteralmente viene tradotto con “stancarsi”, mentre io ho preferito l’espressione “perdere le

forze”, aggiungendo comunque al glossario la traduzione più comune. Così è stato anche per

Puro músculo che ho tradotto con “un fascio di muscoli” nel segmento 0017, per Se pasma

“rimane tramortito” nel segmento 0029, ed infine per abuelos che ho tradotto con “avi” nel

segmento 0036.

Il vantaggio principale di usare OmegaT, come già anticipato, consiste nel fatto che il

programma memorizza tutti i segmenti tradotti in precedenza così che, quando rileva una certa

similitudine tra il segmento da tradurre e alcuni di quelli in memoria, propone delle possibili

traduzioni. Poiché raramente ci sarà una identità tra il segmento da tradurre e quelli tradotti (nel

caso di identità perfetta la traduzione viene inserita automaticamente), viene utilizzata la fuzzy

logic per analizzare la similitudine, per questo la proposta è chiamata corrispondenza.

5 Il programma allinea e fa concordare tra loro due documenti (il sorgente e il tradotto),

dividendoli in segmenti, nel tentativo di determinare quali segmenti del documento tradotto

siano associabili al documento sorgente, in modo da poter costruire una memoria di traduzione.

Consente anche di modificare gli allineamenti proposti oppure di allineare manualmente i

segmenti di cui non viene trovata corrispondenza.

Le memorie di traduzione possono risultare particolarmente utili quando si deve eseguire

una traduzione con molte ripetizioni o con segmenti di testo relativamente simili.

OmegaT usa il formato di file standard tmx per memorizzare e accedere alle memorie di

traduzione, questo rende il materiale adatto per la revisione e la condivisione del lavoro fra più

traduttori in uno stesso progetto.

Nella sottodirectory omegat è contenuto il file project save.tmx, in cui sono memorizzate

tutte le modifiche alla TM apportate a partire dall’inizio del lavoro, aggiornandole a ogni

salvataggio del progetto. Per velocizzare il processo, possono essere riutilizzate le memorie

esistenti. Se una frase è stata già tradotta correttamente una volta, non è necessario che venga

tradotta nuovamente.

Ho riutilizzato, dunque, memorie di traduzione di progetti precedenti perché simili a

quello a cui stavo lavorando in quanto utilizzavano la medesima terminologia. Ho usato queste

memorie come "memorie di traduzione di immissione", copiandole nella cartella /tm/ e tm/auto

del nuovo progetto: nel primo caso si ottengono risultati da queste memorie di traduzione nel

riquadro delle corrispondenze parziali, nel secondo le memorie verranno usate per tradurre

subito il testo di partenza.

A lavoro terminato, OmegaT esporta nella cartella del progetto tre memorie di traduzione

chiamate level1, level2 e omegat. Le memorie level1 e level2 possono essere condivise con gli

utenti di altri programmi di traduzione.

OmegaT, tuttavia, non è in grado di gestire completamente i file tmx importati di livello 2

(questi non memorizzano solo la traduzione ma anche la formattazione). I file tmx di livello 2

saranno ancora importati e il contenuto del loro testo visualizzato in OmegaT, ma la qualità

delle corrispondenze parziali risulterà essere in qualche modo inferiore.

Per il segmento 0006 OmegaT ha trovato una sola possibilità e l’ha riportata nella finestra

Concordanze parziali in cui viene mostrato il grado di corrispondenza delle parole, usando

colori differenti, e la percentuale, e vengono visualizzati la data, l’ora e il nome dell’utente che

ha tradotto un dato segmento, in modo che l’utente sia in grado di operare le proprie scelte nella

maniera più consapevole possibile.

6 La percentuale di corrispondenza viene calcolata in tre modi diversi, che corrispondono ai

tre valori visualizzati sotto ogni corrispondenza. I primi due valori sono calcolati sulla base

delle parole comuni e dell’ordine in cui compaiono nei due segmenti, con la differenza che il

primo considera le parole ridotte alla loro radice (grazie al tokenizer) mentre il secondo utilizza

le parole inalterate, ma ignorando punteggiatura e tag. Il terzo valore, invece, tiene conto della

punteggiatura, nonché di tag e numeri. OmegaT non è in grado di discernere il significato delle

formule o delle costruzioni logiche del testo, pertanto per corrispondenze inferiori all’80% è

sempre necessario verificare la correttezza.

Per il segmento 0006 è stato ottenuto un “punteggio” triplo del 100% che mi ha permesso,

quindi, di inserire interamente la proposta di traduzione.

Per i segmenti 0026 e 0027 sono state trovate parziali corrispondenze, con basse

percentuali, con altri segmenti all’interno del testo. Segmento 0026: —Y a ti, Madre de la

Gente, te saludamos. Concordanze parziali: 1. La Tierra y la gente son inseparables. La terra e

la gente sono inseparabili. <33/22/42%>. Mia traduzione: —E a te, Madre della Gente,

salutiamo.

Segmento 0027: La Tierra y la gente son inseparables. Concordanze parziali: 1. Y a ti,

Madre de la Gente, te saludamos. —E a te, Madre della Gente, salutiamo. <33/22/42%>.

Mia traduzione: La Terra e la gente sono inseparabili.

ll file project save.tmx contiene tutti i segmenti che sono stati tradotti a partire dall’inizio

della traduzione del progetto. Se si modifica la segmentazione del progetto o si eliminano file

dai file di origine, potrebbero apparire delle stringhe orfane nel visualizzatore delle

concordanze: tali concordanze si riferiscono a segmenti che non esistono più nei documenti di

origine, dato che corrispondono a segmenti tradotti e registrati prima di eseguire le modifiche.

Questo è ciò che è accaduto per i segmenti 0001 e 0007. Nella finestra delle Concordanze

parziali, sono stati visualizzati i segmenti orfani con una percentuale di concordanza dal 20 al

40% circa.

I “Tokenizer” (o stemmer) migliorano la qualità delle concordanze tramite il

riconoscimento delle parole flesse, sia nei file di partenza, sia nelle memorie di traduzione e

glossari, ovvero si basano sulla radice o tema della parola. Ciò è particolarmente valido nei casi

di lingue che utilizzano forme prefissali e suffissali sui temi.

OmegaT seleziona automaticamente un tokenizer per la lingua di partenza e quella di

destinazione, in base alle impostazioni linguistiche del progetto. È possibile selezionare un altro

7

tokenizer (lingua del tokenizer) o una versione diversa (comportamento del tokenizer) dalla

finestra delle proprietà del progetto.

Si possono inoltre abilitare traduzioni automatiche come Belazar, Apertium, MyMemory

ecc… servizi che utilizzano strumenti linguistici basati su regole per creare la traduzione del

segmento di partenza, senza il bisogno di una memoria di traduzione. Applicano tecniche di

apprendimento statistico per costruire un modello di traduzione e fanno affidamento su un

numero di regole linguistiche incorporate e su milioni di dizionari bilingue per ogni

combinazione linguistica. Tali regole possono essere organizzate in moduli diversi che

interagiscono tra loro, e rappresentati da diagrammi ad albero o da formalizzazioni equivalenti a

gerarchie.

Il software analizza la sintassi del testo e crea una rappresentazione temporanea da cui

viene generato il testo nella lingua di arrivo. Questo processo richiede lessici estesi con

informazioni di tipo morfologico, sintattico e semantico. Successivamente trasferisce la

struttura grammaticale della lingua di partenza alla lingua di arrivo.

Le parole vengono tradotte secondo un punto di vista prettamente linguistico scegliendo

gli equivalenti linguistici più appropriati. Nei sistemi statistici, come Google traduttore, si fa

ricorso a parametri e statistiche che derivano dall’analisi di corpora monolingui o bilingui per

l’attribuzione dell’ordine delle parole e del migliore candidato per la traduzione. Non vengono

utilizzate regole grammaticali, ma si usano le probabilità di occorrenza e di frequenza delle

parole. La creazione dei modelli di traduzione statistica è un processo rapido, ma la tecnologia

fornisce una buona qualità solo se sono disponibili corpora estesi e qualificati.

Per ciò che concerne entrambi i progetti, la traduzione di tali servizi è risultata essere

sempre letterale, abbastanza sommaria e scorretta, che non teneva conto del contesto o di altre

variabili linguistiche e grammaticali. Per tale ragione non l’ho trovata particolarmente utile per

un traduttore professionista e ritengo che lo possa essere, invece, solo per avere un’idea parziale

della traduzione a livello superficiale della singola parola, isolata dal contesto.

Per visualizzare come apparirà la traduzione nella sua forma finale, ho salvato e generato i

documenti tradotti tramite il menu. I file sono stati creati nella sottocartella /target/, all’interno

della cartella del progetto.

Per il secondo progetto di lavoro ho tradotto il recente articolo “Il riscaldamento globale

cambierà la faccia del Mediterraneo” dall’italiano allo spagnolo.

8


PAGINE

12

PESO

148.27 KB

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea in Lingue e e letterature moderne
SSD:
Università: Perugia - Unipg
A.A.: 2017-2018

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher nichole_bs di informazioni apprese con la frequenza delle lezioni di Linguistica informatica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Perugia - Unipg o del prof Lorenzi Franco.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Linguistica informatica

Usability e struttura di siti Web
Appunto
Riassunto esame Filologia romanza, Prof Pulsoni, Libro consigliato Le origini romanze, Asperti
Appunto
Storia del teatro
Appunto
Riassunto di letteratura italiana contemporanea
Appunto