TTN CAT Container Software
Computer-assisted translation container
Keybot Translation Search Machine
saugt mehrsprachige Seiten aus dem Web ab und bildet einen riesigen
Sprachkorpus in dem bis zu 165 Sprachen parallel abgespeichert werden. Die
indexierten Textbausteine sind im Web über www.keybot.com abrufbar. Dank der innovativen
Web-to-TM Technologie werden die Übersetzungsbausteine in gigantische Über¬setzungs-speicher (TM) umgewandelt, die von
Übersetzern mit CAT-Tools angezapft werden können. Die Konversion in TMs
erfolgt kundenspezifisch und es können komplexe Internetauftritte mit Tausenden
von Katalogseiten in einen CAT-Container eingespiesen werden. Die TTN CAT
Container Software bildet dabei die Brücke, mit der der proprietäre CAT-System
wie Trados, MemoQ und OmegaT bedient werden.
Warum braucht es ein CAT-Container?
TTN arbeitet
mit spezialisierten Übersetzern rund um den Globus zusammen. Die meisten
Übersetzer bearbeiten nur eine einzige Sprachkombination und ein enges
Fachgebiet, dessen Materie und Terminologie sie genau kennen. Sie sind als
Freelancer tätig und übersetzen oft nur gelegentlich für TTN. Das von TTN in
ihrem Spezialgebiet akquirierte Übersetzungsvolumen ist in vielen Fällen zu
klein, um alle Übersetzer zum Gebrauch eines einheitlichen CAT-Systems zu
zwingen. Das Gros der Übersetzer betrachtet das eigene System als das Beste,
und es ist schwierig, sie zur Umstellung auf eine einheitliche Software zu
bewegen. Die meisten CAT-Softwarelizenzen sind teuer und die Benutzeroberfläche
der Programme extrem kompliziert, so dass die Übersetzer wegen eines kleinen
Auftrags nicht von einem Tag auf den anderen auf ein vorgeschriebenes System
umstellen möchten.
So kommt es,
dass die Übersetzungen für ein und denselben TTN-Kunden mit verschiedenen
CAT-Systemen wie SDL Trados, MemoQ, DéjàVu, Wordfast, OmegaT usw. produziert
werden. Jede Software verwendet eigene Standards, so dass die Zusammenführung
der Übersetzungsspeicher (TMs) und Wörterbücher in der Vergangenheit schwierig
oder fast unmöglich war, obwohl alle Systemhersteller von sich behaupten, dass
ihre Daten mit den TMX- und TBX-Standards kompatibel sind. De facto war eine
Zusammenführung der Daten viel zu aufwendig und nicht in einem vernünftigen
Kostenrahmen zu bewältigen. Vor allem bei kleinen Aufträgen, die in 20 oder 30
Sprachen übersetzt werden mussten, kam es regelmässig zu Problemen, weil ein
jeder seine eigene Suppe kochen wollte und es unmöglich war, wegen ein paar
Zeilen 30 Übersetzern und 30 Korrektoren ein einheitliches System
vorzuschreiben.
Diese
Vielfalt von Insellösungen führte zu Problemen bei der Übersetzungsqualität und
in vielen Fällen zu höheren Produktionskosten, weil die an unzähligen Orten
verteilten Segmente und Wörterbucheinträge nicht recycelt werden konnten. Vor
allem bei Kunden, die hohe Ansprüche an eine einheitliche Terminologie und eine
homogene Wortwahl stellen, wirkte sich die Produktevielfalt im CAT-Bereich
negativ aus; es kam immer wieder zu Abweichungen von den Kundenvorgaben.
Zusätzliche Probleme traten dann auf, wenn Übersetzer und Korrektor nicht die
gleiche Software benutzten. Der Übersetzer legte seine «schmutzigen» Segmente
im Übersetzungsspeicher ab, der Korrektor pflegte seine Korrekturen in der
unsegmentierten Word-Datei ein, so dass die Speicher nachher nicht automatisch
aufdatiert werden konnten. Die Speicher verschmutzten schnell, und viele
Übersetzer wollten diese nicht mit ihren Kollegen teilen, weil sie sich vor
deren Qualitätsmängeln fürchteten. Schlussendlich arbeitete jeder egoistisch
mit seinem eigenen Speicher, wodurch der bei den grösseren Kunden erwünschte
Synergieeffekt unterblieb.
Um diesen
gordischen Knoten zu lösen, entwickelte TTN mehrere Jahre lang einen
CAT-Container, der beliebige Systeme aufnehmen kann. Das neue Meta-CAT System
automatisiert den Datenabgleich und ermöglicht es den Benutzern verschiedener
Systeme, problemlos miteinander zusammenzuarbeiten, ohne dass Daten oder
Korrekturen verlorengehen.
Das System
integriert unter anderem hyperschnelle SDL-GroupShare- und MemoQ-Server, die in
einem Hochsicherheitszentrum von Swisscom in Genf untergebracht sind. Diese
Server sind direkt mit dem Glasfaserkabel des Internet-Backbones verbunden.
Modernste 40-GB-Switch-Technologie ermöglicht einen fast unbeschränkten
Datendurchsatz.
SDL Trados und seine Grenzen
Trados wurde
1984 in Stuttgart von der gleichnamigen Übersetzungsagentur lanciert und 2005
vom britischen Konkurrenten SDL übernommen. Es ist ein historisch gewachsenes
Programm, dessen Anwendung zum Teil unnötig kompliziert ist. Es hat nach
eigenen Angaben einen Weltmarktanteil von 70 bis 80 % (ursprünglich 90 %). SDL
Trados wird vor allem von MemoQ konkurrenziert, das seinen Marktanteil in den
letzten Jahren schnell ausbauen konnte. MemoQ hat einen Entwicklungsvorsprung
von zwei bis drei Jahren, der für SDL Trados nur schwierig einzuholen sein
wird, da die von SDL Trados genutzte GroupShare-Serversoftware auf Silverlight
basiert, ein Produkt, dessen Support Microsoft ab 2021 einstellt.
Die mit SDL
Trados generierten Aufträge können entweder als Paket vom TTN-Server
heruntergeladen oder direkt auf dem GroupShare-Server von TTN ausgeführt
werden:
-
Bei der Generierung eines Pakets
werden die im zentralen Speicher gefundenen Übersetzungseinheiten in einen
projektspezifischen Übersetzungsspeicher geladen, der zusammen mit
zweisprachigen XLIFF-Dateien zu einer einzigen SDLPPX-Datei komprimiert, sodann
an die Übersetzer und darauf an die Korrektoren geschickt wird. Nach Abschluss
ihrer Arbeit senden die Mitarbeiter ein Studio-Rückpaket. Mit der letzten
Version des Pakets wird der zentrale Speicher aufdatiert, dessen Einheiten dann
für den nächsten Auftrag bereitstehen.
-
Für die Übersetzung via GroupShare
erhalten Übersetzer und Korrektoren einen Link in der Auftragsmail. Beim
Anklicken öffnet sich Trados Studio, und die XLIFF-Dateien werden vom GroupShare-Server
heruntergeladen. Projektspezifische Übersetzungsspeicher sind nicht nötig, da
die Übersetzungseinheiten direkt via Internet aus dem zentralen
Übersetzungsspeicher abgerufen werden.
Das
Bearbeiten der Aufträge via GroupShare hat den Vorteil, dass bei der
Konkordanzsuche der gesamte Speicher abgesucht werden kann, der mehrere
Millionen Übersetzungseinheiten umfassen kann. Im einen Paket hingegen stecken
immer nur die gerade gefundenen Einheiten, weswegen die Konkordanzsuche wenig
Sinn macht. Wesentliche Vorteile bietet GroupShare auch bei der Arbeit mit
Online-Wörterbüchern. Die IATE-Terminologiedatenbank beansprucht mehrere
Gigabyte Speicherplatz und kann unmöglich in einem Paket heruntergeladen
werden. IATE und Termdat enthalten die offizielle Terminologie der Europäischen
Union und der Schweizerischen Eidgenossenschaft. Die Verwendung der in diesen
Datenbanken gespeicherten Terminologie ist bei vielen Kunden zwingend.
Bei SDL
Trados benötigt der einzelne Übersetzer eine Lizenz für die Studio-Software und
TTN benötigt pro Verbindung mit GroupShare je eine Lizenz. Für den Fall, dass
bei TTN gleichzeitig mehrere Aufträge mit 20 oder 30 Zielsprachen eingingen,
wäre unser Lizenzpool schnell überfordert, was dazu führen würde, dass ein
Übersetzer nicht auf die Online-Ressourcen zugreifen kann. Zusätzlich zu diesen
sogenannten CAL-Lizenzen verlangt SDL Trados eine Grundgebühr pro Million
Übersetzungseinheiten. Letztere Gebühr führt dazu, dass wir allen neuen
Übersetzern vom Kauf von SDL Trados abraten. Ab 2017 werden mit der TTN-eigenen
Übersetzungssuchmaschine Keybot gigantische Übersetzungsspeicher generiert, die
unter anderem einen grossen Teil der übersetzten Webseiten der Schweizerischen
Eidgenossenschaft und der Europäischen Union enthalten werden. Das Einspeisen
dieser Daten in die SDL-Trados-Speicher wäre unter den gegebenen
Lizenzbedingungen viel zu teuer, deshalb empfehlen wir den Übersetzern, auf
MemoQ umzusteigen.
CAT-Container: Sprachmotor von TTN
Translation Network
Rund 80 %
der Aufträge werden online aufgegeben. Der Kunde wählt die zu übersetzende
Datei und die Zielsprachen aus. Das TTN-System berechnet die Fristen und Kosten
und schlägt dem Kunden mehrere Optionen vor.
Jedem
Kundenkonto werden ein oder mehrere Übersetzer zugeordnet. Das System berechnet
die möglichen Fristen aufgrund der Verfügbarkeit der einem Konto zugeteilten
Übersetzer. Alle Übersetzer sind in einer Datenbank registriert, welche die
Arbeitszeiten und die Auslastung verwaltet.
Lädt der
Kunde mehrere Dateien nacheinander hoch, werden die angebotenen Fristen
zunehmend länger. Dieses System erlaubt eine optimale Auslastung der
Übersetzer. Falls der Kunde eine kurze Frist wählt, und der Übersetzer am
Wochenende arbeiten muss, wird er mit bis zu 60 % Zuschlag entlohnt.
Nachdem der
Kunde auf OK geklickt hat, geht der Auftrag auf den TTN-SDL-Trados-Server, der
ein Paket generiert und den Auftrag in den SDL-GroupShare-Server einspeist.
Das
Verfahren läuft vollautomatisch ab. Die durchschnittliche Auftragslänge hat
sich in den letzten 10 Jahren um mehr als 50 % gesenkt. Die Aufträge der Kunden
werden immer kürzer, und sie möchten auch Kleinstaufträge, die nur ein paar
Zeilen einer Webapplikation umfassen, zu günstigen Preisen von einem
professionellen Übersetzungsteam bearbeiten lassen. Für viele Kunden musste TTN
aus Konkurrenzgründen den Minimaltarif ganz abschaffen. Das ist nur möglich,
wenn die CAT-Integration vollautomatisch funktioniert.
Die Kunden
des TTN werden in Archivgruppen eingeteilt, wobei eine Archivgruppe
normalerweise alle Personen einer Firma oder einer Organisation umfasst. Damit
es sich lohnt, eine Archivgruppe, eine Vielzahl von CAT-Speichern oder mehrere
Terminologie-Datenbanken anzulegen, muss ein neuer Kunde ein gewisses Potential
aufweisen. Für Gelegenheitskunden oder Privatpersonen, die nur eine
Scheidungsurkunde oder Ihr CV übersetzen möchten, wäre der Aufwand viel zu
hoch. Bei einem neuen Kunden werden deshalb die Übersetzungen zuerst im
TTN-Common-Speicher abgelegt. Das TTN berechnet aber für jeden Kunden laufend
die Anzahl übersetzter Wörter, und sobald ein Kunde ein gewisses Auftragsniveau
überschreitet, wird für ihn oder seine Firma eine eigene Archivgruppe angelegt.
Es liegt dann
beim Translation Manager, ob er die bereits vorhandenen XLIFF-Dateien
nachträglich im neu angelegten Speicher indexieren will.
Eine
TTN-Archivgruppe entspricht einem Organisationscontainer auf dem
SDL-GroupShare-Server.
Ein Abbild
dieser Struktur wird auf dem MemoQ-Server generiert. Ein Kunde kann so über
mehrere hundert Übersetzungsspeicher verfügen, die alle automatisch angelegt
werden. Für jede Sprachrichtung wird ein eigener Übersetzungsspeicher (TM)
angelegt, es kommen keine TMs mit mehreren Sprachkombinationen zum Einsatz. Die
Aufteilung der Speicher in sprachliche Subversionen hat sich nicht bewährt:
Deutsch für die Schweiz oder Französisch für die Schweiz wird als DE-DE und
FR-FR registriert, damit die Speicher mit anderen Systemen kompatibel bleiben.
Die gleiche Bemerkung gilt für MultiTerm-Datenbanken, bei denen ebenfalls auf
Subsprachversionen verzichtet wird.
Sobald ein
Korrektor ein Paket hochlädt, schickt der TTN-SDL-Trados-Server alle Segmente
und Wörterbucheinträge an den TTN-MemoQ-Server und umgekehrt. Dank dieser
Synchronisation können alle Übersetzer auf die gleichen CAT-Ressourcen
zugreifen, wodurch ein optimaler Synergieeffekt entsteht.
In der
Betaphase wird das System mit MemoQ und SDL Trados getestet. Der CAT-Container
ist so konzipiert, dass mit wenig Aufwand andere Systeme integriert werden
können. Die Servertechnologie ist ausserordentlich anspruchsvoll, und es ist
damit zu rechnen, dass mittelfristig nur vier oder fünf von den aktuell 15
Systemen überleben werden.
Ausblick
CAT-Programme
übersetzen nicht selbst, sondern sie unterstützen den menschlichen Übersetzer
bei seiner Arbeit. Im Gegensatz dazu erfolgt eine maschinelle Übersetzung
automatisch ohne Mitwirkung eines Humanübersetzers. TTN strebt eine Mischform
an, bei denen die maschinelle Übersetzung geprüft und vervollständigt wird.
In
Zusammenarbeit mit der ETH Zürich hat TTN ein Übersetzungssystem entwickelt,
mittels dessen Lawinenwarnungen automatisch übersetzt werden. Eine Untersuchung
der Universität Zürich belegt, dass dieses System zuverlässiger als
Humanübersetzer arbeitet. Übersetzungsfehler sind praktisch ausgeschlossen, und
die fremdsprachlichen Texte werden zeitgleich zum Original generiert, was bei
Warnsystemen besonders wichtig ist. Allerdings kann das System vorläufig nur
Texte in einem stark beschränkten Fachgebiet übersetzen, die mit einem
speziellen Editor redigiert werden müssen. Das Fenster unten zeigt die
temporale Deixis der Lawinenabgänge. Beim Assemblieren des Systems wurden die
einzelnen Sprachelemente von einem Übersetzer in eine idiomatische
Satzreihenfolge gebracht, so dass eine Art vorabgespeicherte
Konservenübersetzung entstand.
Während
Google Translate und alle anderen automatischen Übersetzungssysteme auf
statistischen Häufigkeiten aufbauen, basiert das neue System auf einer
syntagmatischen Segmentierung, die ursprünglich vom Genfer Linguisten Ferdinand
de Saussure entdeckt wurde. Diese verschachtelte Segmentierung ermöglicht es,
hierarchische Übersetzungsspeicher anzulegen, die im Hinblick auf die
Satzstruktur und die Übersetzungsgenauigkeit dem statistischen Ansatz weit
überlegen sind. Mit Hilfe eines klassischen Übersetzungsspeichers kann nur ein
einziger 100 %-Match gefunden werden. Hierarchische Übersetzungsspeicher der
zweiten Generation bringen hier einen entscheidenden Durchbruch: Sie können pro
Satz Abertausende syntaktisch und semantisch richtige Permutationen generieren.
Martin Bächtold, Keybot GmbH, Genf,
Mai 2017