La traduction planétaire avec Web to TM

Version Pdf

La mondialisation est à l’origine d’une explosion des volumes de traduction. Même les PME de quelques salariés arrivent via Internet sur le marché mondial. D’où la nécessité de traduire toujours davantage. Compte tenu des résultats peu concluants de la traduction automatique, on devrait assister à une explosion parallèle de la population des traducteurs. Or il n’en est rien. Un petit nombre de traducteurs suffit pour répondre à des besoins croissants dans ce domaine. Comment cela est-il possible ?


Le recyclage avec la logique floue

L’invention de la mémoire de traduction (Translation Memory ou TM) a révolutionné la traduction traditionnelle, restée figée depuis Babylone, et qui semblait définitivement associée à l’utilisation de gros dictionnaires. Les mémoires de traduction tirent parti du caractère souvent répétitif des comporte­ments humains. Les entreprises et les organisations peuvent en effet accomplir pendant des années des processus qui, linguistiquement parlant, se ressemblent comme deux gouttes d’eau. Ce « wording d’entreprise » – toujours le même bavardage sur un plan statistique – est capturé de façon optimale avec les TM. Ces petits miracles de la technique font appel à la logique floue pour identifier des modèles linguistiques variables. Si un chef d’entreprise prononce tous les ans un discours similaire devant l’arbre de Noël, sa société a la possibilité de réduire facilement ses frais de traduction d’une année sur l’autre.

Les premières mémoires de traduction commerciales sont originaires de Stuttgart en Allemagne. En 1984, les deux génies en informatique Jochen Hummel et Iko Knyphausen créent une petite agence de traduction et développent dès la fin des années quatre-vingts les premiers programmes d’aide à la traduction, également appelés outils de TAO (traduction assistée par ordinateur). Le principe est très simple. Des éléments de texte traduits sont stockés avec l’original dans une base de données, fournissant ainsi un corpus parallèle. Si Trados – c’est le nom de ce logiciel mondialement connu aujourd’hui – reconnait un segment de texte ou une partie de segment, la traduction correspondante est alors extraite de la mémoire et récupérée (recyclée). Dans le cas idéal, le traducteur n’a plus qu’à valider le fragment de texte proposé, ce qui lui permet d’avancer plus vite dans son travail. Les outils de traduction assistée par ordinateur autorisent d'importantes économies avec les textes répétitifs. Par exemple, une fois que le constructeur Citroën a rédigé ses guides d'utilisation pour les modèles C2, C3, C4 et C5, le coût du manuel de la C8 est considérablement réduit.

Mais l’avantage subjuguant des mémoires de traduction, de nature invisible, réside dans l’unification du langage. Elle standardise la documentation, la vente, le support et le site Internet. Tout devient simple et homogène. La première unification globale à grande échelle remonte à 1997, lorsque Microsoft entreprit de traduire son système d’exploitation aussi simplement que possible dans les langues les plus importantes au monde. Bill Gates fit alors l’acquisition d’une partie de Trados, introduisit le système et fit de Windows le logiciel le plus vendu de tous les temps. Dell et d’autres clients importants lui emboîtèrent le pas. En 2005, la société fut rachetée par SDL, un concurrent britannique, qui reprit la marque Trados pour ses propres produits logiciels.


De la solution isolée à la TM sur le cloud

La plupart des traducteurs travaillent en freelance chez eux à la maison. Dernièrement encore, les liaisons de données à haut débit étaient plutôt l’exception. Chaque traducteur créait par nécessité sa propre base de données, ce qui donnait naissance à une infinité de solutions isolées. Considérant sa mémoire comme sa propriété privée, le traducteur était peu enclin à collaborer. Pour contrer cette tendance, les grosses agences eurent recours à la collectivisation forcée et créèrent un nouveau métier: le gestionnaire de traduction. Tel un percepteur, celui-ci exigeait l’envoi des fichiers bilingues lorsque le travail était terminé. Depuis lors, traducteurs et réviseurs reçoivent leurs commandes sous la forme de packages de projet incluant les ressources de traduction, et livrent le fruit de leur travail dans des packages de retour, dont le contenu est ensuite transféré dans la mémoire principale du gestionnaire de traduction.

Les agences astucieuses ont pu constituer ainsi des mémoires principales colossales et développer leur part de marché. Mais leur zèle a été assombri par une faiblesse inhérente au système. Plus la mémoire de traduction principale est volumineuse, plus la qualité des packages diminue. La mémoire de concordance et les dictionnaires devenus gigantesques ne pouvaient plus être inclus dans le package, ce qui était un inconvénient notable pour la réception par courriel par rapport à l’exploitation d’une base de données en ligne.

En 2015, la société SDL, qui avait racheté le logiciel Trados, commercialise le premier serveur GroupShare viable. Les segments de texte sont désormais stockés sur un serveur central, permettant ainsi à un nombre illimité de traducteurs d’accéder aux ressources de traduction. Grâce à la technologie de serveur, plus aucune limite n’entrave le recyclage des segments de traduction. Un petit pas seulement nous sépare encore de la traduction planétaire, une mémoire de traduction sur le cloud, qui engloberait tous les segments traduits sur le Web.


La révolution numérique, un véritable chasseur de coûts

TTN Translation Network, le premier réseau de traduction entièrement automatique, a été conçu à Genève en 1987, avant l’ère du Web. Son créateur Martin Bächtold avait eu l’occasion d’expérimenter les premiers réseaux interuniversitaires à l’université de Stanford, dans la Silicon Valley. Les cours sur le modèle de l’avantage comparatif avaient été pour lui une révélation : de toute évidence, la traduction et la communication seraient désormais indissociables. Les traductions doivent être réalisées sur le site le plus attractif sur un plan économique et qualitatif c’est-à-dire dans une région où la langue cible est pratiquée activement.

Avant de rentrer à Genève, Martin Bächtold a glissé l’un des premiers modems dans son bagage. Cette « boîte métallique » aux sifflements bruyants, qui est alors interdite en Suisse, lui permet d’installer le premier serveur de traduction au monde sur un PC Schnyder avec 10 mégas de disque dur. Mais cette innovation est beaucoup trop précoce pour le marché. Personne ne sait alors comment fonctionne un modem. La société doit donc emprunter de l’argent pour acheter des appareils bon marché à Taïwan et les expédier gratuitement aux clients et aux traducteurs. L’institut pour l’étude de la neige et des avalanches SLF de Davos, un service spécialisé dans l’alerte en cas de risques d’avalanches, est l’un des premiers clients. Les bulletins d’avalanches demandent à être traduits très vite et les textes doivent être transmis par voie numérique, et non par télécopie. Les traducteurs sont prévenus de l’arrivée d'un bulletin d’avalanche par une sonnerie sur le télécopieur, un système ancestral remplacé depuis bien longtemps par le SMS ou l’interface du smartphone.

En 1989, le Worldwide Web fait son apparition au CERN de Genève et révolutionne dans son sillage les technologies de communication avec un nouveau standard. TTN se lance sur Internet avec le 16 comme numéro client auprès des services de la Poste. Les gains générés avec le premier système sont utilisés pour financer le développement d’un réseau de type ARPA dédié à la traduction, en Inde, où une très grosse équipe d'informaticiens travaille sur la programmation du code. A partir d'un réseau répliqué, il s’agit de créer un système sur le cloud pour le routage automatique de 165 langues. L’opération se solde par un échec. Le code est trop long et les problèmes bien plus complexes qu'on ne l’avait pensé.

La seconde tentative est plus fructueuse, même si son aboutissement demande beaucoup plus de temps que prévu. Progressivement, des pans de processus toujours plus importants sont automatisés, et les coûts de production peuvent être réduits de 30%. Il apparaît que les agences utilisant l’intelligence artificielle gèrent plus efficacement les gros portefeuilles de clients que celles qui les confient à des collaborateurs. Les programmes calculent la charge de travail des traducteurs en tenant compte des horaires et en intégrant les congés. Grâce à une gestion optimisée du temps, les traducteurs bénéficient d'un flux de travail plus constant, d’où moins de stress et une productivité accrue.

 

La nécessité d’une puissance de calcul élevée

Patrick Boulmier, spécialiste du Big Data de la société Infologo, paramètre avec Martin Bächtold, CEO de Keybot, les nouveaux ordinateurs ultra-puissants pour la machine linguistique planétaire. Plusieurs centaines de pages Web doivent être converties à la minute en mémoires de traductions.

 

 

Keybot : Web to TM

Dans de nombreux groupes internationaux, la numérisation est souvent chaotique dans le secteur de la traduction. Ces organisations mettent en œuvre des applications Web contenant des milliers de pages traduites mais ne disposent pas de mémoires de traduction pour stocker proprement ces textes dans un corpus parallèle. La négligence qui préside au choix des prestataires de traduction a souvent des conséquences désastreuses. Lorsqu’elles souhaitent réviser leurs sites Internet, les sociétés mal organisées paient le prix fort pour chaque page, puisque le travail déjà effectué ne peut être récupéré et recyclé. Le remplacement de ces connaissances malencontreusement perdues a un coût.


Web to TM : le Web est aspiré et transformé en gigantesque mémoire de traduction

 


Web to TM a été conçu pour venir en aide à ces entreprises. La société Keybot, une filiale de TTN, a développé un moteur de recherche de traductions qui porte son nom. Celui-ci passe le Web au crible, tout comme Google. Il ne mémorise que les pages traduites en plusieurs langues et les indexe ensuite dans un corpus parallèle. Un réseau de serveurs complexe effectue l’exploration de données et analyse les pages Internet de clients potentiels, à la recherche des éléments de texte traduits. Les informations ainsi aspirées, ou Big Data, doivent être ensuite nettoyées et triées, puis soumises à une analyse statistique. De même, les répétitions doivent être répertoriées, leur pertinence calculée, puis sauvegardées. Une fois ce lourd processus achevé, la machine peut envoyer les contenus, segment par segment, à une batterie de serveurs GroupShare. Lorsqu'un traducteur ouvre ensuite un projet avec un logiciel de TAO, tous les fragments de texte retrouvés sur l’application Web du client par le moteur de recherche, sont traduits automatiquement. Le traducteur dispose toujours de la version publiée la plus récente, et non d’une version obsolète qui a été remaniée en interne entretemps.

Pour pouvoir classifier les éléments linguistiques, il est nécessaire à Keybot d’avoir une première base d’apprentissage, c’est pourquoi il intègre toutes les pages Wikipedia comme les traductions de textes bibliques et des droits de l’homme en 165 langues. Chaque langue possède son propre gencode, qui peut être extrait sous la forme de n-grammes. Keybot entend exploiter ces propriétés statistiques pour identifier et mettre en parallèle les segments de texte. Le système se trouve encore en phase bêta. Jusqu’à présent, il n’a été possible de générer des mémoires de traduction fiables que lorsque le site Web du client était organisé de façon à éviter tout faux-pas au crawler pendant la phase d’aspiration des données. La mémoire de traduction la plus importante à ce jour compte 23 langues. Elle a été produite pour une société américaine.

Keybot a pour but de transformer le Web plurilingue en une gigantesque mémoire de traduction : « Web to TM ». La transformation étant extrêmement exigeante en termes de puissance de calcul, elle nécessite par conséquent une batterie de serveurs suffisamment puissante. Pour réunir les fonds nécessaires, Keybot prépare en Allemagne son introduction à la bourse des PME et tentera de financer une partie du parc de machines avec le crowdfunding.


SLOTT Translation

Dans le domaine de la traduction automatique, les innovations décisives sont venues du secteur de la météorologie. Les bulletins d’alertes donnent lieu à un dilemme, avec d'un côté l’obligation d’une diffusion rapide et, de l’autre, l’impérieuse nécessité d’exclure toute erreur de traduction. L’approche statistique de Google Translate n’est ici d’aucun secours, en raison de son manque d’exactitude d'une part, mais aussi parce qu’elle ne permettra jamais de restituer la précision horlogère des bulletins d’alerte.

Jörg Kachelmann, un météorologue astucieux, qui a étudié les mathématiques à Zurich, a été le premier à résoudre ce dilemme. A partir d’une simple feuille de calcul Excel, il a « bricolé » un système destiné à gérer la production d’énoncés linguistiques par l’intermédiaire de cellules. Dès les années quatre-vingts, le directeur du SLF avait tenté de bâtir un système de traduction automatique. Le système statistique basé sur le principe de probabilité et les modèles de Markov, qui avait été imaginé quelque temps après par une université allemande, fut également un échec. Plusieurs années plus tard, lorsque Kurt Winkler, de l’Institut pour l’étude de la neige et des avalanches SLF à Davos, adresse une feuille de calcul Excel à première vue totalement farfelue à la métropole linguistique de Genève, il est tout d’abord la risée des linguistes qui le prennent pour un fou. Son projet est déposé tout au fond d’un tiroir, tel un mauvais roman policier. Il lui faut insister pour qu'un collaborateur de TTN, connaisseur en mémoires de traduction, soit mandaté pour infirmer la thèse de l’absurde. Une phrase incorrecte, et bye bye le système Winkler, qui serait mort-né.

Trois jours plus tard, c’est toujours silence radio. Aucune erreur n’a été identifiée. Même un logiciel spécialement conçu par TTN à cet effet ne peut démontrer l’existence de la moindre erreur. Étonnant ! Kurt Winkler, qui n’y connaissait rien à la linguistique, avait analysé les bulletins d’avalanches et leurs traductions sur les dix dernières années pour déceler les possibilités de mutation, et consigné ce travail dans une base de données Excel que personne ne comprenait.

Personne ? Peut-être pas. Quelque cent ans plus tôt en effet, Ferdinand de Saussure, originaire de Genève et père fondateur du structuralisme, avait déjà attiré l’attention dans ses cours sur la dimension syntagmatique du langage. Il avait été le premier à définir les possibilités de mutation pouvant se présenter dans une structure linguistique, sans toutefois établir un lien avec d’autres langues. Kurt Winkler avait découpé les énoncés selon les mêmes principes et dégagé des règles de transformation pouvant être appliquées pour transposer des éléments de texte dans une autre langue.

A partir d’une liste de phrases répertoriées par Kurt Winkler, des millions de phrases idiomatiques et grammaticalement parfaites peuvent être générées en quatre langues. Le système ne fonctionne, il est vrai, que pour les bulletins d’alerte avalanches en Suisse, et les phrases doivent être produites à partir d’une liste à l’écran. Cela n’est guère pratique et l’usage est très limité.

TTN expérimente un système analogue, appelé SLOTT Translation. Tout comme les bulletins météorologiques, les traductions ne doivent comporter aucune erreur car cela saperait la confiance des clients. A partir d'un catalogue de 20 phrases types dans un premier temps, il s’agit de standardiser la communication avec les clients, de façon à pouvoir répondre correctement et sans erreur à des requêtes dans toutes les langues.

Dr. Kurt Winkler

 

Des traductions automatiques pour plus de sécurité

 

Kurt Winkler, travaille à l’Institut pour l'étude de la neige et des avalanches SLF. Il est à l'origine d’une avancée étonnante dans le secteur de la traduction automatique. Les alertes avalanches sont traduites en quelques fractions de secondes.

 

Feuille de calcul Excel

 

Nul ne sait encore si le système SLOTT parviendra à s'imposer sur un plan commercial. Par contre, il ne fait aucun doute que les mémoires de traduction de demain présenteront une organisation hiérarchique des phrases, dans la mesure où leur potentiel s’en trouvera ainsi considérablement augmenté. Les systèmes de TAO de la prochaine génération seront capables de traduire avec précision non seulement des textes stockés dans une TM, mais aussi des millions de variantes.


 

Utilisation libre pour publication (2639 mots)

Martin Bächtold, Keybot Sarl, Genève, mai 2017