La mondialisation est à l’origine d’une
                    explosion des volumes de traduction. Même les PME de quelques salariés arrivent
                    via Internet sur le marché mondial. D’où la nécessité de traduire toujours
                    davantage. Compte tenu des résultats peu concluants de la traduction
                    automatique, on devrait assister à une explosion parallèle de la population des
                    traducteurs. Or il n’en est rien. Un petit nombre de traducteurs suffit pour
                    répondre à des besoins croissants dans ce domaine. Comment cela est-il
                    possible ?
                
            
        
     
    
        
            
        
    
    
        
            
                Le recyclage avec la logique floue
            
        
        
            
                L’invention de la mémoire de traduction (Translation Memory ou TM) a
                révolutionné la traduction traditionnelle, restée figée depuis Babylone, et qui
                semblait définitivement associée à l’utilisation de gros dictionnaires. Les
                mémoires de traduction tirent parti du caractère souvent répétitif des comportements
                humains. Les entreprises et les organisations peuvent en effet accomplir
                pendant des années des processus qui, linguistiquement parlant, se ressemblent
                comme deux gouttes d’eau. Ce « wording d’entreprise » – toujours le
                même bavardage sur un plan statistique – est capturé de façon optimale avec les
                TM. Ces petits miracles de la technique font appel à la logique floue pour
                identifier des modèles linguistiques variables. Si un chef d’entreprise
                prononce tous les ans un discours similaire devant l’arbre de Noël, sa société
                a la possibilité de réduire facilement ses frais de traduction d’une année sur
                l’autre. 
            
        
        
            
                Les
                premières mémoires de traduction commerciales sont originaires de Stuttgart en
                Allemagne. En 1984, les deux génies en informatique Jochen Hummel et Iko Knyphausen
                créent une petite agence de traduction et développent dès la fin des années
                quatre-vingts les premiers programmes d’aide à la traduction, également appelés
                outils de TAO (traduction assistée par ordinateur). Le principe est très
                simple. Des éléments de texte traduits sont stockés avec l’original dans une
                base de données, fournissant ainsi un corpus parallèle. Si Trados – c’est le
                nom de ce logiciel mondialement connu aujourd’hui – reconnait un segment de
                texte ou une partie de segment, la traduction correspondante est alors extraite
                de la mémoire et récupérée (recyclée). Dans le cas idéal, le traducteur n’a
                plus qu’à valider le fragment de texte proposé, ce qui lui permet d’avancer
                plus vite dans son travail. Les outils de traduction assistée par ordinateur
                autorisent d'importantes économies avec les textes répétitifs. Par exemple, une
                fois que le constructeur Citroën a rédigé ses guides d'utilisation pour les
                modèles C2, C3, C4 et C5, le coût du manuel de la C8 est considérablement
                réduit.
            
        
        
            
                Mais l’avantage
                subjuguant des mémoires de traduction, de nature invisible, réside dans
                l’unification du langage. Elle standardise la documentation, la vente, le
                support et le site Internet. Tout devient simple et homogène. La première
                unification globale à grande échelle remonte à 1997, lorsque Microsoft
                entreprit de traduire son système d’exploitation aussi simplement que possible
                dans les langues les plus importantes au monde. Bill Gates fit alors
                l’acquisition d’une partie de Trados, introduisit le système et fit de Windows
                le logiciel le plus vendu de tous les temps. Dell et d’autres clients
                importants lui emboîtèrent le pas. En 2005, la société fut rachetée par SDL, un
                concurrent britannique, qui reprit la marque Trados pour ses propres produits
                logiciels.
            
        
        
        
            
                
                    De la solution isolée à la TM sur
                    le cloud
                
            
        
        
            
                La plupart
                des traducteurs travaillent en freelance chez eux à la maison. Dernièrement
                encore, les liaisons de données à haut débit étaient plutôt l’exception. Chaque
                traducteur créait par nécessité sa propre base de données, ce qui donnait
                naissance à une infinité de solutions isolées. Considérant sa mémoire comme sa
                propriété privée, le traducteur était peu enclin à collaborer. Pour contrer
                cette tendance, les grosses agences eurent recours à la collectivisation forcée
                et créèrent un nouveau métier: le gestionnaire de traduction. Tel un
                percepteur, celui-ci exigeait l’envoi des fichiers bilingues lorsque le travail
                était terminé. Depuis lors, traducteurs et réviseurs reçoivent leurs commandes
                sous la forme de packages de projet incluant les ressources de traduction, et
                livrent le fruit de leur travail dans des packages de retour, dont le contenu
                est ensuite transféré dans la mémoire principale du gestionnaire de traduction.
                
            
        
        
            
                Les agences
                astucieuses ont pu constituer ainsi des mémoires principales colossales et
                développer leur part de marché. Mais leur zèle a été assombri par une faiblesse
                inhérente au système. Plus la mémoire de traduction principale est volumineuse,
                plus la qualité des packages diminue. La mémoire de concordance et les
                dictionnaires devenus gigantesques ne pouvaient plus être inclus dans le
                package, ce qui était un inconvénient notable pour la réception par courriel
                par rapport à l’exploitation d’une base de données en ligne. 
            
        
        
            
                En 2015, la
                société SDL, qui avait racheté le logiciel Trados, commercialise le premier
                serveur GroupShare viable. Les segments de texte sont désormais stockés sur un
                serveur central, permettant ainsi à un nombre illimité de traducteurs d’accéder
                aux ressources de traduction. Grâce à la technologie de serveur, plus aucune
                limite n’entrave le recyclage des segments de traduction. Un petit pas
                seulement nous sépare encore de la traduction planétaire, une mémoire de
                traduction sur le cloud, qui engloberait tous les segments traduits sur le Web.
                
            
        
        
        
            
                La révolution numérique, un véritable chasseur de coûts
            
        
        
            
                TTN
                Translation Network, le premier réseau de traduction entièrement automatique, a
                été conçu à Genève en 1987, avant l’ère du Web. Son créateur Martin Bächtold
                avait eu l’occasion d’expérimenter les premiers réseaux interuniversitaires à
                l’université de Stanford, dans la Silicon Valley. Les cours sur le modèle de
                l’avantage comparatif avaient été pour lui une révélation : de toute évidence,
                la traduction et la communication seraient désormais indissociables. Les
                traductions doivent être réalisées sur le site le plus attractif sur un plan
                économique et qualitatif c’est-à-dire dans une région où la langue cible est
                pratiquée activement. 
            
        
        
            
                Avant de
                rentrer à Genève, Martin Bächtold a glissé l’un des premiers modems dans son
                bagage. Cette « boîte métallique » aux sifflements bruyants, qui est
                alors interdite en Suisse, lui permet d’installer le premier serveur de
                traduction au monde sur un PC Schnyder avec 10 mégas de disque dur. Mais cette
                innovation est beaucoup trop précoce pour le marché. Personne ne sait alors
                comment fonctionne un modem. La société doit donc emprunter de l’argent pour
                acheter des appareils bon marché à Taïwan et les expédier gratuitement aux
                clients et aux traducteurs. L’institut pour l’étude de la neige et des
                avalanches SLF de Davos, un service spécialisé dans l’alerte en cas de risques
                d’avalanches, est l’un des premiers clients. Les bulletins d’avalanches
                demandent à être traduits très vite et les textes doivent être transmis par
                voie numérique, et non par télécopie. Les traducteurs sont prévenus de
                l’arrivée d'un bulletin d’avalanche par une sonnerie sur le télécopieur,
                un système ancestral remplacé depuis bien longtemps par le SMS ou l’interface
                du smartphone. 
            
        
        
            
                En 1989, le
                Worldwide Web fait son apparition au CERN de Genève et révolutionne dans son
                sillage les technologies de communication avec un nouveau standard. TTN se
                lance sur Internet avec le 16 comme numéro client auprès des services de la
                Poste. Les gains générés avec le premier système sont utilisés pour financer le
                développement d’un réseau de type ARPA dédié à la traduction, en Inde, où une
                très grosse équipe d'informaticiens travaille sur la programmation du code. A
                partir d'un réseau répliqué, il s’agit de créer un système sur le cloud pour le
                routage automatique de 165 langues. L’opération se solde par un échec. Le code
                est trop long et les problèmes bien plus complexes qu'on ne l’avait pensé. 
            
        
        
            
                La seconde
                tentative est plus fructueuse, même si son aboutissement demande beaucoup plus
                de temps que prévu. Progressivement, des pans de processus toujours plus
                importants sont automatisés, et les coûts de production peuvent être réduits de
                30%. Il apparaît que les agences utilisant l’intelligence artificielle gèrent
                plus efficacement les gros portefeuilles de clients que celles qui les confient
                à des collaborateurs. Les programmes calculent la charge de travail des
                traducteurs en tenant compte des horaires et en intégrant les congés. Grâce à
                une gestion optimisée du temps, les traducteurs bénéficient d'un flux de
                travail plus constant, d’où moins de stress et une productivité accrue. 
            
        
        
            
                | 
                        
                            
                              | 
                        
                             
                        
                     | 
                        
                            
                                La
                                nécessité d’une puissance de calcul élevée 
                            
                        
                     
                        
                            Patrick Boulmier, spécialiste du Big Data de la société
                            Infologo, paramètre avec Martin Bächtold, CEO de Keybot, les nouveaux
                            ordinateurs ultra-puissants pour la machine linguistique planétaire.
                            Plusieurs centaines de pages Web doivent être converties à la minute en
                            mémoires de traductions. 
                        
                     | 
                        
                             
                        
                     | 
                        
                            
                              | 
        
        
             
        
        
            
                Keybot : Web to TM
            
        
        
            
                Dans de
                nombreux groupes internationaux, la numérisation est souvent chaotique dans le
                secteur de la traduction. Ces organisations mettent en œuvre des applications
                Web contenant des milliers de pages traduites mais ne disposent pas de mémoires
                de traduction pour stocker proprement ces textes dans un corpus parallèle. La
                négligence qui préside au choix des prestataires de traduction a souvent des
                conséquences désastreuses. Lorsqu’elles souhaitent réviser leurs sites
                Internet, les sociétés mal organisées paient le prix fort pour chaque page,
                puisque le travail déjà effectué ne peut être récupéré et recyclé. Le
                remplacement de ces connaissances malencontreusement perdues a un coût.
            
        
     
    
        
    
    
        
            
                
                    Web to TM : le Web est aspiré et transformé
                    en gigantesque mémoire de traduction
                
            
        
        
            
                
                 
            
        
        
             
        
     
    
        
    
    
        
            
                Web to TM a
                été conçu pour venir en aide à ces entreprises. La société Keybot, une filiale
                de TTN, a développé un moteur de recherche de traductions qui porte son nom.
                Celui-ci passe le Web au crible, tout comme Google. Il ne mémorise que les
                pages traduites en plusieurs langues et les indexe ensuite dans un corpus
                parallèle. Un réseau de serveurs complexe effectue l’exploration de données et
                analyse les pages Internet de clients potentiels, à la recherche des éléments
                de texte traduits. Les informations ainsi aspirées, ou Big Data, doivent être
                ensuite nettoyées et triées, puis soumises à une analyse statistique. De même,
                les répétitions doivent être répertoriées, leur pertinence calculée, puis
                sauvegardées. Une fois ce lourd processus achevé, la machine peut envoyer les
                contenus, segment par segment, à une batterie de serveurs GroupShare. Lorsqu'un
                traducteur ouvre ensuite un projet avec un logiciel de TAO, tous les fragments
                de texte retrouvés sur l’application Web du client par le moteur de recherche,
                sont traduits automatiquement. Le traducteur dispose toujours de la version
                publiée la plus récente, et non d’une version obsolète qui a été remaniée en
                interne entretemps. 
            
        
        
            
                Pour
                pouvoir classifier les éléments linguistiques, il est nécessaire à Keybot
                d’avoir une première base d’apprentissage, c’est pourquoi il intègre toutes les
                pages Wikipedia comme les traductions de textes bibliques et des droits de
                l’homme en 165 langues. Chaque langue possède son propre gencode, qui peut être
                extrait sous la forme de n-grammes. Keybot entend exploiter ces propriétés
                statistiques pour identifier et mettre en parallèle les segments de texte. Le
                système se trouve encore en phase bêta. Jusqu’à présent, il n’a été possible de
                générer des mémoires de traduction fiables que lorsque le site Web du client
                était organisé de façon à éviter tout faux-pas au crawler pendant la phase
                d’aspiration des données. La mémoire de traduction la plus importante à ce jour
                compte 23 langues. Elle a été produite pour une société américaine. 
            
        
        
            
                Keybot a pour but de transformer le Web plurilingue en une gigantesque
                mémoire de traduction : « Web to TM ». La transformation étant
                extrêmement exigeante en termes de puissance de calcul, elle nécessite par
                conséquent une batterie de serveurs suffisamment puissante. Pour réunir les
                fonds nécessaires, Keybot prépare en Allemagne son introduction à la bourse des
                PME et tentera de financer une partie du parc de machines avec le crowdfunding.
            
        
        
        
            
                SLOTT Translation
            
        
        
            
                Dans le
                domaine de la traduction automatique, les innovations décisives sont venues du
                secteur de la météorologie. Les bulletins d’alertes donnent lieu à un dilemme,
                avec d'un côté l’obligation d’une diffusion rapide et, de l’autre, l’impérieuse
                nécessité d’exclure toute erreur de traduction. L’approche statistique de
                Google Translate n’est ici d’aucun secours, en raison de son manque
                d’exactitude d'une part, mais aussi parce qu’elle ne permettra jamais de
                restituer la précision horlogère des bulletins d’alerte. 
            
        
        
            
                Jörg
                Kachelmann, un météorologue astucieux, qui a étudié les mathématiques à Zurich,
                a été le premier à résoudre ce dilemme. A partir d’une simple feuille de calcul
                Excel, il a « bricolé » un système destiné à gérer la production
                d’énoncés linguistiques par l’intermédiaire de cellules. Dès les années quatre-vingts,
                le directeur du SLF avait tenté de bâtir un système de traduction automatique.
                Le système statistique basé sur le principe de probabilité et les modèles de
                Markov, qui avait été imaginé quelque temps après par une université allemande,
                fut également un échec. Plusieurs années plus tard, lorsque Kurt Winkler, de
                l’Institut pour l’étude de la neige et des avalanches SLF à Davos, adresse une
                feuille de calcul Excel à première vue totalement farfelue à la métropole
                linguistique de Genève, il est tout d’abord la risée des linguistes qui le
                prennent pour un fou. Son projet est déposé tout au fond d’un tiroir, tel un
                mauvais roman policier. Il lui faut insister pour qu'un collaborateur de TTN,
                connaisseur en mémoires de traduction, soit mandaté pour infirmer la thèse de
                l’absurde. Une phrase incorrecte, et bye bye le système Winkler, qui serait
                mort-né. 
            
        
        
            
                Trois jours plus tard, c’est toujours silence
                radio. Aucune erreur n’a été identifiée. Même un logiciel spécialement conçu
                par TTN à cet effet ne peut démontrer l’existence de la moindre erreur.
                Étonnant ! Kurt Winkler, qui n’y connaissait rien à la linguistique, avait
                analysé les bulletins d’avalanches et leurs traductions sur les dix dernières
                années pour déceler les possibilités de mutation, et consigné ce travail dans
                une base de données Excel que personne ne comprenait. 
            
        
        
            
                Personne ?
                Peut-être pas. Quelque cent ans plus tôt en effet, Ferdinand de Saussure,
                originaire de Genève et père fondateur du structuralisme, avait déjà attiré
                l’attention dans ses cours sur la dimension syntagmatique du langage. Il avait
                été le premier à définir les possibilités de mutation pouvant se présenter dans
                une structure linguistique, sans toutefois établir un lien avec d’autres
                langues. Kurt Winkler avait découpé les énoncés selon les mêmes principes et
                dégagé des règles de transformation pouvant être appliquées pour transposer des
                éléments de texte dans une autre langue. 
            
        
        
            
                A partir
                d’une liste de phrases répertoriées par Kurt Winkler, des millions de phrases
                idiomatiques et grammaticalement parfaites peuvent être générées en quatre
                langues. Le système ne fonctionne, il est vrai, que pour les bulletins d’alerte
                avalanches en Suisse, et les phrases doivent être produites à partir d’une
                liste à l’écran. Cela n’est guère pratique et l’usage est très limité.
            
        
        
            
                TTN
                expérimente un système analogue, appelé SLOTT Translation. Tout comme les
                bulletins météorologiques, les traductions ne doivent comporter aucune erreur
                car cela saperait la confiance des clients. A partir d'un catalogue de 20
                phrases types dans un premier temps, il s’agit de standardiser la communication
                avec les clients, de façon à pouvoir répondre correctement et sans erreur à des
                requêtes dans toutes les langues. 
            
        
        
            
                | 
                        
                            
                              
                        
                            Dr. Kurt Winkler
                        
                     | 
                        
                             
                        
                     | 
                        
                            Des traductions automatiques pour plus de sécurité
                        
                     
                         
                     
                        
                            Kurt Winkler, travaille à l’Institut pour
                            l'étude de la neige et des avalanches SLF. Il est à l'origine d’une avancée
                            étonnante dans le secteur de la traduction automatique. Les alertes
                            avalanches sont traduites en quelques fractions de secondes. 
                        
                     | 
                        
                             
                        
                     | 
                        
                            
                              
                        
                            Feuille de calcul Excel 
                        
                     | 
        
        
             
        
        
            
                Nul
                ne sait encore si le système SLOTT parviendra à s'imposer sur un plan
                commercial. Par contre, il ne fait aucun doute que les mémoires de traduction
                de demain présenteront une organisation hiérarchique des phrases, dans la
                mesure où leur potentiel s’en trouvera ainsi considérablement augmenté. Les
                systèmes de TAO de la prochaine génération seront capables de traduire avec
                précision non seulement des textes stockés dans une TM, mais aussi des millions
                de variantes. 
            
        
        
        
             
        
        
            
                
                    Utilisation libre pour publication (2639 mots)
Martin Bächtold, Keybot Sarl, Genève, mai
                    2017