au sommaire
De la guerre froide à Internet
L'idée d'utiliser des ordinateursordinateurs pour traduire des textes remonte à la fin de la seconde guerre mondiale mais les débuts furent lents, avant un coup d'arrêt dans les années 1960. L'envie grandissante de lire des documents provenant de l'Union soviétique a relancé les recherches. Il y a quelques années, le Web a créé un nouveau besoin. Les énormes investissements de GoogleGoogle et une nouvelle méthode, dite statistique, ont tiré le marché de la traduction automatique...
Après la seconde guerre mondiale, l'idée se fait jour d'une machine à traduire. Les premiers ordinateurs, comme l'Eniac, esquissent cette possibilité mais aussi le sentiment qu'effacer la barrière des langues pourrait contribuer à la paix universelle. L'un des premiers à formaliser l'idée semble être Andrew Booth, un chercheur britannique, qui y consacra du temps à partir de 1946. Dans les années 1950, la traduction automatique reste dans le domaine de la recherche théorique mais tout change dans les années 1960 avec la guerre froide. Aux Etats-Unis, le besoin apparaît de traduire massivement des textes en russe. En Union soviétique, on s'intéresse alors à la traduction de l'anglais. Parallèlement, les ordinateurs ont gagné en puissance. Il semble envisageable de les utiliser pour au moins aider les traducteurs.
Années 1980. La société de Jean Gachot vient de racheter l'entreprise Systran. © Systran
Pourtant, des théoriciens affirment que la traduction automatique restera pour longtemps un rêve, tant les ambiguïtés sont nombreuses dans toutes les langues. Dès cette époque apparaît une nécessité : la traduction doit prendre en compte le sens de la phrase pour éviter les écueils. En français, terre désigne le sol, la planète, la côte vue de la mer ou encore une propriété agricole. Si un astronaute anglophone aperçoit sa planète par le hublot de son vaisseau spatial, il s'écrira « Earth ! ». Mais s'il s'agit d'un marin à la fin d'une traversée, il annoncera « land ho ! ». Quant à la terre battue par les intempéries, elle sera différente de la terre battue des courts de tennis de Roland Garros. Aux Etats-Unis, un aréopage de scientifiques (Alpac, Automatic Language Processing Advisory Committe) cherche à évaluer la faisabilité d'une traduction automatique. En 1966, l'équipe remet son rapport, très pessimiste.
Mais les besoins du renseignement sont trop forts. Aux Etats-Unis, le gouvernement crée en 1968 la société Systran (System Translation, un sigle qui rime avec Fortran, Formula Translator, le langage de programmation inventé dans les années 1950). Il apparaît alors que l'on peut simplifier le problème si on accepte une traduction approximative. Depuis cette époque, on distingue ainsi deux domaines : la recherche d'informations et la production de documents. S'il s'agit de générer un texte parfait, alors la difficulté est effectivement gigantesque. Mais pour comprendre le sens d'un document, on peut se contenter d'une version imparfaite voire syntaxiquement fausse.
Années 1980. Le logiciel Systran vient d'être adapté pour MS-Dos et tourne sur l'IBM PC, ici dans sa version à deux lecteurs de disquettes, donc sans disque dur. © Systran
Babel en Europe
La technique utilisée est aujourd'hui qualifiée d'approche linguistique. Elle utilise des règles, qui sont celles de la grammaire et celles de la syntaxe. Par exemple il, en français, peut être un pronom personnel masculin ou neutre. Il est beau, il fait beau et même il fait le beau se traduiront différemment. Une analyse grammaticale de cette phrase peut différencier les sens de il et de fait. Avec une informatique qui gagne sans cesse en puissance et des méthodes qui se raffinent, cette approche connaît de bons succès et, surtout, de nouvelles demandes s'annoncent.
La constructionconstruction européenne est de celles-là. Le service de traduction, au fil des élargissements successifs de la communauté, est devenu pléthorique. Il faut désormais plus 1.700 professionnels pour l'assurer, qui s'aident de logicielslogiciels de traduction. Le travail est une collaboration entre la machine, qui prépare le travail et fournit un texte approximatif, et l'homme, qui rédige le document final.
Une autre demande, croissante elle aussi, est apparue dans les années 1990, avec InternetInternet, le Web devenant une gigantesque bibliothèque multilingue. En 1997, le moteur de recherche Alta VistaVista adopte le logiciel de Systran, l'entreprise américaine des débuts de la traduction, devenue française entre-temps.
Le service Babel Fish, gratuit, devient le premier outil de traduction, utilisé par des millions de personnes dans le monde. Même si ses formulations finales laissent à désirer, avec une syntaxe douteuse, voire risible, et des erreurs assez grossières, Babel Fish permet de lire des contenus de langues étrangères. Google à son tour fait appel à Systran et utilisera son logiciel jusqu'en 2007. Actuellement, BabelFish est accessible chez Yahoo! « On atteint aujourd'hui les 60 millions de pages traduites par jour » rapporte Dimitris Sabatakakis, président-directeur général de Systran.
Avant le Web, le service de traduction en ligne existait déjà sur le Minitel. © Systran
Le Web impose une nouvelle vague de traducteurs
Entre 1998 et 2007, dynamisé, le marché de la traduction s'ouvre aux entreprises. Systran édite pas moins de six versions de son logiciel. Les performances sont suffisantes pour obtenir de bons résultats dans les traductions de documents techniques. Au prix d'une intervention humaine pour la mise en forme, le résultat final est publiable. Les entreprises utilisent ces logiciels pour leurs catalogues, les modes d'emploi ou le support technique. Beaucoup viennent du Web. « Quand Cisco n'avait que des pages en anglais pour son support technique, 80 % des anglophones les utilisaient mais seulement 3 % des Asiatiques, se souvient Dimitris Sabatakakis. Les autres téléphonaient aux services d'assistance. Tout a changé avec un traducteur automatique qui a permis de traduire toutes les pages dans plusieurs langues. »
Devant cette accélération produite par Internet et son utilisation planétaire, la guerre froide semble loin. Elle l'est pourtant moins qu'on ne l'imagine. Aujourd'hui, Systran, même devenue française, travaille toujours pour l'administration américaine. Mais les demandes vont désormais, entre autres, vers l'arabe et le farsi, la langue parlée en Iran. Courrier électronique et newsgroups peuvent ainsi être surveillés automatiquement par la CIA...
C'est du Web encore qu'est venue la dernière révolution de la traduction par ordinateur : la statistique. Initiée dans les années 1990, notamment par IBMIBM, elle consiste à utiliser les traductions déjà réalisées et enregistrées dans des bases données. Depuis peu d'années, la puissance informatique a atteint le seuil permettant d'utiliser ce procédé, qui a donné un coup d'accélérateur sans précédent à la traduction automatique. En 2007, Google, comme nous allons le voir, a investi des sommes énormes pour utiliser le Web entier comme base de donnéesbase de données. Ses milliers de serveursserveurs puisent dans toutes les pages Web du monde et repèrent celles qui comportent des traductions. Il suffit alors de réutiliser ce travail initial...
Alors que Google utilise pour l'instant une approche purement statistique, d'autres s'en servent pour compléter l'analyse linguistique. Ce panachage améliore considérablement les performances. Voilà qui explique la fulgurance des progrès récents. Pour autant, la perfection reste encore très loin. Efficace dans le domaine technique, la traduction automatique baisse les bras dans le domaine littéraire, dépassée par les subtilités, les jeux de mots et les expressions imagées. Et ce cap-là, la méthode statistique ne le franchira pas. Il faudra trouver autre chose...