La statistique, l'arme de traduction massive

au sommaire

La statistique, l'arme de traduction massive

Si un mot ou une expression ont déjà été traduits, inutile d'effectuer une fois de plus le travail. Il suffit de recopier. A partir de ce principe trivial, une nouvelle méthode est née, baptisée statistique. Elle s'appuie sur la puissance brute des ordinateursordinateurs et sur la taille des bases de donnéesbases de données archivées par les entreprises. GoogleGoogle a poussé ce principe dans ses retranchements en utilisant le Web entier. Mais cela ne suffit pas...

La méthode linguistique, qui analyse la structure des phrases trouve ses limites dans la complexité des langues. Dans les années 1990, la puissance des ordinateurs permet d'imaginer une solution différente : puiser dans les immenses corpus des bases de données informatisées pour réutiliser des fragments de phrases déjà traduites. Initiée notamment par IBMIBM, l'approche prend de l'ampleur dans les années 2000 avec Google qui récupère toutes les traductions d'InternetInternet, marquant un tournant dans l'histoire de la traduction automatique.

L'idée peut paraître simple. Beaucoup l'utilisent d'ailleurs sans en avoir conscience. Devant une expression inconnue, il est tentant de la soumettre à un moteur de recherche pour en chercher la traduction dans des sites bilingues ou simplement sur une page où un auteur l'aura traduite. Par exemple, en tapant gravitational microlensing dans le moteur de recherche Google et en restreignant les résultats aux sites francophones, on finit assez vite par découvrir que l'expression française correspondante est microlentille gravitationnelle.

Mais le premier résultat trouvé n'est pas nécessairement correct, ni le meilleur quand plusieurs traductions sont acceptées. Le traducteur a pu se tromper (ce qui est le principal risque sur le Web). Le contexte peut différer. Par exemple, le mot blanchir ne se traduit pas de la même manière en anglais s'il s'agit de linge ou d'argent. La méthode doit donc être statistique et comptabiliser les traductions les plus fréquentes. Elle doit aussi porter sur des groupes de mots. Ainsi blanchiment d'argent donnera de meilleurs résultats que blanchiment tout court. Pour donner de bons résultats, la méthode statistique doit aussi prendre en compte le contexte, c'est-à-dire le reste de la phrase, ce qui permet de choisir entre plusieurs traductions possibles.

Des milliers de serveurs pour une force brute

Pour réaliser un travail rapide, ces mots et ces groupes doivent être indexés, c'est-à-dire enregistrés dans une base de données, ce qui conduit à une occupation mémoire considérable. Le corpus peut être constitué à partir d'un ensemble de documents, présents sur un disque durdisque dur ou un groupe de serveursserveurs.

Google a engagé des moyens gigantesques pour utiliser le Web entier comme base de données. Le géant d'Internet est comme toujours très discret sur son travail. On sait cependant que le procédé utilisé est purement statistique, sans aucune analyse sémantique de la phrase. Pour proposer, comme il le fait aujourd'hui, un service de traduction de 23 couples de langues (soit 23 x 22, c'est-à-dire 506 combinaisons), Google doit avoir engrangé des dizaines de millions de groupes de mots, ce qui implique probablement des milliers de serveurs uniquement destinés à cette tâche.

Le résultat est excellent et convient très bien pour la recherche d'information, de la langue étrangère vers le français. Dans ce cas, il s'agit seulement de comprendre le sens d'un texte et un résultat imparfait peut suffire. Le procédé statistique offre un autre avantage : il évolue avec les habitudes, à mesure que les bases de données sont modifiées. Un anglicisme, par exemple, pourra finir par prendre racine et s'installer comme un mot français. On accepte désormais permafrostpermafrost pour pergélisolpergélisol et on ne traduit pas cheeseburger...

Le service gratuit proposé par Google utilise exclusivement l'approche statistique, puisant dans toutes les traductions déjà présentes sur le Web. Ses performances sont excellentes mais montrent aussi les limites du procédé, commettant souvent des erreurs sur les phrases simples, courtes ou d'une tournure peu usitée. (Capture d'écran)

Le procédé statistique : mauvais en littérature et parfois gaffeur

Malgré ces bons résultats, les statistiques ne peuvent pas tout. Des expressions peu usitées resteront complètement inconnues et sources d'erreurs énormes. Avec « aller de Charybde en Scylla », Google en anglais propose un très mauvais « Charybdis go to Scylla » et Yahoo! « to go from Charybde in Scylla », une traduction littérale correcte mais qui n'a aucun sens pour un anglophone. La bonne traduction serait « To go out of the frying pan and into the fire ». Mais le but de la traduction automatique n'est pas de s'attaquer à des textes littéraires. L'approche statistique ne le permet pas plus que la méthode linguistique. En revanche, le domaine technique convient bien aux traducteurs automatiques, avec son vocabulaire précis et sa syntaxe moins variée.

Un autre écueil guette la méthode statistique : les phrases courtes. Pour s'en convaincre, il suffit de demander au traducteur de Google de traduire « je viens ». Le logiciellogiciel propose un incroyable « I just ». Avec « j'arriverai », la traduction est... « j'arriverai » ! Jean Senellart, directeur Recherche et développement chez Systran, explique facilement ces bourdes étonnantes. « La méthode statistique recherche une traduction en tenant compte du contexte. Avec une phrase courte, il n'y a pas de contexte et les plus grosses erreurs sont possibles. Dans ces deux exemples, un autre phénomène est mis en évidence. Ces phrases commencent par je et c'est une tournure plutôt rare dans les textes issus du Web. »

Aveugle, la traduction statistique peut donc donner souvent l'illusion de trouver parfaitement son chemin et parfois de se cogner dans les mursmurs. Pour faire mieux, il faut donc trouver autre chose...

2/5

De la guerre froide à Internet

Page suivante