Des chercheurs ont appliqué des règles grammaticales et sémantiques aux séquences génétiques du virus pour définir quelles mutations sont viables et présentent un potentiel d’évasion des anticorps. Une recherche qui pourrait permettre d’anticiper l’émergence de nouveaux variants et d’avoir un coup d’avance pour les vaccins.
au sommaire
Le code génétique d'un virus peut être comparé à un livre, où les lettres des bases azotées (A, C, G, TT et U) forment des mots, puis des phrases qui s'assemblent pour former un ensemble cohérent qui va rendre le virus fonctionnel. À chaque fois qu'un virus se réplique, des erreurs aléatoires s'insèrent dans le processus de retranscription de l'ADN. La plupart du temps, ces erreurs concernent des parties « non codantes » du génome et n'ont aucune conséquence. D'autres fois, elles forment un « mot » qui ne veut rien dire et ne donne pas lieu à une protéineprotéine fonctionnelle. Mais de temps en temps, la mutation introduit une phrase qui fait sens et procure un avantage compétitif au virus. Elle est alors conservée et le nouveau code se répand.
Le saviez-vous ?
Selon une étude de Science, une substitution apparaît dans le génome du virus tous les 11 jours, soit plus rapidement que le virus de la grippe mais 10 fois moins vite que celui du VIH (Sida).
Algorithme d'apprentissage sémantique appliqué à l'ADN
Prédire les futures évolutions du virus semble donc mission impossible, puisque les mutations sont par nature aléatoires. Des chercheurs du MIT ont pourtant tenté de relever le défi, en se basant sur des algorithmes d'apprentissage automatique développés pour le langage naturel. Brian Hie et ses collègues ont formé les algorithmes à une tâche appelée « recherche de changement sémantique contraint », en utilisant deux composantes du langage : la grammaire (syntaxe) et la sémantique (sens des mots). « Lorsqu'il mute, le virus est soumis à des contraintes : il doit préserver sa grammaire pour rester viable, mais changer de sémantique pour échapper aux anticorpsanticorps », détaille Bryan Bryson, coauteur de l'article, publié en janvier dans la revue Science. Ces contraintes peuvent être représentées dans l'exemple ci-dessous.
La première phrase (« le garçon donne une petite tape au chienchien ») représente la séquence originale du virus. Dans la première mutation (deuxième phrase), la mutation induit un léger changement dans le code génétique de la protéine de pointe, mais celle-ci ressemble encore suffisamment à l'originale pour que le système immunitairesystème immunitaire puisse la reconnaître et l'attaquer. Dans la troisième phrase en revanche, la phrase n'est ni grammaticalement correcte ni logique, et ne peut donc plus être « lue » par les récepteurs, c'est-à-dire qu'elle ne peut plus se lier à eux. Le virus est non viable. La quatrième phrase, elle, induit un changement qui est compréhensible mais modifie le sens de la phrase (« le garçon mange le chien »), de telle sorte que la protéine ne peut plus être reconnue par les anticorps, et apparaît « déguisée ».
Prédire le potentiel d’échappement d’une mutation
Les algorithmes de langage élaborent des prédictions de mots qui vont pouvoir « coller » à la phrase en fonction de son contexte (voir exemple ci-dessous). « Notre modèle linguistique s'appuie sur la même analogieanalogie et apprend la probabilité d'apparition d'un acide aminéacide aminé dans une séquence compte tenu du contexte de celle-ci », illustre Bryan Bryson.
Anticiper les futurs vaccins
Les chercheurs ont testé leur modèle pour évaluer les mutations de trois protéines : l'une située à la surface du virus de la grippevirus de la grippe, l'autre à la surface du VIHVIH et la troisième à la pointe du coronaviruscoronavirus SARS-CoV-2SARS-CoV-2. Sur 891 mutations de la protéine de pointe, l'algorithme en a identifié quatre ayant à la fois une structure grammaticale correcte et le potentiel d'échapper aux anticorps, dont une avait déjà été trouvée dans un épisode de réinfection. Une proportion qui reste donc relativement faible (0,4 %).
En plus de quantifier le potentiel d'évasion des mutations, « l'algorithme pourrait également servir à sélectionner des éléments d'un vaccinvaccin multivalent contre plusieurs variants », ou même des vaccins combinant différents virus tels que la grippe et le coronavirus.