Des chercheurs du laboratoire national américain Lawrence-Berkeley ont utilisé le machine learning pour révéler de nouvelles connaissances scientifiques cachées dans d'anciens documents de recherche. L'intelligence artificielle permet alors de faire le lien entre des écrits scientifiques distincts pour en tirer des découvertes inédites.


au sommaire


    La majorité des connaissances scientifiques existent uniquement sous formes d'articles, et donc au format texte, ce qui rend difficile toute analyse globale. De ce fait, de nombreuses découvertes potentielles sont ratées, simplement parce qu'aucun être humain n'a su faire le lien entre deux découvertes séparées. Une équipe de chercheurs du laboratoire national Lawrence-Berkeley aux États-Unis a publié un article dans le journal Nature, qui détaille l'utilisation de l'intelligence artificielle pour pallier ce problème.

    Les chercheurs ont fait appel au deep learning, une méthode d'apprentissage automatique de l'intelligence artificielle qui repose sur des réseaux neuronaux, pour créer un algorithme appelé Word2vec. Ce dernier a analysé les abstracts -- autrement dit, les résumés -- de 3,3 millions d'articles traitant de la science des matériaux, et généré un vocabulaire d'environ 500.000 mots. L'algorithme a décortiqué les relations entre les différents mots, en représentant chacun par un vecteur.

    Des prédictions de matériaux des années avant leur découverte réelle

    Cette vectorisation a permis à l'intelligence artificielle de comprendre la structure du tableau périodique des élémentstableau périodique des éléments, ou la relation entre la structure et les propriétés des matériaux, et ce, sans la moindre connaissance préalable. Les chercheurs ont pu dresser une liste de matériaux, et d'en sélectionner les dix qui avaient, selon l'IA, la plus grande probabilité d'être associés au terme « thermoélectrique », même si aucun article ne fait explicitement le lien. En les comparant à différentes bases de données sur les matériaux, ils ont pu conclure qu'ils avaient tous un potentiel estimé au-dessus de la moyenne des matériaux thermoélectriques connus.

    Afin de vérifier la validité de leur algorithme, les chercheurs ont souhaité utiliser l'intelligence artificielle pour prévoir des découvertes passées. Ils ont donc retiré les articles récents et entraîné une nouvelle fois leur modèle sur 18 corps de textes différents, en limitant à chaque fois les textes à ceux publiés avant une année limite, entre 2001 et 2018. L'algorithme a, à chaque fois, donné cinq matériaux considérés comme les plus prometteurs pour une applicationapplication thermoélectrique d'après les associations faites dans la littérature.

     

    En analysant des textes parus avant 2008, l'Intelligence artificielle a trouvé le CuGaTe<sub>2</sub> avant même sa découverte en 2012. © <em>Royal Society of Chemistry</em>
    En analysant des textes parus avant 2008, l'Intelligence artificielle a trouvé le CuGaTe2 avant même sa découverte en 2012. © Royal Society of Chemistry

    Une méthode applicable dans tous les domaines de recherche

    Ils ont ainsi pu prédire la découverte de CuGaTe2, l'un des meilleurs matériaux thermoélectriques modernes, quatre ans avant sa première publication en 2012. Sur quatre autres matériaux mis en avant par l'IA sur la base des articles publiés avant 2009, deux n'ont été que suggérés dans la littérature que 8 ou 9 ans après les articles étudiés, tandis que deux autres n'ont jamais été testés.

    Les chercheurs ont entraîné l'intelligence artificielle uniquement sur les textes, sans lui conférer la moindre information préalable sur la science des matériaux. Cela signifie que cette méthode pourrait être très facilement utilisée dans d'autres domaines de recherche, et accélérer certaines découvertes de plusieurs années, voire permettre des découvertes inédites. Selon Vahe Tshitoyan, l'un des chercheurs, « on pourrait l'utiliser pour la recherche médicale ou la découverte de médicaments. L'information existe. Nous n'avons simplement pas fait le lien parce qu'il est impossible de lire tous les articles. »