Dans la famille « agent conversationnel », ChatGPT rafle la mise et alimente les phantasmes les plus anxiogènes depuis qu'un rapport a révélé que les deux tiers des emplois aux États-Unis et en Europe sont menacés. Tout autant concernés, le secteur médical et la recherche bénéficient grandement des avancées réalisées grâce aux intelligences artificielles mais est-ce à dire que les professionnels de santé sont vraiment sur un siège éjectable ? Avec Canal Détox de l'Inserm, penchons-nous sur le sujet qui s’intéresse spécifiquement aux implications de l’IA en pratique clinique et dans la recherche biomédicale.
au sommaire
Depuis quelques mois, ChatGPTChatGPT est au cœur de l'actualité. Ce prototype d'agent conversationnelagent conversationnel s'appuyant sur l'intelligence artificielleintelligence artificielle (IA) a été développé par la firme californienne OpenAI à partir des modèles de traitement du langage les plus avancés. Au-delà de ses capacités conversationnelles, ChatGPT est capable de générer des textes de manière autonome pour apporter des réponses aux questions des utilisateurs.
Des performances qui soulèvent déjà leur lot de questionnements et de préoccupations : des universités craignant la fraude aux examens l'ont interdit, des chercheurs l'ont testé pour écrire un article scientifique... En creux, la médiatisation de ChatGPT pose la question plus vaste de la place de l'IA dans nos vies, et de la valeur ajoutée qu'elle pourrait ou non avoir dans certains domaines, notamment dans le champ scientifique. La question éthique a, de ce fait, de plus en plus d'importance : comment s'assurer de la véracité des informations relayées par un tel outil ? Dans le domaine clinique, un diagnostic posé par une IA est-il réellement fiable ? Certaines professions sont-elles amenées à disparaître, remplacées par des systèmes d'IA plus performants ?
Des promesses déçues en médecine
Dans les sciences biomédicales, l'IA est depuis plusieurs années considérée comme une méthode prometteuse, pouvant potentiellement bénéficier au patient. Parmi les innovations attendues : l'optimisation de la prise en charge du patient, l'amélioration du diagnostic des maladies, la prédiction de l’état de santé futur du patient et la personnalisation de son suivi. En radiologie et en oncologie par exemple, des financements massifs ont déjà été alloués à des équipes de recherche travaillant sur le sujet.
Cependant, la réalité du terrain est plus nuancée. De nombreux systèmes d'IA développés ces dernières années se sont en fait avérés plutôt décevants. Parmi les exemples les plus connus, on peut citer celui de l'IA IBMIBM Watson Health. Ce système a été conçu pour guider la pratique des médecins, afin de les aider à améliorer les soins et de proposer les traitements les plus adaptés aux patients, notamment en oncologie. Toutefois, pour développer et entraîner l'IA, des données jugées de mauvaises qualités ainsi que des populations non représentatives auraient été sélectionnées, et une méthodologie inadéquate aurait été utilisée. Les modèles finaux présentaient des performances faibles susceptibles d'entraîner des erreurs médicales si les professionnels de santé avaient suivi les recommandations de l'IA à la lettre.
D'autres études ont montré que l'intelligence artificielle pouvait être utilisée en clinique pour prédire le risque de maladie cardiovasculaire ou encore le devenir de patients atteints de certains cancers. Cependant, la fiabilité des résultats variait grandement en fonction de la qualité des données utilisées pour alimenter les systèmes d'IA.
“La fiabilité des résultats variait grandement en fonction de la qualité des données utilisées pour alimenter les systèmes d’IA”
Ces cas illustrent un paradoxe que de nombreux chercheurs tentent de mettre en avant depuis plusieurs années. En théorie, l'IA est censée être plus efficace pour développer un modèle diagnostique ou pronostique, par rapport aux méthodes traditionnellement utilisées en médecine, car elle est capable d'intégrer une plus grande quantité de données et de paramètres. Néanmoins, dans les faits, elle ne fait pas toujours mieux.
Par conséquent, on constate aujourd'hui un contrastecontraste inquiétant entre les promesses de l'IA, et l'absence d'applicationsapplications et de démonstrations rigoureuses de sa pertinence clinique. Des travaux ont récemment montré que la majorité des études utilisant l'IA ont de nombreuses limites. Les systèmes d'IA sur lesquelles elles s'appuient sont en effet généralement entraînés à partir de données issues de populations de patients de faible qualité, avec des protocolesprotocoles inadaptés et des échantillons trop petits et/ou peu représentatifs. Ces systèmes sont par ailleurs rarement validés de façon indépendante, ce qui limite la possibilité de les implémenterimplémenter et de généraliser leur usage au niveau mondial.
En outre, une prise en charge adaptée et réellement personnalisée repose aussi en partie sur la relation qu'entretient le médecin avec son patient, sur sa capacité à intégrer des éléments de contexte socio-culturels, à décrypter les états émotionnels de la personne en face de lui... Autant d'éléments que l'IA est encore bien loin de pouvoir intégrer.
Ces faiblesses méthodologiques posent des questions quant à la fiabilité de l'IA et à son implémentation concrète dans les systèmes de santé - et sur les risques liés à son utilisation dans la prise en charge des patients.
Greffe de rein : comparaison IA versus méthodes traditionnelles
En cas d'insuffisance rénale, la greffe de rein est le meilleur traitement possible en matièrematière d'espérance de vie, de qualité de vie et de coût sociétal. L'échec de greffegreffe après transplantationtransplantation est donc particulièrement redouté. Néanmoins, prédire en avance le risque d'échec de la greffe, afin d'adapter le suivi et le traitement du patient, est une tâche difficile, car une multitude de paramètres entrent en jeu.
Si l'IA a récemment été mise en avant comme un outil pronosticpronostic permettant de prédire le risque d'échec d'une greffe rénale, peu d'études ont été dédiées, avant aujourd'hui, à la comparaison des performances de l'IA à celles de méthodes statistiques traditionnelles.
Dans une étude publiée en janvier 2023, des scientifiques de l'Inserm, de l'AP-HPHP et d'Université Paris Cité ont cherché à confronter l'IA aux modèles statistiques traditionnels de prédiction. En utilisant des données structurées et validées, émanant de cohortescohortes internationales de patients, les chercheurs ont développé des modèles de prédiction fondés sur l'IA et des modèles s'appuyant sur des méthodes statistiques traditionnelles. Ils ont ensuite comparé leurs performances respectives dans la prédiction du risque d'échec de la greffe rénale.
Les résultats, publiés dans la revue Kidney International sont sans équivoque : quel que soit le type d'algorithme utilisé, l'IA obtient des performances de prédiction du risque d'échec de la greffe rénale comparables aux modèles statistiques traditionnels.
Rédaction d'articles scientifiques : Chatgpt doit revoir sa copie
Si l'on revient au cas de ChatGPT, il est clair que cette IA n'a été pensée ni pour accompagner la pratique des chercheurs ou des médecins ni pour proposer des diagnostics. Néanmoins, il est en théorie possible pour n'importe quel utilisateur de soumettre à l'IA les inquiétudes qu'il pourrait avoir concernant sa santé - avec le risque d'obtenir des conseils erronés qui mettraient sa santé en danger.
Par ailleurs, si on quitte la pratique clinique pour s'intéresser aux implications dans la recherche pharmacologique, il est intéressant de s'arrêter sur une étude menée par des chercheurs espagnols, qui a fait l'objet de vives discussions. Ces derniers ont fait rédiger à ChatGPT un article scientifique complet sur le rôle des IA dans la découverte des médicaments. Une prouesse qui devrait inquiéter la communauté scientifique ? Pas tant que cela si l'on en croit l'expérience des chercheurs : en effet, ceux-ci ont dû largement retravailler et corriger l'article, ChatGPT n'ayant pas été capable, entre autres, de donner des références scientifiques correctes. Autre point d'importance, l'IA n'est entraînée qu'avec des données allant jusqu’à 2021 : elle ne dispose donc pas des informations les plus récentes.
Plus inquiétant en revanche, des chercheurs américains ont demandé à l'IA de rédiger de toutes pièces 50 résumés de recherche médicale à partir d'une sélection de résumés déjà publiés dans des revues scientifiques prestigieuses. Les chercheurs ont ensuite comparé les résumés produits par l'IA aux résumés originaux, en les soumettant à un détecteur de plagiat et à un détecteur de contenus d'IA. Ils ont aussi demandé à un groupe de chercheurs de repérer parmi les résumés ceux qui étaient authentiques et ceux qui avaient été générés de façon automatique.
Résultat : aucun plagiat n'a été détecté. De plus, si le détecteur d'IA n'a repéré que 66 % des résumés générés, les chercheurs n'ont pas fait beaucoup mieux en n'identifiant correctement que 68 % des résumés générés. Un constat qui soulève une interrogation pour le futur : si des résumés scientifiques peuvent facilement être générés par n'importe qui grâce à l'IA et si les experts ne parviennent pas toujours à les identifier, comment les chercheurs pourront-ils toujours s'assurer que les résultats scientifiques sur lesquels ils fondent leurs réflexions ne sont pas inventés ?
Plus largement, que ce soit pour développer un modèle de prédiction diagnostique ou pour rédiger un texte scientifique en s'appuyant sur ChatGPT, la question de la crédibilité, de la rigueur scientifique et de la véracité des informations relayées par l'IA est cruciale. Ce phénomène est en outre exacerbé par le manque de transparencetransparence quant au développement des modèles fondés sur l'IA qui ne connaissent du monde que l'information parfois biaisée et incomplète qu'on leur donne.
L'urgence de réfléchir à un cadre éthique et réglementaire
Ni les médecins ni les chercheurs ne seront remplacés par l'IA de sitôt. En effet, les limites méthodologiques de ces systèmes sont importantes, et leurs performances doivent encore être améliorées. À l'heure actuelle, rien ne vaut les interactions humaines pour proposer une prise en charge adaptée, fondée sur les particularités de chaque patient et l'expertise des médecins pour valider un diagnostic.
Il est toutefois nécessaire de réfléchir dès maintenant aux nombreuses problématiques méthodologiques et éthiques que l'IA soulève, et à la manière dont ces outils peuvent non pas remplacer les scientifiques et les médecins, mais au contraire représenter une valeur ajoutée quant à l'optimisation du suivi du patient et à l'amélioration des prises de décisions cliniques.
Texte rédigé avec le soutien de Alexandre Loupy, Marc Raynaud et Agathe Truchot au sein du Centre de recherche cardiovasculaire de Paris (Parcc) (unité 970 Inserm/Université de Paris ), équipe Paris Transplant Group.