au sommaire
Une seule conversation peut être interprétée de différentes façons. Discerner les émotions et la tonalité d'un discours, comme tout être humain, c'est le pari du système portable en cours de mise au point au Laboratoire de sciences informatiques et d'intelligence artificielle (CSAIL) et à l'Institut en ingénierie médicale (IMES) du MIT (Massachusetts Institute of Technology), aux États-Unis. Dans un communiqué (avec une vidéo en anglais), les chercheurs expliquent la fonctionnalité de ce système, basée sur une applicationapplication qui peut être intégrée dans une montre connectée ou un bracelet.
Les scientifiques l'ont testé sur des participants portant une montre connectée SamsungSamsung Simband. Cet appareil est capable de recueillir des signaux physiologiques, en analysant des modifications physiquesphysiques telles que changements de température, de pression artériellepression artérielle et du rythme cardiaque, mais aussi les mouvementsmouvements des bras ou des jambes. Le système écoute également l'entourage pour analyser le ton, l'énergieénergie et le vocabulaire du locuteur.
Mohammad Ghassemi (à gauche) et Tuka Alhanai, portant la montre, testent le dispositif sur lequel ils travaillent au CSAIL, un laboratoire du MIT. © CSAIL
Une aide pour les troubles autistiques
L'équipe a recueilli 31 conversations de plusieurs minutes et testé deux algorithmes, le premier catégorisant la nature du discours (triste ou heureux), le second classant des séquences de cinq secondes de conversation comme positives, négatives ou neutres. L'algorithme a par exemple analysé de longs silences ou des sonorités vocales monotones, les interprétant comme des propos tristes tandis que des structures de langage énergiques et variées étaient vues comme des discussions gaies. Le système a pu analyser les signaux audio, physiologiques et même des transcriptionstranscriptions de textes pour déterminer le ton général d'un discours ou d'une conversation avec un taux de précision de 83 %.
« À notre connaissance, il s'agit de la première expérience capable de recueillir à la fois des données physiques et vocales de façon passive mais fiable pendant que les sujets ont des interactions naturelles et déstructurées. Nos résultats indiquent qu'il est possible de classer la nature émotionnelle d'une conversation en temps réel », explique Mohammad Ghassemi, coauteur de l'étude.
Cette nouvelle technologie pourrait servir de « coach social » aux personnes souffrant notamment du syndrome d’Asperger, un trouble autistique d'origine neurobiologique qui affecte la communication et l'interaction. Leurs travaux seront présentés à la conférence de l'Association for the Advancement of Artificial Intelligence, qui doit se tenir cette semaine à San Francisco (États-Unis).