Parlez à toute vitesse, murmurez au milieu de bruits ambiants, criez  plus fort que la foule... Whisper analyse et transcrit comme il se doit. Une fois de plus, OpenAI, créateur de ChatGPT, remet les pendules à l’heure.

La reconnaissance vocale... Voilà un domaine qui bénéficie de dizaines d'années de recherche. Des programmes comme Dragon de Nuance ou Express Scribe se targuent de pratiquer la chose avec élégance. Et vous utilisez probablement Siri sur iPhone, l'Assistance Google sur un appareil Android ou encore Cortana sur Windows.

Plus futé que Siri ou Google Assistant

Reconnaissons-le toutefois : un système de reconnaissance vocale comme Siri est fort approximatif. Les textes que l'on dicte sont généralement truffés d'erreurs et si l'on ne prend pas la peine de se relire, les risques de fâcher un interlocuteur abondent.

Une fois de plus, OpenAI, créateur du célébrissime ChatGPT mais aussi du générateur d'images IA Dall.e2, se démarque par une qualité surprenante. Le speech donné en exemple (en anglais) sur le blog d'OpenAI parle de lui-même -- il est énoncé à toute vitesse, et réellement difficile à décoder à l'oreille. Whisper parvient pourtant à le déchiffrer. Et l'on notera que, ce qui le distingue de Siri ou des outils d'analyse de Google, Whisper inclut une ponctuation avisée dans ses transcriptions.

Siri et Google assistant font pâle figure en comparaison avec Whisper. © Naka, Fotolia
Siri et Google assistant font pâle figure en comparaison avec Whisper. © Naka, Fotolia

Qu'on se le dise : cet outil produit un meilleur rendu que celui qu'utilise YouTube pour générer les sous-titres de vidéos. D'ailleurs, Whisper fournit aussi un minutage de ce qui est dit, qu'il suffit ensuite de transmettre à YouTube.

Comment Whisper parvient-il à décoder la parole ?

Outil de reconnaissance automatique de la parole, Whisper a effectué son apprentissage, tout comme ChatGPT, sur de vastes volumes d'informations. Dans le cas présent, il s'agit de 680 000 heures de données multilingues trouvées sur le Web. Car, détail d'importance, Whisper est aussi à même de transcrire la parole de phrases prononcées en plusieurs langues -- quand bien même, pour l'heure, son efficacité maximale se trouve sur l'anglais.

Pour les geeks uniquement

Si l'envie vous prend de vouloir tester Whisper, à moins d'avoir une certaine compétence technique, il faudra, hélas, patienter car son usage suppose de pratiquer le langage Python.

Il existe toutefois une solution relativement accessible. Il se trouve que Google fournit une plate-forme, Google Colab, qui facilite l'usage de commandes Python. Si vous parlez bien l'anglais, il vous suffit alors de suivre les instructions indiquées sur cette page -- vous n'aurez aucunement à programmer en Python, la procédure a été simplifiée autant que faire se peut. Vous pourrez ainsi analyser un fichier vocal MP3 que vous aurez préalablement placé sur votre Google Drive.

 Nous avons testé ici Whisper dans l’environnement de Google Colab et lui avons demandé de transcrire une émission de télévision avec les voix de plusieurs intervenants. Même si son travail était loin d’être parfait — il a fallu reprendre certains termes —, il s’en est fort bien sorti. Les minutages qu’il a indiqués ont pu être utilisés tels quels pour YouTube. © Google Colab
Nous avons testé ici Whisper dans l’environnement de Google Colab et lui avons demandé de transcrire une émission de télévision avec les voix de plusieurs intervenants. Même si son travail était loin d’être parfait — il a fallu reprendre certains termes —, il s’en est fort bien sorti. Les minutages qu’il a indiqués ont pu être utilisés tels quels pour YouTube. © Google Colab
Les textes et minutages fournis par Whisper ont été importés dans YouTube. Le résultat est fort supérieur en qualité à ce que YouTube avait lui-même transcrit. © YouTube
Les textes et minutages fournis par Whisper ont été importés dans YouTube. Le résultat est fort supérieur en qualité à ce que YouTube avait lui-même transcrit. © YouTube

Nous avons testé Whisper sur une interview en français faisant intervenir plusieurs speakers et il s'est en fort bien sorti. Le résultat a pu être utilisé presque tel que pour produire des sous-titres sur YouTube. Donc, autant le dire, Whisper est ultra prometteur et pourrait tourner une page dans l'histoire de la reconnaissance de la parole par ordinateur !