Parlez à toute vitesse, murmurez au milieu de bruits ambiants, criez  plus fort que la foule... Whisper analyse et transcrit comme il se doit. Une fois de plus, OpenAI, créateur de ChatGPT, remet les pendules à l’heure.


au sommaire


    La reconnaissance vocale... Voilà un domaine qui bénéficie de dizaines d'années de recherche. Des programmes comme Dragon de Nuance ou Express Scribe se targuent de pratiquer la chose avec élégance. Et vous utilisez probablement Siri sur iPhone, l'Assistance GoogleGoogle sur un appareil AndroidAndroid ou encore CortanaCortana sur Windows.

    Plus futé que Siri ou Google Assistant

    Reconnaissons-le toutefois : un système de reconnaissance vocale comme SiriSiri est fort approximatif. Les textes que l'on dicte sont généralement truffés d'erreurs et si l'on ne prend pas la peine de se relire, les risques de fâcher un interlocuteur abondent.

    Une fois de plus, OpenAI, créateur du célébrissime ChatGPT mais aussi du générateurgénérateur d'images IA Dall.e2, se démarque par une qualité surprenante. Le speech donné en exemple (en anglais) sur le blog d'OpenAI parle de lui-même -- il est énoncé à toute vitessevitesse, et réellement difficile à décoder à l'oreille. Whisper parvient pourtant à le déchiffrer. Et l'on notera que, ce qui le distingue de Siri ou des outils d'analyse de Google, Whisper inclut une ponctuation avisée dans ses transcriptionstranscriptions.

    Siri et Google assistant font pâle figure en comparaison avec Whisper. © Naka, Fotolia
    Siri et Google assistant font pâle figure en comparaison avec Whisper. © Naka, Fotolia

    Qu'on se le dise : cet outil produit un meilleur rendu que celui qu'utilise YouTubeYouTube pour générer les sous-titres de vidéos. D'ailleurs, Whisper fournit aussi un minutage de ce qui est dit, qu'il suffit ensuite de transmettre à YouTube.

    Comment Whisper parvient-il à décoder la parole ?

    Outil de reconnaissance automatique de la parole, Whisper a effectué son apprentissage, tout comme ChatGPT, sur de vastes volumesvolumes d'informations. Dans le cas présent, il s'agit de 680 000 heures de données multilingues trouvées sur le Web. Car, détail d'importance, Whisper est aussi à même de transcrire la parole de phrases prononcées en plusieurs langues -- quand bien même, pour l'heure, son efficacité maximale se trouve sur l'anglais.

    Pour les geeks uniquement

    Si l'envie vous prend de vouloir tester Whisper, à moins d'avoir une certaine compétence technique, il faudra, hélas, patienter car son usage suppose de pratiquer le langage PythonPython.

    Il existe toutefois une solution relativement accessible. Il se trouve que Google fournit une plate-forme, Google Colab, qui facilite l'usage de commandes Python. Si vous parlez bien l'anglais, il vous suffit alors de suivre les instructions indiquées sur cette page -- vous n'aurez aucunement à programmer en Python, la procédure a été simplifiée autant que faire se peut. Vous pourrez ainsi analyser un fichier vocal MP3 que vous aurez préalablement placé sur votre Google Drive.

     Nous avons testé ici Whisper dans l’environnement de Google Colab et lui avons demandé de transcrire une émission de télévision avec les voix de plusieurs intervenants. Même si son travail était loin d’être parfait — il a fallu reprendre certains termes —, il s’en est fort bien sorti. Les minutages qu’il a indiqués ont pu être utilisés tels quels pour YouTube. © Google Colab
    Nous avons testé ici Whisper dans l’environnement de Google Colab et lui avons demandé de transcrire une émission de télévision avec les voix de plusieurs intervenants. Même si son travail était loin d’être parfait — il a fallu reprendre certains termes —, il s’en est fort bien sorti. Les minutages qu’il a indiqués ont pu être utilisés tels quels pour YouTube. © Google Colab
    Les textes et minutages fournis par Whisper ont été importés dans YouTube. Le résultat est fort supérieur en qualité à ce que YouTube avait lui-même transcrit. © YouTube
    Les textes et minutages fournis par Whisper ont été importés dans YouTube. Le résultat est fort supérieur en qualité à ce que YouTube avait lui-même transcrit. © YouTube

    Nous avons testé Whisper sur une interview en français faisant intervenir plusieurs speakers et il s'est en fort bien sorti. Le résultat a pu être utilisé presque tel que pour produire des sous-titres sur YouTube. Donc, autant le dire, Whisper est ultra prometteur et pourrait tourner une page dans l'histoire de la reconnaissance de la parole par ordinateur !