Parlez à toute vitesse, murmurez au milieu de bruits ambiants, criez plus fort que la foule... Whisper analyse et transcrit comme il se doit. Une fois de plus, OpenAI, créateur de ChatGPT, remet les pendules à l’heure.
au sommaire
La reconnaissance vocale... Voilà un domaine qui bénéficie de dizaines d'années de recherche. Des programmes comme Dragon de Nuance ou Express Scribe se targuent de pratiquer la chose avec élégance. Et vous utilisez probablement Siri sur iPhone, l'Assistance GoogleGoogle sur un appareil AndroidAndroid ou encore CortanaCortana sur Windows.
Plus futé que Siri ou Google Assistant
Reconnaissons-le toutefois : un système de reconnaissance vocale comme SiriSiri est fort approximatif. Les textes que l'on dicte sont généralement truffés d'erreurs et si l'on ne prend pas la peine de se relire, les risques de fâcher un interlocuteur abondent.
Une fois de plus, OpenAI, créateur du célébrissime ChatGPT mais aussi du générateurgénérateur d'images IA Dall.e2, se démarque par une qualité surprenante. Le speech donné en exemple (en anglais) sur le blog d'OpenAI parle de lui-même -- il est énoncé à toute vitessevitesse, et réellement difficile à décoder à l'oreille. Whisper parvient pourtant à le déchiffrer. Et l'on notera que, ce qui le distingue de Siri ou des outils d'analyse de Google, Whisper inclut une ponctuation avisée dans ses transcriptionstranscriptions.
Qu'on se le dise : cet outil produit un meilleur rendu que celui qu'utilise YouTubeYouTube pour générer les sous-titres de vidéos. D'ailleurs, Whisper fournit aussi un minutage de ce qui est dit, qu'il suffit ensuite de transmettre à YouTube.
Comment Whisper parvient-il à décoder la parole ?
Outil de reconnaissance automatique de la parole, Whisper a effectué son apprentissage, tout comme ChatGPT, sur de vastes volumesvolumes d'informations. Dans le cas présent, il s'agit de 680 000 heures de données multilingues trouvées sur le Web. Car, détail d'importance, Whisper est aussi à même de transcrire la parole de phrases prononcées en plusieurs langues -- quand bien même, pour l'heure, son efficacité maximale se trouve sur l'anglais.
Pour les geeks uniquement
Si l'envie vous prend de vouloir tester Whisper, à moins d'avoir une certaine compétence technique, il faudra, hélas, patienter car son usage suppose de pratiquer le langage PythonPython.
Il existe toutefois une solution relativement accessible. Il se trouve que Google fournit une plate-forme, Google Colab, qui facilite l'usage de commandes Python. Si vous parlez bien l'anglais, il vous suffit alors de suivre les instructions indiquées sur cette page -- vous n'aurez aucunement à programmer en Python, la procédure a été simplifiée autant que faire se peut. Vous pourrez ainsi analyser un fichier vocal MP3 que vous aurez préalablement placé sur votre Google Drive.
Nous avons testé Whisper sur une interview en français faisant intervenir plusieurs speakers et il s'est en fort bien sorti. Le résultat a pu être utilisé presque tel que pour produire des sous-titres sur YouTube. Donc, autant le dire, Whisper est ultra prometteur et pourrait tourner une page dans l'histoire de la reconnaissance de la parole par ordinateur !