Avec des outils tels que Whisper – un projet des créateurs de ChatGPT –, l’heure où des robots pourront faire de la conversation à grande échelle n’est plus très loin. © metamorworks, Adobe Stock

La science-fiction c’est maintenant avec Whisper d'OpenAI qui révolutionne la reconnaissance vocale !

Intelligence artificielle

ChatGPT

actualité

• 3 Min

×

[EN VIDÉO] Comment définir la pertinence de l'intelligence artificielle ? L’intelligence artificielle (IA), de plus en plus présente dans notre monde, permet aux machines d’imiter...

Parlez à toute vitesse, murmurez au milieu de bruits ambiants, criez plus fort que la foule... Whisper analyse et transcrit comme il se doit. Une fois de plus, OpenAI, créateur de ChatGPT, remet les pendules à l’heure.

au sommaire

Plus futé que Siri ou Google Assistant
Comment Whisper parvient-il à décoder la parole ?
Pour les geeks uniquement
À lire aussi

La reconnaissance vocale... Voilà un domaine qui bénéficie de dizaines d'années de recherche. Des programmes comme Dragon de Nuance ou Express Scribe se targuent de pratiquer la chose avec élégance. Et vous utilisez probablement Siri sur iPhone, l'Assistance GoogleGoogle sur un appareil AndroidAndroid ou encore CortanaCortana sur Windows.

Plus futé que Siri ou Google Assistant

Reconnaissons-le toutefois : un système de reconnaissance vocale comme SiriSiri est fort approximatif. Les textes que l'on dicte sont généralement truffés d'erreurs et si l'on ne prend pas la peine de se relire, les risques de fâcher un interlocuteur abondent.

Une fois de plus, OpenAI, créateur du célébrissime ChatGPT mais aussi du générateurgénérateur d'images IA Dall.e2, se démarque par une qualité surprenante. Le speech donné en exemple (en anglais) sur le blog d'OpenAI parle de lui-même -- il est énoncé à toute vitessevitesse, et réellement difficile à décoder à l'oreille. Whisper parvient pourtant à le déchiffrer. Et l'on notera que, ce qui le distingue de Siri ou des outils d'analyse de Google, Whisper inclut une ponctuation avisée dans ses transcriptionstranscriptions.

Siri et Google assistant font pâle figure en comparaison avec Whisper. © Naka, Fotolia

Siri et Google assistant font pâle figure en comparaison avec Whisper. © Naka, Fotolia

Qu'on se le dise : cet outil produit un meilleur rendu que celui qu'utilise YouTubeYouTube pour générer les sous-titres de vidéos. D'ailleurs, Whisper fournit aussi un minutage de ce qui est dit, qu'il suffit ensuite de transmettre à YouTube.

Comment Whisper parvient-il à décoder la parole ?

Outil de reconnaissance automatique de la parole, Whisper a effectué son apprentissage, tout comme ChatGPT, sur de vastes volumesvolumes d'informations. Dans le cas présent, il s'agit de 680 000 heures de données multilingues trouvées sur le Web. Car, détail d'importance, Whisper est aussi à même de transcrire la parole de phrases prononcées en plusieurs langues -- quand bien même, pour l'heure, son efficacité maximale se trouve sur l'anglais.

Pour les geeks uniquement

Si l'envie vous prend de vouloir tester Whisper, à moins d'avoir une certaine compétence technique, il faudra, hélas, patienter car son usage suppose de pratiquer le langage PythonPython.

Il existe toutefois une solution relativement accessible. Il se trouve que Google fournit une plate-forme, Google Colab, qui facilite l'usage de commandes Python. Si vous parlez bien l'anglais, il vous suffit alors de suivre les instructions indiquées sur cette page -- vous n'aurez aucunement à programmer en Python, la procédure a été simplifiée autant que faire se peut. Vous pourrez ainsi analyser un fichier vocal MP3 que vous aurez préalablement placé sur votre Google Drive.

Nous avons testé ici Whisper dans l’environnement de Google Colab et lui avons demandé de transcrire une émission de télévision avec les voix de plusieurs intervenants. Même si son travail était loin d’être parfait — il a fallu reprendre certains termes —, il s’en est fort bien sorti. Les minutages qu’il a indiqués ont pu être utilisés tels quels pour YouTube. © Google Colab

Nous avons testé ici Whisper dans l’environnement de Google Colab et lui avons demandé de transcrire une émission de télévision avec les voix de plusieurs intervenants. Même si son travail était loin d’être parfait — il a fallu reprendre certains termes —, il s’en est fort bien sorti. Les minutages qu’il a indiqués ont pu être utilisés tels quels pour YouTube. © Google Colab

Les textes et minutages fournis par Whisper ont été importés dans YouTube. Le résultat est fort supérieur en qualité à ce que YouTube avait lui-même transcrit. © YouTube

Les textes et minutages fournis par Whisper ont été importés dans YouTube. Le résultat est fort supérieur en qualité à ce que YouTube avait lui-même transcrit. © YouTube

Nous avons testé Whisper sur une interview en français faisant intervenir plusieurs speakers et il s'est en fort bien sorti. Le résultat a pu être utilisé presque tel que pour produire des sous-titres sur YouTube. Donc, autant le dire, Whisper est ultra prometteur et pourrait tourner une page dans l'histoire de la reconnaissance de la parole par ordinateur !

Image du site Futura Sciences

par Daniel Ichbiah

Publié le 15 février 2023 à 11:23

Nos articles

à lire aussi

Un robot simule l'usage d'outils de conversation par Intelligence artificielle tels que ChatGPT ou Playground. © Hamid, Adobe Stock

Tech

Intelligence artificielle

Si vous aimez ChatGPT, vous allez adorer Playground

actualité

• 06/02/2023

La Chine ne souhaite pas louper la révolution des IA. © Baidu

Tech

Technologie

La Chine fait aussi sa révolution ChatGPT et des IA génératives

actualité

• 09/02/2023

Microsoft a ajouté de nouvelles fonctionnalités dans son moteur de recherche Bing grâce à ChatGPT-4. © TaniaC., Adobe Stock

Tech

Intelligence artificielle

GPT-4, « votre copilote pour le Web », est désormais ouvert à tous dans Bing

actualité

• 04/05/2023

La qualité des textes créés via ChatGPT trompe aujourd'hui énormément de monde. © michagehtraus, Adobe Stock

Tech

Intelligence artificielle

Cet outil détecte les textes rédigés par ChatGPT

actualité

• 21/01/2023

La commande vocale « Ok Google » fonctionne sur les smartphones Android et iOS. Comment l'activer ? © chombosan, fotolia

Tech

Smartphone

Activer la commande vocale « Ok Google » sur Android et iOS

question réponse

• 10/07/2024

L'ingénieur en intelligence artificielle va créer des programmes informatiques pour que la machine raisonne comme l'Homme, les émotions en moins. © phonlamaiphoto, Adobe Stock

Sciences

Métiers

Ingénieur en intelligence artificielle

métier

• 26/12/2023

https://datascientest.com/formation-machine-learning-engineer?utm_source=futura-sciences.com&utm_medium=affiliates&utm_campaign=futura_sciences_juin_2021&utm_content=call-to-actionLe machine learning engineer développe des programmes pour que les machines apprennent par elles-mêmes. © phonlamaiphoto, Adobe Stock.

Sciences

Métiers

Machine learning engineer

métier

• 10/06/2021

L’assistant social doit faire preuve d’empathie et être à l’écoute des personnes dont il a la charge. © Viacheslav lakobchuk, Fotolia.

Santé

Métiers du social

Assistant social

métier

• 27/06/2019

Futura vous explique comment activer la reconnaissance vocale sur Windows 10. © pxhere.com

Tech

Bureautique

Comment activer la reconnaissance vocale sur Windows 10

question réponse

• 26/08/2020

Comment fonctionnent les logiciels de traduction automatique ? © Vegefox.com

Tech

Traducteur

Comment l'intelligence artificielle peut-elle être mise au service de la traduction ?

question réponse

• 30/09/2021

Qui sont les pères de l'intelligence artificielle (IA) ? © phonlamaiphoto, Adobe Stock

Tech

Intelligence artificielle

Intelligence artificielle : ces pionniers qui ont révolutionné l'IA

question réponse

• 21/02/2024

La robotique et le langage. © Bruce Rolff, Shutterstock

Tech

Robotique

Langage : des robots pour comprendre l'origine de la parole

dossier

• 18/06/2020

Ce mardi 1er décembre 2020, les Electric Days et Yann LeCun, Chief IA Scientist de Facebook, nous donnent rendez-vous à 14 heures 45 pour imaginer comme l’intelligence artificielle peut agir comme un accélérateur de la transition énergétique. © ipopba, Adobe Stock

Tech

Intelligence artificielle

L’intelligence artificielle, accélérateur de la transition énergétique ?

brève

• 01/12/2020

Une intelligence artificielle pour dépister la démence ? © Sergii Mostovyi

Santé

Démence

Une intelligence artificielle peut prédire une démence future en lisant sur votre visage

brève

• 08/02/2021

La Mégane E-Tech se différencie quelque peu de la Mégane thermique. S’il s’agit toujours d’une berline compacte, elle est typée SUV. Cette version électrique est basée sur la nouvelle plateforme CMF-EV développée par l’alliance Renault-Nissan-Mitsubishi. © Renault

Tech

Voiture électrique

Découvrez la Mégane E-Tech en photos

diaporama

• 01/06/2022

La sélection de la

Rédaction

Les ordinateurs des marques Medion et Erazer sont réputés pour leur fiabilité. © Erazer

Tech

Technologie

Réparés en cas de panne et remboursés ! Les marques Erazer et Medion sont sûres de la qualité de leurs ordinateurs

Article

La tradition horlogère française remonte à plus de 700 ans. © Freepik

Tech

Jeunes Pousses

Chronospedia, la première encyclopédie 3D collaborative dédiée à l'horlogerie

Article

Les challenges sur TikTok sont dangereux pour la santé des plus jeunes. © SB, Mistral AI

Tech

Réseaux sociaux

Les influenceurs fitness TikTok pensent avant tout à leur notoriété qu’à votre santé

Article

La France affiche ses ambitions dans le domaine de l’intelligence artificielle. © Image générée par Copilot

Tech

Intelligence artificielle

La France compte assurer sa souveraineté numérique en construisant des centres de données

Article

L’IA civile s’intéresse désormais à la « chose » militaire. © SB, Mistral AI

Tech

Guerre du futur

2025, l’année où l’IA militaire devient réalité

Article

Le nouveau robot aspirateur DEEBOT X8 Pro OMNI peut identifier les taches grâce à l’IA. © Ecovacs

Tech

Technologie

Ecovacs lance sa nouvelle gamme de robots domestiques

Article

Découvrez 4 astuces pour limiter le démarchage téléphonique ! © alphaspirit, Adobe Stock

Tech

Téléphonie

4 astuces pour vous protéger du démarchage téléphonique

Article

Le seuil de déclenchement du malus écologique passe de 118 à 113 g/km. © AM avec Dall-E

Tech

Voiture

Un tournant pour l’automobile : ce que change le malus écologique dès le mois de mars

Article

Liens externes

Test de Whisper via Google Colab

À voir aussi

reconnaissance vocale

reconnaissance vocale définition

intelligence artificielle

intelligence artificielle danger

intelligence artificielle exemple

reconnaissance vocale tipe

lettre de motivation intelligence artificielle

thèse cifre intelligence artificielle

Mots Clés

Reconnaissance vocale

OpenAI ChatGPT

Intelligence artificielle

Parole

Langage

Ponctuation

Traduction

Google Traduction

Logiciel de traduction

Traduction en temps réel

Siri

Google Assistant