Intelligence artificielle : transcrire l’audio en texte de façon irréprochable

Le meilleur outil de transcription d’un fichier audio ou vidéo est Whisper. Son usage n’est pas aisé mais si vous suivez les instructions données ici, vous pourrez transcrire des enregistrements de longue durée avec une fidélité remarquable.

au sommaire

Si vous utilisez un iPhone, il est probable que vous utilisiez SiriSiri pour parler à votre smartphone. Et il est possible que vous ayez été souvent déçu par la transcriptiontranscription de ce que vous aviez dit, même si la situation s'est récemment améliorée. Sur AndroidAndroid, vous avez affaire à Google AssistantGoogle Assistant et sous Windows à CortanaCortana. Eh bien, il existe un système qui les surpasse tous. Un outil à même de détecter la langue que vous utilisez et de transcrire vos propos avec fidélité. Cet outil, c'est Whisper de OpenAI, par ailleurs, créateur de ChatGPT. D'ailleurs, si vous utilisez ChatGPTChatGPT sur un smartphone ou sur une tablette, vous avez peut-être eu recours sans le savoir à Whisper pour poser des questions à cette intelligence artificielle. Et vous avez peut-être remarqué que la transcription de vos propos était bien plus fidèle qu'avec Siri ou autre.

Voir aussi : Les meilleurs VPN du moment

Le point important, c'est que Whisper peut être utilisé pour transcrire de très longs speechs. En réalité, nous l'avons mis à contribution sur des enregistrements d'une heure ou davantage, effectués dans des conditions parfois homériques (bruits de fond, diction approximative, personnes qui parlent en même temps...) et le résultat a toujours été honorable. Whisper est donc un outil qu'il est bon de maîtriser. Il peut aussi produire une transcription de qualité utilisable sur YoutubeYoutube, avec le minutage approprié. Sachez qu'il sait reconnaître 99 langues. Et que nous pouvons lui soumettre pour analyse aussi bien des fichiers audio que vidéo.

De la nécessité de passer par Google Colab

Seul souci, l'usage de Whisper est quelque peu technique. Il nécessite d'exécuter des « scripts » (programmes) Python pour le mettre en œuvre. En réalité, vous n'avez pas besoin de maîtriser le langage de programmation qu'est PythonPython. Tout ce qui est nécessaire, c'est de disposer d'un compte Google - et vous en avez un dès lors que vous avez créé une adresse GmailGmail - pour accéder à l'interface appelée Google Colab et qui aide à l'écriture et au test de programmes Python. Et ici, nous allons utiliser des programmes déjà écrits et qu'il suffit donc d'installer et d'exécuter.

Google Colab vous permet d'exécuter du code Python directement depuis votre navigateur Web - ici, ce sera Chrome.

Pour accéder à Colab, tapez : https://colab.google.com, sélectionnez ensuite « Nouveau notebook ». Vous avez alors accès à une interface de saisie de code.

Exploiter la puissance du processeur graphique

Avant d'aller plus loin, vous pouvez forcer Colab à utiliser le processeur de votre carte graphique plutôt que le microprocesseur de l'ordinateurordinateur. Vous le savez peut-être, ces processeurs graphiquesprocesseurs graphiques, appelés GPU, sont bien plus puissants et rapides. Pour ce faire, depuis Colab, sélectionnez la flèche vers le bas (à droite de « Connecter ») puis l'option « Modifier le type d'exécution ». Sélectionnez alors « T4T4 GPU ». Cliquez ensuite sur « OK ».

Ici , nous instruisons Google Colab d’exploiter le processeur graphique de l’ordinateur. © Google

À présent, dans la première case (précédée du chiffre 1), introduisez cette séquence (vous pouvez la recopier telle quelle) : !pip install git+https://github.com/openai/whisper.git

Cliquez ensuite sur la flèche située à gauche de cette instruction ; cela va l'exécuter. En fait, nous instruisons ici Colab d'installer Whisper depuis le site Github où se trouve le code correspondant. Patientez quelques minutes pour que Colab installe Whisper dans son environnement de travail. Ne vous préoccupez pas des instructions affichées à l'écran. Laissez l'opération se dérouler aussi longtemps qu'un carré entouré d'un cercle apparaît à la place de la flèche.

Une fois l'opération achevée, cliquez sur « +Code » et à présent, tapez (ou copiez-collez) le code suivant : !sudo apt update && sudo apt install ffmpeg

Là encore, exécutez ce code en cliquant sur la flèche. Pour information, ffmpeg est un outil de gestion de l'audio et de la vidéo. Cette fois, l'installation de ce module ne devrait durer que quelques secondes.

Importation d’un fichier audio et vidéo à analyser

Maintenant, vous êtes prêt pour la transcription d'un ou plusieurs fichiers audio ou vidéo, y compris des fichiers de taille importante - comme nous vous l'avons dit, nous avons mis Whisper à contribution sur des enregistrements d'une heure ou davantage !

Pour ce faire, dans la colonne de gauche, repérez l'icôneicône de « Documents ». Lorsque vous cliquez dessus, une fenêtrefenêtre s'ouvre sur la gauche. Cliquez sur l'icône (« Importer dans l'espace de stockage de la session ») ou bien glissez-déplacez un fichier audio ou vidéo.

Une fois téléchargé, le fichier apparaît dans la fenêtre des documents. Attention, le chargement du fichier peut prendre un certain temps et il faut bien attendre qu'il ait intégralement été chargé.

Le fichier qui doit être transcrit par Whisper a été importé dans l’espace de travail de Colab. © Google

Exécution de Whisper

Cliquez alors sur « +Code » pour ouvrir une nouvelle ligne de code et insérez le code qui suit : !whisper "le nom de votre fichier" --model medium

Bien évidemment, il faut remplacer [le nom de votre fichier] par le nom effectif de votre fichier, par exemple test.mp3, tournage en plein airair.mp4, etc.

Cliquez ensuite sur la flèche pour lancer la transcription par Whisper. Comme vous allez le voir, cet outil de OpenAI détecte la langue parlée puis opère une transcription de très haute qualité, assortie d'un minutage.

Les fichiers de transcription

Laissez la transcription se dérouler intégralement, ce qui peut être long si votre enregistrement est lui-même fort long. Une fois qu'elle est achevée, vous allez voir apparaître plusieurs fichiers de transcription dans la fenêtre de gauche :

le fichier « .txt » comporte la transcription de l'audio et vous pouvez le récupérer afin de l'éditer depuis un traitement de texte tel que Word. En effet, il faudra peut-être retoucher ledit texte en améliorant la ponctuation et en insérant des retours à la ligne. Habituellement, il faut également corriger les noms propres ;
le fichier « .srt » peut être utilisé afin de fournir à YouTube des sous-titres avec le minutage approprié ;
le ficher « .vtt »correspond à un format de sous-titre plus récent également pris en compte par YouTube ;
le fichier « .tsv » correspond à un format de type feuille de calcul.

Placez cette page dans vos favoris

Si vous avez de nombreux fichiers audio et vidéo à transcrire, pensez à placer la présente page dans vos favoris. Vous disposerez ainsi des instructions à copier-coller dans Colab afin de pouvoir recourir à Whisper à tout moment.

Vous en conviendrez, la procédure n'est pas forcément bien simple, mais le résultat en vaut la chandelle.

Découvrez notre comparateur de VPN et trouvez l'offre qui vous convient