Des chercheurs chinois ont mis au point un générateur de vidéos par texte. La particularité de cette IA réside dans le fait qu’elle est disponible en open source, ce qui pourrait bien propulser son développement, pour le meilleur ou... pour le pire !


au sommaire


    VideoCrafter-2.0, Pika Labs ou encore Open-Sora sont rapidement devenus des références en matièrematière de générateursgénérateurs de vidéos à partir d'invites textuelles. Ces plateformes disposent de moyens colossaux pour y parvenir et pourtant, en regardant du côté de l'open source, un projet mené par des chercheurs de l'université Tsinghua et de Zhipu AI, en Chine, pourrait bien venir bouleverser le paysage de l'IAIA vidéo.

    L'outil porteporte le nom de CogVideoX et les vidéos générées à partir d'invites durent six secondes. En tout, pour la version la plus performante du projet, cinq milliards de paramètres ont été intégrés et les vidéos sont produites avec une définition de 720×480 px à huit images par seconde. C'est certes bien moins évolué que les solutions commerciales disponibles sur le marché, mais le fait que l'outil soit de nature open source devrait changer les règles du jeu en exploitant la puissance collective de la communauté mondiale des développeurs.

    Exemples de vidéos créées via CogVideoX.© Gradio

    Pour le meilleur et pour le pire

    En attendant, au niveau technologique, les chercheurs ont mis au point un autoencodeur variationnel 3D (VAE). Ce procédé permet de compresser efficacement les vidéos. À ce module s'ajoute un « transformateurtransformateur expert ». Il s'agit d'un élément qui permet d'interpréter de façon plus nuancée les commandes textuelles pour générer des vidéos qui soient le plus possible en alignement avec ce qui est demandé.

    Si l’outil disponible en open source se veut vertueux, il existe potentiellement une contrepartie plutôt funeste. Avec cette ouverture, il est plus que probable que CogVideoX ou ses clonesclones puissent être détournés dans le but de générer des deepfakes et des contenus trompeurs. En attendant, il va falloir faire avec, car avec des IA de ce type disponibles en open source, le pire - comme le meilleur - peut arriver.