Après la révolution des IA génératives comme ChatGPT ou Midjourney, un autre type d’IA est en train de connaître une évolution rapide. Les champs de rayonnement neuronaux, ou NeRF, permettent de créer une scène en 3D à partir de quelques photos prises avec un smartphone.


au sommaire


    Les chatbots ne sont pas le seul domaine dans lequel les intelligences artificielles connaissent une véritable révolution. Les champs de rayonnement neuronaux ou NeRFNeRF (Neural Radiance Fields, en anglais) sont à la 3D ce que les grands modèles de langage (LLM) comme GPT sont aux chatbots. Il s'agit d'un réseau neuronal capable de générer une scène en trois dimensions à partir de photos en deux dimensions.

    La technologie NeRF ne se résume pas à quelques articles de recherche purement théoriques. De multiples versions existent déjà. C'est ce qui a permis à GoogleGoogle de créer Immersive View, une vue en 3D impressionnante et très détaillée de plusieurs grandes villes.

    En combinant un réseau NeRF avec un modèle de langage, il est possible d’identifier des objets dans une scène du monde réel. © Université de Californie à Berkeley

    Un smartphone suffit pour avoir une scène en 3D

    Concrètement, il suffit de prendre quelques photos avec son smartphone ou un drone sous différents angles, ou tourner une courte vidéo, et le système NeRF génère la scène en 3D. Il est alors possible de déplacer la caméra dans la scène comme dans un jeu vidéo, d'insérer des objets en 3D dans une autre scène ou de changer l'arrière-plan d'une vidéo.

    Une créatrice a publié sur Twitter comment elle a utilisé Luma AI pour créer un travelling compensé, un effet cinématographique qui exprime un sentiment de vertige. La combinaison avec d'autres outils permet encore plus de créativité. Une autre vidéo publiée sur TwitterTwitter montre l'utilisation de Stable Diffusion et EbSynth pour transformer une statue de bouddha en or et changer tout le paysage autour.

    Les champs de rayonnement neuronaux se combinent avec d’autres IA

    Cette technologie connaît une évolution de plus en plus rapide. Pour ne citer que quelques exemples, Mip-NeRF, une référence dans le domaine, est sorti en 2021. L'année dernière, Nvidia a présenté son Instant NeRF, capable de créer une scène en quelques millisecondes en Full HD. Des chercheurs de chez Google viennent de publier Zip-NeRF, 22 fois plus rapide que Mip-NeRF.

    Les utilisations possibles de cette technologie sont également très nombreuses. L'université de Californie à Berkeley a combiné un réseau NeRF avec un modèle de langage pour créer LeRF, un système pour identifier des objets dans une scène, ce qui pourrait être utile pour la robotique. Ils imaginent notamment le combiner à ChatGPTChatGPT. Ainsi, il suffirait d'informer l'IA que quelqu'un a renversé du café, ChatGPT génère alors la liste d'actions (aller chercher un chiffon, des produits nettoyants, rincer le chiffon...) et le robot pourrait facilement identifier la tache grâce à LeRF. Une équipe au Japon travaille sur le rendu d'une scène en temps réel avec le moteur de jeu Unreal Engine, ce qui permettrait par exemple de transformer son jardin en un niveau d'un jeu. Une autre équipe à Singapour a réussi à créer une IA baptisée HOSNeRF, capable de transformer une vidéo pour qu'il soit possible de la regarder sous n'importe quel angle, plutôt que d'être limité à des scènes statiques.

    L'engouement pour les champs de rayonnement neuronaux est certain, et le grand public va probablement croiser cette technologie de plus en plus souvent. Elle risque de révolutionner le cinéma, la photographiephotographie et la 3D dans les années à venir.