Des chercheurs de chez Apple ont créé Depth Pro, un nouveau modèle d’intelligence artificielle capable de créer une carte de profondeur à partir d’une image en deux dimensions. L’IA fonctionne sans capteur de profondeur ou autres données supplémentaires, et ce en une fraction de seconde.


au sommaire


    La capacité à évaluer la distance des objets est très importante pour de nombreuses tâches, que ce soit dans la robotique, les voitures autonomes ou encore la réalité augmentée. Il existe différentes méthodes pour y parvenir, comme l'utilisation de deux caméras pour une vision stéréoscopique ou des capteurs de temps de vol.

    Toutefois, des chercheurs de chez AppleApple viennent de publier un nouveau modèle de fondation, une intelligence artificielle capable d'estimer la distance des objets à partir d'une simple image en deux dimensions. Baptisée Depth Pro, cette IA n'utilise aucune métadonnée des images pour parvenir à une modélisationmodélisation en trois dimensions.

    Depth Pro est présenté en tant que « modèle de fondation pour l'estimation de la profondeur monoculaire métrique en zero-shot ».

    Exemples de cartes de profondeur créées par <em>Depth Pro</em> à partir de photos en deux dimensions. © Apple
    Exemples de cartes de profondeur créées par Depth Pro à partir de photos en deux dimensions. © Apple

    Un modèle sous licence libre

    Depth Pro crée des cartes de profondeur, permettant d'estimer la distance des objets dans une photo en échelle absolue. De plus, le modèle est relativement rapide, créant une carte de profondeur de 2,25 mégapixels (1 536 x 1 536 pixelspixels) en seulement 0,3 seconde avec une carte graphique V100.

    Le modèle fonctionne avec une architecture Vision Transformer (ViT) à échelles multiples, lui permettant de travailler à grande échelle pour une compréhension globale de l'image, puis de passer à une échelle plus petite pour trouver les bords des éléments plus complexes, comme les cheveux, la fourrure ou les plantes. Cela permet une plus grande précision tout en limitant la puissance de calcul nécessaire.

    Pour une fois, Apple a publié le code sourcecode source sous licence libre, permettant à n'importe qui de l'utiliser et de le modifier. Il est disponible sur GitHub, accompagné de la documentation, et les chercheurs ont publié leur article sur Arxiv. Une démonstration de Depth Pro est disponible sur Hugging Face.