Une nouvelle astuce permet à l’intelligence artificielle de voir en 3D


La vague actuelle de intelligence artificielle remonte à 2012, et un concours académique qui mesurait à quel point algorithmes pouvait reconnaître des objets sur des photographies.

Cette année-là, les chercheurs ont découvert que l’introduction de milliers d’images dans un algorithme vaguement inspiré de la façon dont les neurones d’un cerveau réagissent aux entrées produisait un énorme bond en précision. Cette percée a déclenché une explosion de la recherche universitaire et de l’activité commerciale qui est transformer certaines entreprises et industries.

Maintenant, une nouvelle astuce, qui consiste à former le même type d’algorithme d’IA pour transformer des images 2D en une vue 3D riche d’une scène, suscite l’enthousiasme dans les mondes de l’infographie et de l’IA. La technique a le potentiel de bousculer jeux vidéo, réalité virtuelle, robotiqueet conduite autonome. Certains experts pensent que cela pourrait même aider les machines à percevoir et à raisonner sur le monde d’une manière plus intelligente – ou au moins humaine-Chemin.

“C’est ultra-chaud, il y a un énorme buzz”, explique Ken Goldberg, roboticien à l’Université de Californie à Berkeley, qui utilise la technologie pour améliorer la capacité des robots améliorés par l’IA à saisir des formes inconnues. Goldberg dit que la technologie a “des centaines d’applications”, dans des domaines allant du divertissement à l’architecture.

La nouvelle approche consiste à utiliser un réseau neuronal pour capturer et générer des images 3D à partir de quelques instantanés 2D, une technique appelée “rendu neuronal”. Il est né de la fusion d’idées circulant dans l’infographie et l’IA, mais l’intérêt a explosé en avril 2020 lorsque des chercheurs de l’UC Berkeley et Google ont montré que un réseau de neurones pourrait capturer une scène de manière photoréaliste en 3D simplement en visualisant plusieurs images 2D de celle-ci.

Cet algorithme exploite la façon dont la lumière se déplace dans l’air et effectue des calculs qui calculent la densité et la couleur des points dans l’espace 3D. Cela permet de convertir des images 2D en une représentation 3D photoréaliste qui peut être visualisée de n’importe quel point possible. Son cœur est le même type de réseau de neurones que l’algorithme de reconnaissance d’image de 2012, qui analyse les pixels d’une image 2D. Les nouveaux algorithmes convertissent les pixels 2D en équivalent 3D, appelés voxels. Les vidéos de l’astuce, que les chercheurs ont appelées Neural Radiance Fields, ou NeRF, ont séduit la communauté des chercheurs.

“Je fais de la vision par ordinateur depuis 20 ans, mais quand j’ai vu cette vidéo, je me suis dit ‘Wow, c’est tout simplement incroyable'”, dit-il. Franck Dellaertprofesseur à Georgia Tech.

Pour tous ceux qui travaillent sur l’infographie, explique Dellaert, l’approche est une percée. La création d’une scène 3D détaillée et réaliste nécessite normalement des heures de travail manuel minutieux. La nouvelle méthode permet de générer ces scènes à partir de photographies ordinaires en quelques minutes. Il offre également une nouvelle façon de créer et de manipuler des scènes synthétiques. “C’est un événement séminal et important, ce qui est quelque chose de fou à dire pour un travail qui n’a que deux ans”, dit-il.

Dellaert dit que la vitesse et la variété des idées qui ont émergé depuis lors ont été à couper le souffle. D’autres ont utilisé l’idée pour créer des selfies en mouvement (ou “nerfs”), Qui vous permet de faire un panoramique autour de la tête d’une personne sur la base de quelques images fixes ; à créer des avatars 3D d’un seul tir à la tête ; et de développer un moyen d’automatiquement éclairer les scènes différemment.

Le travail a gagné du terrain dans l’industrie à une vitesse surprenante. Ben Mildenhalll’un des chercheurs à l’origine de NeRF, désormais chez Google, décrit l’essor de la recherche et du développement comme “un raz de marée lent”.



Source link

Leave a Reply

Your email address will not be published.