La red neuronal de Google reconstruye escenas dinámicas

La red neuronal de Google reconstruye escenas dinámicas. La red puede manejar variaciones topológicas modelando una familia de formas en un espacio de dimensiones superiores.

En junio de 2021, un equipo de desarrolladores de Google Research había presentado una red neuronal. Esta red puede manejar variaciones topológicas al modelar una familia de formas en un espacio de mayor dimensión llamado HyperNeRF. Con esta red, el equipo ha logrado eludir la lucha de los enfoques basados en la deformación cuando se trata de cambios de modelo en la topología.

Al elevar los NeRF a un espacio de mayor dimensión, y al representar el campo de radiancia 5D correspondiente a cada imagen de entrada individual como una rebanada a través de este «hiperespacio», el equipo había logrado representaciones más realistas y reconstrucciones geométricas más precisas.

La red neuronal de Google reconstruye escenas dinámicas

Campos de radiancia neuronal topológicamente variables

HyperNeRF maneja las variaciones topológicas mediante el modelado de una familia de formas en un espacio de dimensiones superiores, produciendo así representaciones más realistas y reconstrucciones geométricas más precisas.

¿Cómo funciona HyperNeRF?

Los campos de radiancia neuronal (NeRF) son capaces de reconstruir escenas con una fidelidad sin precedentes. Varios trabajos recientes han extendido NeRF para manejar escenas dinámicas. Un enfoque común para reconstruir tales escenas no rígidas es mediante el uso de un mapeo de campo de deformación aprendido a partir de coordenadas en cada imagen de entrada en un espacio de coordenadas de plantilla canónica.

Sin embargo, estos enfoques basados en la deformación luchan por modelar los cambios en la topología. Ya que los cambios topológicos requieren una discontinuidad en el campo de deformación, pero estos campos de deformación son necesariamente continuos.

Abordamos esta limitación elevando los NeRF a un espacio dimensional superior y representando el campo de radiancia 5D correspondiente a cada imagen de entrada individual como una rebanada a través de este «hiperespacio».

Modelar un conjunto de niveles como rodajas de pan

Nuestro método está inspirado en los métodos de conjunto de niveles, que modelan la evolución de las superficies como rodajas a través de una superficie dimensional superior. Evaluamos nuestro método en dos tareas:

Interpolar suavemente entre «momentos», es decir, configuraciones de la escena, vistas en las imágenes de entrada mientras se mantiene la plausibilidad visual y síntesis de vista novedosa en momentos fijos.

Mostramos que nuestro método, que denominamos HyperNeRF, supera a los métodos existentes en ambas tareas. En comparación con Nerfies, HyperNeRF reduce las tasas de error promedio en un 4,1 por ciento para la interpolación y un 8,6 por ciento para la síntesis de nuevas vistas, según lo medido por LPIPS.

Métodos de conjunto de niveles

HyperNeRF representa los cambios en la topología de escena al proporcionar un NeRF con una entrada de mayor dimensión. Esto está inspirado en métodos establecidos en niveles. Los métodos de conjunto de niveles proporcionan un medio para modelar una familia de formas topológicamente variables como rebanadas de una función auxiliar de dimensión superior. Por ejemplo, estas formas:

Métodos de conjunto de niveles
Métodos de conjunto de niveles

Se puede representar como sectores a través de esta forma auxiliar:

Métodos de conjunto de niveles en la red neuronal
Métodos de conjunto de niveles en la red neuronal

Naturalmente, podemos modelar formas topológicamente variables simplemente moviendo el plano de corte a lo largo de las dimensiones superiores. Por ejemplo, esta animación se generó moviendo el plano de corte de arriba a abajo:

La red neuronal de Google reconstruye escenas dinámicas

Cortar superficies a la hora de reconstruir escenas

Considera las siguientes formas, que tienen diferentes permutaciones de O x y X.

La red neuronal de Google reconstruye escenas dinámicas - cortar superficies
La red neuronal de Google reconstruye escenas dinámicas – cortar superficies

Tradicionalmente, los métodos de ajuste de niveles utilizan planos rectos para cortar la superficie de mayor dimensión:

Métodos de conjunto de niveles en la red neuronal
Métodos de conjunto de niveles en la red neuronal

Esto significa que la forma de dimensión superior debe contener copias de la misma forma, ya que cada permutación tiene que estar a lo largo de una sola rodaja recta a través del eje z. Si dejamos que el plano de corte se doble, da como resultado una plantilla mucho más limpia:

Métodos de conjunto de niveles en la red neuronal
Métodos de conjunto de niveles en la red neuronal

HiperNeRF para reconstruir escenas

La arquitectura HyperNeRF es una extensión sencilla de Nerfies. La diferencia clave es que la plantilla NeRF está condicionada a coordenadas adicionales de dimensiones superiores, donde las coordenadas dimensionales superiores están dadas por una «superficie de corte ambiental» que puede considerarse como un análogo de dimensión superior al campo de deformación.

la arquitectura HyperNeRF
la arquitectura HyperNeRF

Plantilla hyper-space para reconstruir escenas

HyperNeRF aprovecha la idea principal de los métodos de conjunto de niveles mediante el uso de una plantilla NeRF que vive en dimensiones más altas. Además de las coordenadas espaciales (X, Y, Z), el NeRF MLP toma coordenadas dimensionales superiores adicionales W1 y W2. A estos los llamamos las «dimensiones ambientales».

Tienes más información y comentarios sobre el tema en el foro, sigue leyendo…