Nvidia GANverse3D genera modelos realistas 3d

Nvidia GANverse3D genera modelos realistas 3d a partir de fotografías. Se trata de una aplicación desarrollada por el Nvidia AI Research Lab en Toronto, liderado por Sanja Fidler.

La aplicación GANverse3D infla o extruye imágenes planas convirtiéndolas en modelos 3D realistas que se pueden visualizar y controlar en entornos virtuales.

Este nuevo motor de aprendizaje profundo para crear modelos de objetos 3D inteligentes a partir de imágenes 2D estándar recientemente trajo de vuelta el icónico automóvil KITT de Knight Rider gracias a Omniverse de Nvidia.

La representación diferenciable ha allanado el camino para entrenar redes neuronales para realizar tareas de gráficos inversos. Como predecir la geometría 3D a partir de fotografías monoculares.

El JPEG único no produce un modelo altamente complejo que cumpla con los estándares de VFX. Pero sí produce un automóvil completamente 3D, sin que se requiera un software de modelado 3D o experiencia.

Nvidia GANverse3D genera modelos realistas 3d
Nvidia GANverse3D genera modelos realistas 3d

Nvidia GANverse3D modela objetos animables

Como se hace a través del aprendizaje automático, el modelo tiene ruedas móviles y puedes animarlo o conducirlo en una escena virtual. Con faros realistas, luces traseras y espejos exteriores.

El proceso de pasar de imágenes a 3D a menudo se llama gráficos inversos ya que el problema es inverso al proceso de renderizar una escena 3D. Teniendo en cuenta la geometría y las propiedades materiales de los objetos, y las fuentes de luz presentes en la escena.

Esto significa que se infieren ciertas propiedades del coche, incluso cuando no se ven. Por ejemplo, el lado oculto del coche se crea plausiblemente a pesar de que el lado lejano del coche está oculto en la fotografía.

Para generar un conjunto de datos que alimenten el entrenamiento, los investigadores aprovecharon una red adversa generativa, o GAN. Sintetizando imágenes que representan el mismo objeto desde múltiples puntos de vista. Como un fotógrafo que camina alrededor de un vehículo estacionado, tomando fotografías desde diferentes ángulos.

Nvidia GANverse3D con multi-vista

Estas imágenes multi-vista se conectan a un marco de representación para gráficos inversos. A este proceso se le denomina: inferir modelos de malla 3D a partir de imágenes 2D.

Nvidia GANverse3D utiliza el Nvidia StyleGAN publicado anteriormente como un generador de datos sintético, y el proceso etiqueta estos datos de manera extremadamente eficiente.

Este conjunto de datos se utiliza para entrenar una red de gráficos inversa para predecir las propiedades 3D de los objetos en las imágenes.

Como utiliza StyleGAN, este enfoque produce resultados de reconstrucción 3D de mayor calidad al tiempo que requiere de menos esfuerzo de anotación para los datos de entrenamiento. Algo que le convierte en una herramienta muy útil en la producción.

Para recrear a KITT, los investigadores introdujeron en el software una imagen del automóvil, lo que permite a GANverse3D predecir una malla texturizada 3D. Así como diferentes partes del vehículo, como ruedas y faros. Luego utilizaron las herramientas Nvidia Omniverse Kit y Nvidia PhysX para convertir la textura pronosticada en materiales de alta calidad. Lo que le da una apariencia digital más realista, que le permite colocarlo en una secuencia de simulación de conducción dinámica.

Una sola imagen es suficiente

Una vez entrenado en imágenes multi-vista, GANverse3D solo necesita una sola imagen 2D para predecir un modelo de malla 3D. Este modelo se puede usar con un representador neuronal 3D que proporciona a los desarrolladores el control para personalizar objetos e intercambiar fondos.

Por ejemplo, la herramienta se ha utilizado para producir caballos y aves. Pero el programa tiene límites, no sería capaz de producir un ciclo de caminata cuadrúpedo complejo, por ejemplo. Tendríamos que inferir un sistema óseo para hacer eso. También destaca el comunicado que el equipo está buscando hacer un proceso similar para las caras humanas.

La capacidad de inferir propiedades 3D como geometría, textura, material y luz a partir de fotografías puede resultar importante en muchos dominios como AR /VR, visión por ordenador y maquetas previz/escena. El sistema actual está entrenado en 55.000 imágenes de coches.

Dadas las imágenes de entrada, GANverse3D predice la forma 3D, la textura y representa el objeto desde el mismo punto de vista básico. El proceso es capaz de reconstruir superficies duras con reflejos especulares y también objetos articulados más complicados, como aves y caballos.

Efectos de iluminación avanzados

Recogelgunos reflejos de especificaciones, algunas imágenes generadas por StyleGAN pueden contener efectos de iluminación avanzados, como reflejos complejos, transparencia de ventanas y sombras. Aunque hay que mencionar que el modelo de iluminación armónica esférica es incapaz de tratar todos los casos con éxito.

Cuando se importa como una extensión en la plataforma Nvidia Omniverse y se ejecuta en GPU Nvidia RTX, Nvidia GANverse3D se puede utilizar para recrear cualquier imagen 2D en 3D.

Los usuarios pueden usarlo para crear objetos en los que el programa ya está entrenado; como coches, o usar GANverse3D para entrenar con los propios conjuntos de datos de los usuarios.

Los creadores de juegos, arquitectura y diseño confían en entornos virtuales como la plataforma de simulación y colaboración de Nvidia Omniverse. Donde pueden probar nuevas ideas y visualizar prototipos antes de crear sus productos finales.

Más información y comentarios en el foro, sigue leyendo…