[Blender] PIFuHD digitalización humana 3D en alta resolución

PIFuHD digitalización humana 3D de alta resolución con función implícita alineada con píxeles de varios niveles. Este estudio y desarrollo está realizado por Shunsuke Saito, Tomas Simon, Jason Saragih y Hanbyul Joo en la Universidad del Sur de California.

Los avances recientes en la estimación de la forma humana 3D basada en imágenes han sido impulsados por la mejora significativa en el poder de representación que ofrecen las redes neuronales profundas, aunque los enfoques actuales han demostrado el potencial en entornos del mundo real, todavía no producen reconstrucciones con el nivel de detalle a menudo presente en las imágenes de entrada.

El equipo de investigación señaló que el principal problema aquí implica dos requisitos contradictorios. Las predicciones precisas requieren un contexto grande, pero al mismo tiempo, las predicciones precisas requieren una alta resolución. El hardware actual tiene límites de memoria, por lo que necesitamos un nuevo modelo.

El nuevo documento propone utilizar una arquitectura de varios niveles que sea entrenada de extremo a extremo. En primer lugar, hay un nivel grueso que estudia toda la imagen con una resolución más baja y se centra en el razonamiento holístico para proporcionar contexto a un nivel fino que estima la geometría altamente detallada mediante la observación de imágenes de mayor resolución.

Afirman que el nuevo enfoque supera a las actuales técnicas de vanguardia en la reconstrucción de formas humanas de una sola imagen al aprovechar completamente las imágenes de entrada de resolución 1k.

La verdad es que dando vueltas dentro de su información veo que todavía no hay implementado un sistema de instalación sencilla y que son necesarios varios pasos, pero el proyecto desde luego es muy interesante, además de ser de código abierto.

La digitalización humana de alta fidelidad es la clave para habilitar una gran variedad de aplicaciones, desde imágenes médicas hasta realidad virtual. Si bien ahora es posible realizar reconstrucciones métricamente precisas y precisas de humanos con sistemas multivista, ha permanecido en gran parte inaccesible para la comunidad en general debido a su dependencia de sistemas de captura profesionales con estrictas restricciones ambientales (por ejemplo, gran cantidad de , iluminaciones controladas) que son prohibitivamente caras y engorrosas de implementar.

Cada vez más, la comunidad ha recurrido al uso de modelos de aprendizaje profundo de alta capacidad que han demostrado ser muy prometedores en la adquisición de reconstrucciones incluso a partir de una sola imagen. Sin embargo, el rendimiento de estos métodos en la actualidad sigue siendo significativamente inferior al que se puede lograr con los sistemas de captura profesionales.

El objetivo de este trabajo es lograr la reconstrucción 3D de alta fidelidad de humanos vestidos a partir de una sola imagen con una resolución suficiente para recuperar información detallada como dedos, rasgos faciales y pliegues de la ropa.

Nuestra observación es que los enfoques existentes no hacen un uso completo de las imágenes de alta resolución (por ejemplo, 1k o más) de humanos que ahora se adquieren fácilmente utilizando sensores de productos básicos en teléfonos móviles. Esto se debe a que los enfoques anteriores se basan en un razonamiento holístico para mapear entre la apariencia 2D de una imagen humana y su forma 3D, donde, en la práctica, se utilizan imágenes de muestreo reducido debido a los prohibitivos requisitos de memoria. Aunque los parches de imágenes locales tienen pistas importantes para la reconstrucción 3D detallada, rara vez se aprovechan en las entradas de alta resolución debido a las limitaciones de memoria del hardware gráfico actual.

Los enfoques que tienen como objetivo abordar esta limitación se pueden clasificar en uno de dos campos. En el primer campo, el problema se descompone de forma gruesa a fina, donde los detalles de alta frecuencia se graban en la parte superior de las superficies de baja fidelidad. En este enfoque, se usa una resolución de imagen baja para obtener una forma gruesa. Luego, los detalles finos representados como la superficie normal o los desplazamientos se agregan mediante un proceso posterior, como Shape From Shading o composición dentro de las redes neuronales. El segundo campo emplea modelos humanos de alta fidelidad para alucinar detalles plausibles. Aunque ambos enfoques dan como resultado reconstrucciones que parecen detalladas, a menudo no reproducen fielmente los detalles reales presentes en las imágenes de entrada.

En este trabajo, presentamos un marco multinivel de extremo a extremo que infiere la geometría 3D de humanos vestidos con una resolución de imagen de 1k sin precedentes de una manera pixelada, conservando los detalles en las entradas originales sin ningún postprocesado. Nuestro método difiere de los enfoques aproximados a finos en que no se aplica una representación geométrica explícita en los niveles generales. En cambio, el contexto geométrico codificado implícitamente se propaga a niveles superiores sin hacer una determinación explícita sobre la geometría de forma prematura. Basamos nuestro método en la representación de la función implícita alineada por píxeles (PIFu) introducida recientemente.

La naturaleza alineada en píxeles de la representación nos permite fusionar a la perfección la incrustación holística aprendida a partir del razonamiento burdo con las características de la imagen aprendidas de la entrada de alta resolución de una manera basada en principios. Cada nivel incorpora de forma incremental información adicional que falta en los niveles generales, y la determinación final de la geometría se realiza solo en el nivel más alto.

Finalmente, para una reconstrucción completa, el sistema necesita recuperar la parte trasera, que no se observa en ninguna imagen. Al igual que con la entrada de baja resolución, la información faltante que no es predecible a partir de mediciones observables dará como resultado estimaciones excesivamente suaves y borrosas. Superamos este problema aprovechando las redes de traducción de imagen a imagen para producir normales posteriores.

El acondicionamiento de nuestra inferencia de forma alineada por píxeles de varios niveles con la superficie posterior inferida normal elimina la ambigüedad y mejora significativamente la calidad de percepción de nuestras reconstrucciones con un nivel de detalle más consistente entre las partes visibles y ocluidas.

Las principales aportaciones en este trabajo consisten en:
Un marco de trabajo de principio a fin con aprendizaje automático, para el aprendizaje de superficie implícito para la reconstrucción humana vestida en 3D de alta resolución con una resolución de imagen de 1k.

Un método para manejar eficazmente la incertidumbre en regiones no observadas como la parte posterior, lo que resulta en reconstrucciones completas con gran detalle.

En el sitio web oficial tienes toda la información que puedas precisar para poner en marcha este proyecto.

En este otro video, a partir de minuto 15:35, se le puede ver trabajando con Blender.

Ver sobre el tema y comentarios en el foro