GauGAN 2 convierte texto en imagen

GauGAN 2 convierte texto en imagen, esta aplicación incluida en Nvidia Canvas crea imágenes fotorrealistas con solo un par de palabras.

Nvidia ha presentado GauGAN 2, una nueva versión actualizada de su popular GauGAN AI. La característica principal de GauGAN 2 es su capacidad para convertir una simple frase escrita, u oración, en una imagen fotorrealista utilizando el aprendizaje profundo. Todo lo que necesita hacer es escribir una frase y la IA genera la escena en tiempo real. También puedes agregar adjetivos adicionales y el modelo, basado en redes generativas, modifica instantáneamente la imagen.

Además, la IA se puede utilizar para representar paisajes de otro mundo. Imagínese, por ejemplo, recrear un paisaje del icónico planeta de Tatooine en la franquicia de Star Wars, que tiene dos soles. Todo lo que se necesita es el texto «sol de las colinas del desierto» para crear un punto de partida, después del cual los usuarios pueden dibujar rápidamente en un segundo sol.

El modelo de IA detrás de GauGAN2 fue entrenado en 10 millones de imágenes de paisajes de alta calidad utilizando la supercomputadora Nvidia Selene. Un sistema Nvidia DGX SuperPOD que se encuentra entre las 10 supercomputadoras más potentes del mundo.

GauGAN 2 con función de texto a imagen
GauGAN 2 con función de texto a imagen

Imágenes basadas en redes neuronales

Los investigadores utilizaron una red neuronal que aprende la conexión entre las palabras y las imágenes a las que corresponden como invierno, niebla o arco iris. En comparación con los modelos de última generación específicos para aplicaciones de texto a imagen o segmentación de mapa a imagen; la red neuronal detrás de GauGAN2 produce una mayor variedad y una mayor calidad de imágenes.

Una imagen que vale más que mil palabras, y eso ahora ocupa solo tres o cuatro palabras; gracias a GauGAN2, la última versión de la popular demostración de pintura de IA de Nvidia Research.

El modelo de aprendizaje profundo detrás de GauGAN permite a cualquiera canalizar su imaginación en obras maestras fotorrealistas, y es más fácil que nunca.

Con solo presionar un botón, los usuarios pueden generar un mapa de segmentación; un contorno de alto nivel que muestra la ubicación de los objetos en la escena. A partir de ahí, pueden cambiar al dibujo, ajustando la escena con bocetos aproximados utilizando etiquetas. Como cielo, árbol, roca y río, lo que permite que el pincel inteligente incorpore estos garabatos en imágenes impresionantes.

La nueva función de texto a imagen GauGAN2 ahora se puede experimentar en Nvidia AI Demos. Donde los visitantes del sitio pueden experimentar AI a través de las últimas demostraciones de Nvidia Research. Con la versatilidad de las indicaciones de texto y bocetos, GauGAN2 permite a los usuarios crear y personalizar escenas con un control más detallado.

Una IA de pocas palabras

GauGAN2 combina el mapeo de segmentación, la pintura y la generación de texto a imagen en un solo modelo. Lo que lo convierte en una poderosa herramienta para crear arte fotorrealista con una mezcla de palabras y dibujos.

La demostración es una de las primeras en combinar múltiples modalidades (texto, segmentación semántica, boceto y estilo) dentro de un solo marco GAN. Esto hace que sea más rápido y fácil convertir la visión de un artista en una imagen generada por IA de alta calidad.

En lugar de tener que dibujar cada elemento de una escena imaginada; los usuarios pueden escribir una breve frase para generar rápidamente las características clave y el tema de una imagen; como una cordillera cubierta de nieve. Este punto de partida se puede personalizar con bocetos para hacer una montaña específica más alta; o agregar un par de árboles en primer plano o nubes en el cielo.

No solo crea imágenes realistas

No solo crea imágenes realistas, los artistas también pueden usar la demostración para representar paisajes de otro mundo.

Es un proceso iterativo, donde cada palabra que el usuario escribe en el cuadro de texto agrega más a la imagen creada por AI.

La demostración de investigación de GauGAN2 ilustra las posibilidades futuras de potentes herramientas de generación de imágenes para artistas. Un ejemplo es la aplicación Nvidia Canvas, que se basa en la tecnología GauGAN y está disponible para descargar para cualquier persona con una GPU Nvidia RTX.

Nvidia Research cuenta con más de 200 científicos en todo el mundo. Científicos centrados en áreas que incluyen IA, visión por ordenador, automóviles autónomos, robótica y gráficos.

Puedes ver algunos ejemplos en el siguiente video. Y tienes más información en su sitio web. También tienes más información y comentarios sobre GauGAN en el foro, sigue leyendo…

GauGAN 2 convierte texto en imagen