Convertir imágenes a bocetos con inteligencia artificial

Convertir imágenes a bocetos con inteligencia artificial. Echa un vistazo a CLIPasso, la herramienta de IA (inteligencia artificial) que genera bocetos basados en imágenes. La herramienta realiza un esbozo de objetos semánticamente consciente, guiado por CLIP que permite variar los niveles de abstracción y preservar las características visuales clave.

Los desarrolladores señalan que incluso con una representación muy mínima puede reconocer tanto la semántica como la estructura del tema representado.

Este método de esbozo de objetos logra diferentes niveles de abstracción que se guía por simplificaciones geométricas y semánticas. Los desarrolladores aprovechan la capacidad de CLIP (Contrastive-Language-Image-Pretraining) para extraer conceptos semánticos idénticos en bocetos e imágenes.

La herramienta controla el grado de abstracción variando el número de trazos. Por lo tanto, los bocetos producidos demuestran diferentes niveles de abstracción que aún logran conservar el que se pueda reconocer la figura o imagen. Incluida la estructura y los componentes visuales clave del tema inicial.

Para generar el boceto, la herramienta empieza con la extracción de las regiones salientes de la imagen de entrada que le permite definir las ubicaciones iniciales de los trazos.

Convertir imágenes a bocetos con inteligencia artificial
Convertir imágenes a bocetos con inteligencia artificial

Convertir imágenes a bocetos rasterizados

Siguiendo los siguientes pasos de optimización, la herramienta alimenta los parámetros de trazo a un rasterizador diferenciable que produce el boceto rasterizado. Finalmente, tanto el boceto resultante como la imagen original se introducen en CLIP para definir una pérdida perceptiva basada en CLIP.

Los desarrolladores señalan que el uso de las capas intermedias de un modelo CLIP previamente entrenado es un punto crucial de este método. Ya que permite restringir la geometría del boceto de salida.

Introducimos un método para realizar Semantically-Aware Object Sketching guiado por CLIP, permutado en resumen como CLIPasso.

Nuestro trabajo convierte una imagen de un objeto en un boceto, lo que permite diferentes niveles de abstracción, al tiempo que conserva sus características visuales clave.

Incluso con una representación muy mínima (el flamenco y el caballo más a la derecha se dibujan con solo unos pocos trazos), se puede reconocer tanto la semántica como la estructura del sujeto representado.

Convertir imágenes a bocetos con inteligencia artificial
Convertir imágenes a bocetos con inteligencia artificial

Abstracto para convertir imágenes a bocetos

La abstracción está en el corazón del boceto debido a la naturaleza simple y mínima de los dibujos de líneas. La abstracción implica identificar las propiedades visuales esenciales de un objeto o escena, lo que requiere comprensión semántica y conocimiento previo de conceptos de alto nivel.

Por lo tanto, las representaciones abstractas son un desafío para los artistas, y aún más para las máquinas. Presentamos un método de boceto de objetos que puede lograr diferentes niveles de abstracción, guiado por simplificaciones geométricas y semánticas.

Si bien los métodos de generación de bocetos a menudo se basan en conjuntos de datos de bocetos explícitos para el entrenamiento, utilizamos la notable capacidad de CLIP (Contrastive-Language-Image-Pretraining) para destilar conceptos semánticos de bocetos e imágenes por igual.

Definimos un boceto como un conjunto de curvas de Bézier y utilizamos un rasterizador diferenciable para optimizar los parámetros de las curvas directamente con respecto a una pérdida perceptiva basada en CLIP. El grado de abstracción se controla variando el número de trazos.

Los bocetos generados demuestran múltiples niveles de abstracción mientras mantienen la estructura subyacente reconocible y los componentes visuales esenciales del sujeto dibujado.

Convertir imágenes a bocetos ¿Cómo funciona?

Nuestro método se basa en la optimización y, por lo tanto, no requiere ningún conjunto de datos de esbozo explícito. Utilizamos el codificador de imágenes CLIP para guiar el proceso de conversión de una fotografía en un boceto abstracto.

La codificación CLIP proporciona la comprensión semántica del concepto representado, mientras que la fotografía en sí misma proporciona la base geométrica del boceto al sujeto concreto. Definimos un boceto como un conjunto de N trazos negros colocados sobre un fondo blanco. Variamos el número de trazos N para crear diferentes niveles de abstracción.

Convertir imágenes a bocetos con inteligencia artificial
Convertir imágenes a bocetos con inteligencia artificial

La base es extraer las líneas exteriores

Dada una imagen objetivo I del sujeto deseado, nuestro objetivo es sintetizar el boceto S correspondiente manteniendo los atributos semánticos y geométricos del sujeto.

Comenzamos extrayendo las regiones salientes de la imagen de entrada para definir las ubicaciones iniciales de los trazos.

A continuación, en cada paso de la optimización alimentamos los parámetros de trazo a un rasterizador diferenciable para producir el boceto rasterizado.

El boceto resultante, así como la imagen original se introducen en CLIP para definir una pérdida perceptiva basada en CLIP. La clave del éxito de nuestro método es utilizar las capas intermedias de un modelo CLIP pre-entrenado para restringir la geometría del boceto de salida. Sin este término, el boceto de salida no sería similar a la imagen de entrada.

Puntos de control básicos para conseguir las formas

Retro-propagamos la pérdida a través del rasterizador diferenciable y actualizamos los puntos de control de los trazos directamente en cada paso hasta la convergencia de la función de pérdida. Los parámetros aprendidos y los términos de pérdida se resaltan en rojo, mientras que los componentes azules se congelan durante todo el proceso de optimización, se utilizan flechas sólidas para marcar la ruta de retro-propagación.

Nuestro enfoque es diferente de los métodos de boceto convencionales en que no utiliza un conjunto de datos de boceto para el entrenamiento, sino que está optimizado bajo la guía de CLIP. Por lo tanto, nuestro método no se limita a categorías específicas observadas durante el entrenamiento, ya que no se introdujo ninguna definición de categoría en ninguna etapa. Esto hace que nuestro método sea robusto a varias entradas.

Tienes toda la información necesaria y el código fuente en la web del proyecto. También tienes más información y comentarios al respecto en el foro, sigue leyendo…