Vídeo de alta calidad a partir de tu escritura

Vídeo de alta calidad a partir de tu escritura, esta promesa está a la orden del día en la actualidad, pero hay que ser pacientes para que realmente lleguemos a obtener una calidad aceptable, eso sí, cada día están más cerca.

A pesar de los avances en la creación de imágenes de calidad utilizando modelos de difusión, aún estamos explorando las posibilidades de generar secuencias animadas realistas en apariencia y coherentes en el tiempo. Mientras existen conjuntos de datos para imágenes de gran escala, recolectar datos similares de video sigue siendo un desafío. Además, entrenar un modelo de difusión de video requiere una mayor capacidad computacional que su contraparte de imágenes.

Síntesis de video de alta calidad con el modelo PYoCo
Síntesis de video de alta calidad con el modelo PYoCo

Modelos cada vez más refinados

En este estudio, investigamos el ajuste fino de un modelo de difusión de imágenes previamente entrenado con datos de video, ofreciendo una solución práctica para la síntesis de video. Descubrimos que simplemente extender el ruido de la imagen antes del ruido del video, antes de aplicar la difusión del video, no produce resultados óptimos. En cambio, nuestro enfoque cuidadosamente diseñado de generación de ruido en el video ofrece resultados notablemente mejores.

Con una exhaustiva validación experimental, nuestro modelo, llamado Preserve Your Own Correlation (PYoCo), lidera en la generación de video a partir de texto sin necesidad de disparadores en los conjuntos de referencia UCF-101 y MSR-VTT. Además, alcanzamos la más alta calidad en la generación de video en el conjunto de referencia UCF-101 a escala reducida, utilizando un modelo 10 veces más pequeño y requiriendo menos capacidad computacional que las técnicas previas. Tienes más información en el sitio web.

Además puedes ver toda la información sobre este proyecto agrupada en el foro, también puedes dejar tu comentario. Ir al foro…