Personalización de un modelo text-to-image para la generación de imágenes con inteligencia artificial

Cargando...
Miniatura

Fecha

2024

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Nacional de la Patagonia San Juan Bosco. Facultad de Ingeniería. Departamento de Informática.

Resumen

En los últimos años, el ámbito de la Inteligencia Artificial ha experimentado un crecimiento significativo, destacándose en la generación de imágenes. Estos avances han incrementado el interés en las oportunidades de automatización en diversos campos y las restricciones asociadas. La técnica de generación de imágenes a partir de texto, conocida como texto a imagen, ha emergido como un área de investigación prometedora con aplicaciones en entretenimiento, diseño gráfico, publicidad y creación de con- tenido visual. Esta tecnología permite a los usuarios convertir descripciones textuales en imágenes pertinentes y realistas. Este estudio explora a fondo el estado del arte de los modelos generativos de texto a imagen, resaltando sus capacidades y limitaciones. Se han investigado técnicas especializadas para la personalización de modelos orientada a sujetos específicos, facilitando una adaptación más precisa del aprendizaje. El marco teórico aborda la clasificación de los modelos generativos, los modelos de difusión y los de texto a imagen, detallando sus mecanismos fundamentales y aplicaciones impactantes en áreas como el arte, la medicina y los medios de comunicación. Esta base teórica proporciona una comprensión profunda del potencial transformador de estas tecnologías. En la parte experimental, se ha demostrado la aplicación práctica de estas teorías a través del reentrenamiento del modelo Stable Diffusion con la técnica de ajuste fino, utilizando Dreambooth y personalizándolo para generar imágenes de Lilo, una gata. Este proceso ha confirmado la eficacia del ajuste fino con un número reducido de imágenes y ha proporcionado un modelo robusto para generar imágenes de gran calidad y fidelidad.
In recent years, the field of artificial intelligence has experienced signi- ficant growth, particularly in image generation. These advancements have increased interest in automation opportunities across various fields and as- sociated constraints. The technique of generating images from text, known as de texto a ima- gen, has emerged as a promising research area with applications in entertain- ment, graphic design, advertising, and visual content creation. This techno- logy enables users to convert textual descriptions into relevant and realistic images. This study thoroughly explores the state-of-the-art in generative models of de texto a imagen, highlighting their capabilities and limitations. Specia- lized techniques for customizing models aimed at subject-driven have been investigated, facilitating a more precise adaptation of learning. The theoretical framework addresses the classification of generative mo- dels, diffusion models, and de texto a imagen models, detailing their funda- mental mechanisms and impactful applications in areas such as art, medicine, and media. This theoretical foundation provides a deep understanding of the transformative potential of these technologies. In the experimental part, the practical application of these theories has been demonstrated through the retraining of the Stable Diffusion model with fine-tuning technique, using Dreambooth and customizing it to generate ima- ges of Lilo, a cat. This process has confirmed the effectiveness of fine-tuning with a reduced number of images and has provided a robust model for gene- rating high-quality and faithful images.

Descripción

Palabras clave

INTELIGENCIA ARTIFICIAL, GENERACION DE IMAGENES, TEXTO A IMAGEN, MODELOS GENERATIVOS, AJUSTE FINO, ARTIFICIAL INTELLIGENCE, IMAGE GENERATION, TEXT TO IMAGE, GENERATIVE MODELS, FINE-TUNING

Citación

Dibez, Pablo Martín. (2024). Personalización de un modelo text-to-image para la generación de imágenes con inteligencia artificial. Tesis de grado. Universidad Nacional de la Patagonia San Juan Bosco.