Modelo de Difusión

TLDR: Un modelo de difusión genera datos realistas aprendiendo a invertir un proceso de adición de ruido. Stable Diffusion y DALL-E son los ejemplos más destacados.

Un modelo de difusión es una clase de modelo de IA generativa. Aprende a crear datos invirtiendo un proceso de destrucción controlada. Durante el entrenamiento, el modelo observa una imagen en cada etapa de una ‘difusión hacia adelante’: se añade ruido gaussiano paso a paso hasta que la imagen es ruido puro. El modelo aprende el proceso inverso: cómo eliminar el ruido en cada paso. En la inferencia, parte de ruido aleatorio y elimina el ruido paso a paso para producir una nueva imagen.

Cómo Funcionan los Modelos de Difusión

Proceso Hacia Adelante: Se añade ruido gaussiano a una muestra de entrenamiento a lo largo de T pasos de tiempo. En el paso T, los datos son indistinguibles del ruido aleatorio.
Proceso Inverso: Una red neuronal — típicamente U-Net o un transformer — aprende a predecir y eliminar el ruido en cada paso.
Objetivo de Entrenamiento: La red minimiza la diferencia entre el ruido predicho y el ruido real añadido en cada paso de tiempo.
Muestreo: Partiendo de ruido gaussiano puro, el modelo elimina el ruido a lo largo de T pasos inversos para producir una nueva muestra realista.

Condicionamiento y Control de Texto

Los modelos de difusión pueden condicionarse con indicaciones de texto, etiquetas de clase o imágenes. Los modelos de texto a imagen usan un codificador de texto (p. ej., CLIP) para guiar el proceso de eliminación de ruido. Las capas de atención cruzada inyectan la señal de texto en cada paso. Esto permite un control preciso: el modelo genera exactamente lo que describe la indicación. La calidad de las indicaciones de texto importa enormemente — ver ingeniería de indicaciones.

Modelos de Difusión Destacados

Stable Diffusion: Modelo de texto a imagen de código abierto. Ampliamente usado para generación de arte y creación de conjuntos de datos sintéticos.
DALL-E 3: Modelo de texto a imagen de OpenAI. Destaca en adherencia a indicaciones y fotorrealismo.
Imagen: Modelo de difusión de Google, que usa un LLM para la codificación de texto.
Sora: Modelo de texto a video de OpenAI. Genera videoclips realistas a partir de indicaciones de texto.
AudioLDM: Genera audio y música a partir de descripciones de texto.

Modelos de Difusión y Datos de Entrenamiento

Los modelos de difusión también se usan para generar datos de entrenamiento sintéticos para otros sistemas de IA. En visión por computadora, las imágenes sintéticas cubren vacíos donde los datos etiquetados reales son escasos. Entrenar modelos de difusión requiere miles de millones de pares imagen-texto a escala. Los conjuntos de datos de Bright Data proporcionan datos de entrenamiento curados a gran escala para construir y ajustar modelos generativos.

Prueba gratuita Comienza con Google