M8AX - images Created With My Face Thanks To Stable Dffusion
Stable Diffusion utiliza una variante del modelo de difusión (DM), denominada modelo de difusión latente (LDM). Introducidos en 2015, los modelos de difusión se entrenan con el objetivo de eliminar aplicaciones sucesivas de ruido gaussiano en las imágenes de entrenamiento, que pueden considerarse una secuencia de autocodificadores de eliminación de ruido. Stable Diffusion consta de tres partes: el autocodificador variacional (VAE), U-Net y un codificador de texto opcional. El codificador VAE comprime la imagen desde el espacio de píxeles a un espacio latente de dimensiones más pequeñas, capturando un significado semántico más fundamental de la imagen8. El ruido gaussiano se aplica iterativamente a la representación latente comprimida durante la difusión directa. El bloque U-Net, compuesto por una columna vertebral ResNet, elimina el ruido de la salida de la difusión directa hacia atrás para obtener la representación latente. Por último, el descodificador VAE genera la imagen final convirtiendo la representación de nuevo al espacio de píxeles. El paso de eliminación de ruido puede condicionarse de forma flexible a una cadena de texto, una imagen y otras modalidades. Los datos de condicionamiento codificados se exponen a las U-Nets de eliminación de ruido mediante un mecanismo de atención cruzada. Para condicionar el texto, se utiliza el codificador de texto fijo y preentrenado CLIP ViT-L/14 para transformar las indicaciones de texto a un espacio de incrustación. Los investigadores señalan la mayor eficiencia computacional para el entrenamiento y la generación como una ventaja de los LDM910.