May, 2023

BLIP-Diffusion: 预训练主体表示,用于可控文本到图像生成和编辑

TL;DR本文提出了一种支持多模态控制的主题驱动图像生成模型 BLIP-Diffusion,其中引入了一个新的多模态编码器进行图像和文本的表示。相对于 DreamBooth 等现有方法,该模型使的主题驱动生成零 - shot 成为可能,并且可以高效地进行 fine-tuning,为自定义主题带来了高达 20 倍的加速。同时,BLIP-Diffusion 可以与 ControlNet 和 prompt-to-prompt 等技术灵活结合,实现新的主题驱动生成和编辑应用。