Jul, 2023

主题扩散:无需测试时间微调的开放领域个性化文本到图像生成

TL;DR我们提出了一种新的开放域个性化图像生成模型 Subject-Diffusion,它不需要测试时微调,只需要一个参考图像就能在任何领域中支持个性化生成单一或多个主体。我们通过构建自动数据标注工具和使用 LAION-Aesthetics 数据集,构建了一个包含 7600 万图像及其对应主体检测边界框、分割掩模和文本描述的大规模数据集。我们设计了一个新的统一框架,通过融合文本和图像语义,并结合粗粒度位置和细粒度参考图像控制,以最大化主体的准确性和一般化能力。此外,我们还采用了一种注意力控制机制来支持多主体生成。大量的定性和定量结果表明,我们的方法在单一、多个和人类定制的图像生成方面优于其他最先进的框架。请参考我们的项目页面。