Mar, 2024

MM-Diff: 多模态条件融合的高保真图像个性化

TL;DR为了提高主题准确性,我们提出了 MM-Diff 的统一且无需调参的个性化图像生成框架,能够在几秒钟内生成单个和多个主题的高保真图像。MM-Diff 利用视觉编码器将输入图像转换为 CLS 和 patch 嵌入,而通过设计精良的多模态交叉注意机制,CLS 嵌入一方面用于增强文本嵌入,另一方面与 patch 嵌入一起用于生成少量细节丰富的主题嵌入,并且在训练过程中引入了交叉注意图约束,确保推理过程中的灵活多主题图像采样。大量实验证明了 MM-Diff 相对于其他主要方法的优越性能。