Nov, 2024

提升基于MMDiT的文本到图像模型以生成相似主题

TL;DR本研究解决了MMDiT模型在多个具有相似语义或外观的主题输入时的生成问题,包括主题忽视和混合现象。我们提出了一种动态修复模糊潜在表示的方法,通过设计三种损失函数来应对这些模糊点,并进而提出在线重叠检测和回到起始采样策略,以提高生成质量和成功率。实验结果表明,该方法在相似主题生成任务中显著优于现有技术。