做回自己:多主体文本到图像生成的有限关注
本研究提出了两个新的损失函数,用于在采样过程中根据给定的布局重新聚焦注意力图,以解决在多个对象、属性和空间组合都涉及到的情况下现有文本到图像综合方法无法精确遵循文本提示的问题,并通过 Large Language Models 合成的布局在 DrawBench 和 HRS 基准测试中进行了全面实验,证明了我们提出的方法可以轻松有效地集成到现有的文本到图像方法中,并始终提高其生成图像与文本提示之间的对齐度。
Jun, 2023
基于大规模文本到图像模型,我们提出了一种新颖的方法,通过引入交叉注意力图,来解决多主题生成的挑战并提高图像生成的质量和多样性。我们的方法通过重新排列布局网格和引入新的损失项,实现了对生成图像中主题的更清晰定义和避免主题重叠。与其他方法相比,我们的方法在各种文本提示下更准确地捕捉了所需的概念。
May, 2024
提出了一种新的 text-to-image 模型的个性化方法,该方法能够通过少量输入的图像,fine-tune 预训练的 text-to-image 模型,使其能够将唯一标识符绑定到特定主题上,并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。
Aug, 2022
我们的研究引入了 MS-Diffusion 框架,用于基于布局指导的零样本图像个性化处理多主题,融合了引用令牌和特征重采样以保持细节的准确性,并通过跨主题注意力来实现各自主题条件对特定区域的影响,通过全面的定量和定性实验,证明该方法在图像和文本的准确性方面优于现有模型,推动个性化的文本到图像生成的发展。
Jun, 2024
通过注意力机制的调节,我们提出了一种用于扩散模型的无需训练的逐阶段聚焦机制,旨在解决多实体和属性的文本提示处理中的注意力分布不均问题。我们的实验结果证明,我们的模型在各种情况下都能够以最小的计算成本实现更好的图像与文本的对齐。
Apr, 2024
我们提出了一种注意力调节方法,通过实时优化来对齐注意力图与输入文本提示,从而解决扩散模型中对某些令牌过分关注而导致语义逼真度下降的问题。在各种数据集、评估指标和扩散模型上进行了实验比较,结果表明我们的方法在减少计算开销的同时,始终优于其他基准方法,生成的图像更加忠实地反映了所需的概念。
Mar, 2024
通过单独的扩散过程和修订方法,本研究提出了一种针对大规模文本到图像扩散模型的通用方法,以解决复杂场景中不同主题及其附件之间的相互干扰,追求更好的文本图像一致性。
Mar, 2024
用不需要额外的训练的方法,通过交叉关注地图和掩膜引导实现文本到图像生成的空间控制。实验结果表明,所提出的方法在定性和定量上比基线方法实现了更准确的空间控制。
Aug, 2023
通过 DenseDiffusion 方法,我们能够在不需额外微调或数据集的情况下,有效改善给定密集描述的图像生成性能,并且达到与专门训练有场景布局条件的模型相似的视觉效果。
Aug, 2023