无需训练的增强主体注意力引导的文本到图像生成
ConsiStory 是一种无需训练的方法,通过共享预训练模型的内部激活来实现一致的主题生成,同时采用基于主题的共享注意力块和基于对应关系的特征注入来促进图像之间的一致性。通过与各种基线对比,我们展示了 ConsiStory 在主题一致性和文本对齐方面的最先进性能,而无需进行任何优化步骤。最后,ConsiStory 可以自然地扩展到多主题场景,甚至可以对常见物体进行无需训练的个性化。
Feb, 2024
FastComposer 使用图像编码器提取的主题嵌入来增强扩散模型中的通用文本调节,从而实现了高效的个性化、多主题文本到图像的生成。 FastComposer 通过跨注意力本地化监督和延迟立体雕塑来处理多主题生成中的身份混合问题,并且相对于基于微调的方法获得了数百到数千倍的加速。
May, 2023
通过构建一个主题不可知条件并应用我们提出的双分类器自由指导,我们展示了我们的方法在生成与给定主题和输入文本提示一致的输出方面的有效性,并通过优化和编码方法验证了我们的方法的可行性,同时还展示了其在二阶定制方法中的适用性。
May, 2024
本文基于扩散模型的可控属性,将语言结构与扩散过程相结合,进一步提高了 T2I 模型的组合能力,特别是更准确的属性绑定和更好的图像组合,这得益于跨注意层的帮助和语言洞察力。
Dec, 2022
我们研究了文本到图像扩散模型中的语义泄漏问题,并提出了一种名为有界注意力的方法,通过限定信息流的路径来解决泄漏问题,从而提高多主题生成的质量。
Mar, 2024
我们提出了 CompAgent,这是一种无需训练的组合文本到图像生成方法,核心是一个大型语言模型代理。我们的方法在复杂的文本提示下能够保持对图像的可控性,尤其是在保留对象属性和关系方面,通过先将文本提示分解成独立的对象、属性和场景布局,并引入验证和人类反馈机制来进一步校正属性错误和改进图像生成。
Jan, 2024
通过研究基于组合性失败模式,我们发现文本到图像生成模型中 CLIP 文本编码器的文本条件不完备是无法生成高保真组合场景的主要原因,并提出仅通过在 CLIP 表示空间上学习简单的线性投影可以实现最佳组合性改进,同时不降低模型的 FID 分数。
Jun, 2024
最近在个性化文本到图像(T2I)扩散模型方面的进展表明,使用有限数量的用户提供的示例生成基于个性化视觉概念的图像的能力已被证明。然而,这些模型在维护高视觉保真度方面经常遇到困难,特别是在根据文本输入进行场景操作时。为了解决这个问题,我们引入了 ComFusion,这是一种新颖的方法,利用预训练模型生成几个用户提供的主题图像和预定义文本场景的组合,有效地将视觉主题实例与文本特定场景融合,从而在多样的场景中生成高保真度的实例。ComFusion 整合了一种类别场景先验保留正则化方法,利用预训练模型的组合主题和场景特定知识,增强了生成的保真度。此外,ComFusion 使用粗糙生成的图像,确保它们与实例图像和场景文本有效对齐。因此,ComFusion 在捕捉主题的本质和保持场景保真度之间保持了一个微妙的平衡。对 T2I 个性化中的各种基线进行了广泛评估,证明了 ComFusion 在定性和定量上的优越性。
Feb, 2024
介绍了 Attentive Guidance,这是一种机制,可以指导序列到序列模型配备关注机制,以找到更多的组合解决方案。通过测试,证明序列到序列模型具备在不需要额外组件的情况下找到组成性解决方案的能力。
May, 2018
本研究提出了两个新的损失函数,用于在采样过程中根据给定的布局重新聚焦注意力图,以解决在多个对象、属性和空间组合都涉及到的情况下现有文本到图像综合方法无法精确遵循文本提示的问题,并通过 Large Language Models 合成的布局在 DrawBench 和 HRS 基准测试中进行了全面实验,证明了我们提出的方法可以轻松有效地集成到现有的文本到图像方法中,并始终提高其生成图像与文本提示之间的对齐度。
Jun, 2023