使用扩散模型揭示文本 - 图像不一致性
通过对文本到图像系统的进展和合成图像在训练和推理过程中的不足进行研究,揭示了语义不匹配、多样性缺乏和表征基础概念的无能等问题,同时提出了对 CLIP 嵌入几何的令人惊讶的见解。
Oct, 2023
介绍了一种信息丰富的扩散模型,名为 ParaDiffusion,用于段落到图像生成任务,通过利用大型语言模型来提升图像生成模型的语义理解能力,并在长文本语义对齐训练方面取得了优异结果。
Nov, 2023
使用预训练扩散模型(即 Stable Diffusion [27])进行文本图像生成的新方法,通过设计和训练轻量级字符级文本编码器,以更强的文本嵌入作为条件指导,使用大规模数据集微调扩散模型,在字符级分割图的监督下实现局部注意控制,通过推断阶段的优化过程,在合成给定图像中的文本时获得显著高的序列准确性。我们的方法优于现有技术,并展示了 UDiffText 的几个潜在应用,包括以文本为中心的图像合成、场景文本编辑等。
Dec, 2023
通过单独的扩散过程和修订方法,本研究提出了一种针对大规模文本到图像扩散模型的通用方法,以解决复杂场景中不同主题及其附件之间的相互干扰,追求更好的文本图像一致性。
Mar, 2024
通过最大化与参考图像的一致性并惩罚与预训练模型的偏差,我们提出了一种通过最小程度微调预训练模型以实现一致性的 T2I 扩散模型的新型训练目标,称为 “直接一致性优化”。我们的方法不仅简单而且显著提高了个性化 T2I 模型的组合能力,并引入了一种控制图像保真度和提示保真度权衡的抽样方法。最后,我们强调必须使用详尽的标题作为参考图像,以进一步增强图像和文本的对齐。我们证明了所提方法在 T2I 主题、风格或两者个性化方面的有效性。生成的示例和代码可在我们的项目页面(this https URL)中找到。
Feb, 2024
我们提出了一个概念驱动的文本到图像(TTI)个性化框架,通过学习用户提供的图像示例中的概念,以及一种交替优化过程,进一步改进了现有的 TTI 模型,使其能够生成具有多个交互概念的图像。
Feb, 2024
基于信息论对齐度量的自监督微调方法对模型对齐问题进行了研究,在文字到图像生成任务中获得了与最新技术相媲美或超过的结果,并且只需要一个预训练的去噪网络来估计互信息和一个轻量级微调策略。
May, 2024