Oct, 2023

谓词扩散:基于谓词逻辑的文本到图像扩散模型的注意力引导

TL;DR在这篇论文中,我们提出了一种称为预测扩散的统一框架来表达用户的意图,通过使用谓词逻辑将文本中的预期含义表示为命题,并将注意力图中的像素视为模糊谓词,以获取使图像满足命题的可微损失函数。与多种现有方法相比,我们证明了预测扩散能够生成更符合不同文本提示的图像,经由人工评估者和预训练图像-文本模型进行验证。