Mar, 2024

逻辑守护者:发现、提取和利用常识知识

TL;DR本文研究了文本到图像模型,在细节导向的条件控制下,实现了更精细的空间控制。然而,某些生成的图像仍然不合理,尽管有丰富的对象特征和和谐的风格。我们发现,作为常识知识,深层次的逻辑信息在理解和处理图像中起着重要作用,但几乎所有模型都忽视了图像中逻辑关系的重要性,导致在这方面的性能较差。因此,我们提出了 LogicalDefender 方法,将图像与已由人类总结的逻辑知识结合起来,这样可以更快、更好地学习逻辑知识,并同时从图像和人类知识中提取广泛适用的逻辑知识。实验证明,我们的模型在逻辑性能方面取得了更好的表现,并且提取的逻辑知识可以有效地应用于其他场景。