Mar, 2024

通过自动派生的数据集改进文本到图像生成中的显式空间关系

TL;DR现有文献观察到当前的文本到图像系统不能准确反映物体之间的显式空间关系,我们假设这是因为训练这些模型的图像标题很少包含显式空间关系。为此,我们提出了一种自动方法,给定现有图像生成包含 14 种显式空间关系的合成标题。我们引入了 Spatial Relation for Generation (SR4G) 数据集,其中包含 990 万个图像标题对进行训练,并且包含超过 6 万个用于评估的标题。为了测试泛化性能,我们还提供了一个 ' 未见过 ' 的分割,其中训练和测试标题中的对象集是不相交的。SR4G 是首个可以用于空间微调文本到图像系统的数据集。我们显示微调两个不同的稳定扩散模型(称为 SD$_{SR4G}$)可以使 VISOR 指标提升高达 9 个点。改进结果在 ' 未见过 ' 的分割中依然有效,表明 SD$_{SR4G}$ 可以推广到未见过的对象。SD$_{SR4G}$ 通过更少的参数改进了最先进的方法,并避免了复杂的架构。我们的分析显示改进对于所有关系都是一致的。数据集和代码将公开提供。