Mar, 2024

基于纯文本语言模型的空间关系基础

TL;DR文中通过提供对象的显式位置信息并进行适当训练,展示出仅文本的语言模型(Language Models)可以学习到类似“左侧”或“下方”等空间关系。通过对视觉空间推理(Visual Spatial Reasoning)数据集的一个口语化版本进行实验,其中图像与包含真实或虚假空间关系的文本语句相配对。作者使用现有的物体检测器给图像增添了位置标记,以文本形式表示每个物体的边界框。尽管视觉空间推理数据集较小,但使用位置信息并无明显改进,然而,通过在由作者衍生的合成数据集上进行预训练,使用位置标记的结果显著改善。作者因此展示了位置信息使语言模型能够对空间关系进行基础性的理解,仅文本的语言模型表现优于视觉与语言模型,成为视觉空间推理数据集的最新技术成果。作者的分析显示,仅文本的语言模型在一定程度上能够推广到合成数据集中未出现的关系,并且还学习了比我们用来创建合成数据集的空间规则中所编码的更有用的信息。