利用合成语料进行空间角色标注与推理的迁移学习

Oct, 2022

利用合成语料进行空间角色标注与推理的迁移学习

Transfer Learning with Synthetic Corpora for Spatial Role Labeling and Reasoning

Roshanak Mirzaee, Parisa Kordjamshidi

TL;DR通过利用合成数据来预训练语言模型，可以帮助它们完成在新的任务或领域的迁移学习，然而这个想法在空间语言方面的研究比较少，本文提供了两个新的数据资源，其中一个是用于空间问答和空间角色标注的合成数据集，另一个为实际问答语料库，在 SQA 和 SPRL 基准测试中，我们发现使用自动生成的合成数据能显著提高模型的性能，尤其是当目标域中的训练数据较少时。

Abstract

Recent research shows synthetic data as a source of supervision helps pretrained language models (PLM) transfer learning to new target tas

发现论文，激发创造

通过隐式空间模板获取共性空间知识

本文引入了一个预测生成空间布局的任务，通过神经网络模型从图像和结构化文本中学习，在普遍性场景下，模型表现出了可靠的预测结果，且具有从先前未见过的对象中输出准确的空间预测的能力。

Nov, 2017

SpatialNLI: 基于空间理解的空间领域自然语言接口数据库

提出了一种称为SpatialNLI的NLI用于空间领域，它采用一种空间理解模型来识别空间请求的意义并将其注入到自然语言问题中以缓解捕捉空间专用语义的负担，同时实验结果表明SpatialNLI胜过现有的方法

Aug, 2019

SpartQA：面向空间推理的文本问答基准

本文提出了一个自然语言文本中空间推理的问答基准，其中包含更现实的空间现象，并且挑战最先进的语言模型。我们提出了一种远距离监督方法来改善这个任务。具体来说，我们设计语法和推理规则来自动生成视觉场景的空间描述和相应的问答配对。实验证明，进一步预训练语言模型对这些自动生成的数据显著提高了语言模型对空间理解的能力，从而有助于更好地解决两个外部数据集，即bAbI和boolQ。我们希望这项工作能够推动更复杂的文本空间推理模型的研究。

Apr, 2021

SpaceNLI:评估推理预测的一致性

通过语义推理研究各种类型的空间表达方式与推理模式，我们创建了一个名为SpaceNLI的数据集，并测试了几种NLI系统的它们对于空间推理复杂度和系统能力的提高。通过评估结果，我们发现系统对于空间NLI问题获得了适度的结果，但缺乏推理模式的一致性。结果还表明，非射影空间推理（尤其是由“between”介词引起的）是最具挑战性的。

Jul, 2023

大型语言模型中判断空间关系的失真：自然语言地理数据的黎明？

我们提出了一个评估大型语言模型（LLM）判断地理位置之间的斜对角方向能力的基准，并将其应用于三个知名的LLM：GPT-3.5，GPT-4和Llama-2。在测试中，GPT-4表现出优越的性能，准确率为55.3%，其次是GPT-3.5的47.3%，Llama-2的44.7%。尽管这些模型在可能存在层次性偏差的任务上的准确性较低，但它们大多数情况下能够识别最近的基准方向，显示出类似人类的错误理解，我们讨论了直接用代表地理关系的文本数据来改进LLM的空间推理能力的潜力。

Jan, 2024

基于纯文本语言模型的空间关系基础

文中通过提供对象的显式位置信息并进行适当训练，展示出仅文本的语言模型（Language Models）可以学习到类似“左侧”或“下方”等空间关系。通过对视觉空间推理（Visual Spatial Reasoning）数据集的一个口语化版本进行实验，其中图像与包含真实或虚假空间关系的文本语句相配对。作者使用现有的物体检测器给图像增添了位置标记，以文本形式表示每个物体的边界框。尽管视觉空间推理数据集较小，但使用位置信息并无明显改进，然而，通过在由作者衍生的合成数据集上进行预训练，使用位置标记的结果显著改善。作者因此展示了位置信息使语言模型能够对空间关系进行基础性的理解，仅文本的语言模型表现优于视觉与语言模型，成为视觉空间推理数据集的最新技术成果。作者的分析显示，仅文本的语言模型在一定程度上能够推广到合成数据集中未出现的关系，并且还学习了比我们用来创建合成数据集的空间规则中所编码的更有用的信息。

Mar, 2024

SpaRC和SpaRP：用于理解大型语言模型的空间推理能力的空间推理特征描述和路径生成

当前最先进的大型语言模型（LLMs）在空间推理方面性能较差，但随着模型规模的扩大，在空间推理能力上有了显著提升，Finetuning大或小型语言模型可以显著提高它们的F1分数，专有的LLMs在拓扑空间理解和推理方面明显优于开源模型。

Jun, 2024

在空间任务上评估大型语言模型：多任务基准研究

本研究针对当前大型语言模型在空间任务上的评估缺乏进行深入探讨，提出了一套新颖的多任务空间评估数据集，系统比较多种模型的性能。研究发现，gpt-4o在总体准确度上表现最佳，而不同的提示策略对模型在特定任务的表现有显著影响，如COT策略在路径规划任务中将gpt-4o的准确率提升至87.5%。

Aug, 2024

评估大型语言模型在空间任务上的表现：一项多任务基准研究

本研究解决了大型语言模型在空间任务上评估不足的问题，介绍了一种新的多任务空间评估数据集，系统地探索和比较多种先进模型的表现。研究发现，gpt-4o在总体准确性上表现最佳，平均准确率为71.3%，而特定提示策略显著提高了模型在某些任务中的表现。

Aug, 2024

在空间任务上评估大型语言模型：多任务基准研究

本研究填补了大型语言模型在空间任务表现评估的空白，通过引入一个新的多任务空间评估数据集，系统性探讨和比较了多种先进模型在空间任务上的表现。研究发现，gpt-4o在整体准确率上表现最佳，同时特定的提示策略显著提升了模型在特定任务中的表现。

Aug, 2024