GeoSQA:高中地理领域基于情境的问答基准
本文提出了一种基于结构化数据的问答任务:表格情境问答,以及一个新的数据集 GeoTSQA。作者利用 TTGen 生成句子并结合多种信息回答问题,在 GeoTSQA 上优于现有强基线方法。
Jan, 2021
本文提出了大规模的 Geometric Question Answering 数据集 GeoQA 和一个神经几何求解器 NGS,并通过多模式信息综合分析和生成可解释性程序来解决几何问题。
May, 2021
本文提出了一个自然语言文本中空间推理的问答基准,其中包含更现实的空间现象,并且挑战最先进的语言模型。我们提出了一种远距离监督方法来改善这个任务。具体来说,我们设计语法和推理规则来自动生成视觉场景的空间描述和相应的问答配对。实验证明,进一步预训练语言模型对这些自动生成的数据显著提高了语言模型对空间理解的能力,从而有助于更好地解决两个外部数据集,即 bAbI 和 boolQ。我们希望这项工作能够推动更复杂的文本空间推理模型的研究。
Apr, 2021
提出了一个新的任务来评估具有情境理解能力的代理人的场景理解:三维情境中的位置问答(SQA3D)。在一个三维场景中,该任务要求被测试代理人首先理解其所处的情境,然后通过对其周围环境进行推理,并在该情境下回答一个问题。建立了一个具有 6.8k 个唯一情境和 33.4k 个问题的数据集,检查了一种智能代理人的推理能力的广泛谱系,包括空间关系理解和常识理解、导航和多跳推理。SQA3D 对当前特别是 3D 推理模型提出了重大挑战。评估各种最先进的方法,并发现最佳方法只达到了 47.20% 的总体得分,而业余人类参与者则可以达到 90.06% 的得分。我们相信 SQA3D 可以促进具有更强的情境理解和推理能力的未来体系结构 AI 研究。
Oct, 2022
本研究提出了一个名为 MapQA 的大规模数据集,其中包含大约 60,000 张地图图像中的约 800,000 个问题 - 答案对。同时,本研究提出了一种新算法 V-MODEQA,其通过多输出模型从地图图像中提取结构化数据,对提取的数据进行推理,并取得了比目前最先进的图表问答和视觉问答算法更好的性能和鲁棒性。
Nov, 2022
本研究提出了一个开放式检索问答数据集 SituatedQA,旨在研究在不同时间和地点提出相同问题的语境下,答案是否会发生变化。通过构建该数据集并对现有模型进行实验,发现模型对于更新频繁或少见地点的答案产生困难,同时模型对于过去采集的数据无法在新问答中适应,因此建议将 extra-linguistic context 纳入开放式检索 QA 评估标准中。
Sep, 2021
本文提出了一种基于自然语言问题的问答引擎,用于处理大量地理空间数据的查询,该引擎可以对连接的地理空间数据源进行查询,采用 SPARQL 或 OGC 标准扩展 GeoSPARQL,研究者们可以使用我们提供的 201 个自然语言问题数据集来评估该引擎的性能。
Jul, 2020
本篇论文提出了一个新的选择题型问答数据集 SelQA,该数据集通过众包生成问题,并从英文维基百科中提取十个最常见主题的长度为答案。我们介绍了一种语料库注释方案,旨在通过明确减少问题和答案之间的词共现来增强生成大型、多样化和具有挑战性的数据集的过程。在回答句子选择和回答触发任务上,我们比较了几个系统,为未来的工作提供了强有力的基准结果。
Jun, 2016
本文提出 JEEVES 这一基于联合检索 - 阅读器模型的算法作为一种自动问答技术。该算法使用了一种新颖的单词加权机制,通过 QA 标签隐式监督检索器,从而解决了当前 SQA 检索困难的问题。在三个 SQA 数据集上的多项选择问题对比实验证明,JEEVES 明显优于其他强基线算法。
Aug, 2021
本研究提出了一种问题回答框架,在地理领域,将土耳其自然语言输入转换为 SPARQL 查询。同时,开发了一种新颖的土耳其本体论,用作链接数据提供者,将自然语言处理技术与链接数据技术相结合以生成答案的混合系统体系结构也被提出。
Jan, 2023