DREAM: 通过情境详细阐述优化情景问答
本研究提出了一个开放式检索问答数据集 SituatedQA,旨在研究在不同时间和地点提出相同问题的语境下,答案是否会发生变化。通过构建该数据集并对现有模型进行实验,发现模型对于更新频繁或少见地点的答案产生困难,同时模型对于过去采集的数据无法在新问答中适应,因此建议将 extra-linguistic context 纳入开放式检索 QA 评估标准中。
Sep, 2021
提出了一个新的任务来评估具有情境理解能力的代理人的场景理解:三维情境中的位置问答(SQA3D)。在一个三维场景中,该任务要求被测试代理人首先理解其所处的情境,然后通过对其周围环境进行推理,并在该情境下回答一个问题。建立了一个具有 6.8k 个唯一情境和 33.4k 个问题的数据集,检查了一种智能代理人的推理能力的广泛谱系,包括空间关系理解和常识理解、导航和多跳推理。SQA3D 对当前特别是 3D 推理模型提出了重大挑战。评估各种最先进的方法,并发现最佳方法只达到了 47.20% 的总体得分,而业余人类参与者则可以达到 90.06% 的得分。我们相信 SQA3D 可以促进具有更强的情境理解和推理能力的未来体系结构 AI 研究。
Oct, 2022
我们介绍了一种新的问题回答方法,通过 Prompt-Generate-Evaluate (PGE) 方案包装 LLM 的输出来生成独特的情境查询,展示出第一个解决情境查询的数据集 S-EQA。
May, 2024
该研究开发了一种基于上下文依赖词级别注重和问题引导的句子级别注意力的新型模型,以更准确地理解文本,加强上下文建模,可以在交互式问答场景中处理不完整或模糊信息,大大提升了传统 QA 模型的表现。
Dec, 2016
该论文通过经验性地考察训练在各种上下文类型中的时间问答(TQA)系统的鲁棒性,填补大型语言模型(LLM)在处理时态信息方面的不足,发现在涵盖相关、无关、稍微改动和无上下文的混合情况下训练,能增强模型的鲁棒性和准确性,并且问题先于上下文的位置布局有着明显影响。提出了两个新的上下文丰富的 TQA 数据集,ContextAQA 和 ContextTQE,并提供了全面的评估和指南,为培养鲁棒的 TQA 模型奠定了基础,对加强 LLM 在面对多样化和潜在对抗性信息时的鲁棒性具有广泛的影响。
Jun, 2024
利用自然语言问句的分解来指导模型学习不同宽度的推理,在构建约 900 种不同推理模式数据的同时提高了典型语言模型在 4 个多步问题问答数据集上的 F1 表现,具有更高的鲁棒性,使得在两个对比数据集上 F1 点数提高了 5-8 个点。
May, 2022
本文旨在通过运用多阶段关注机制和序列到序列模型,在长文档的背景下产生更真实的问题,结果表明在 SQuAD、MS MARCO 和 NewsQA 三个问答数据集上,该方法优于现有方法。
Oct, 2019
本研究通过利用法律和金融数据的半结构化特点,实现有效检索相关背景知识来解决将现有问答系统应用于法律和金融等专业领域所面临的挑战,使得大型语言模型在领域特定的问答任务中表现优异,同时提供有用的答案解释,鼓励将大型语言模型整合到未来的法律和金融自然语言处理系统中进行研究。
Oct, 2023
本研究探讨电影问答数据集中存在的语言偏见,提出一个简单的模型,通过合适的词向量训练,能够在不考虑视频和字幕等故事情境的情况下,通过观察问题和答案来回答约一半的问题。与排行榜上发表的最佳论文相比,我们的简单问题 + 答案模型在视频 + 字幕类别精度提高了 5%,在字幕、DVS 和剧本方面精度更是提高了 15%,这表明使用适当的词向量训练能够大大提高问答准确度。
Nov, 2019
在 3D 视觉语言的年轻领域中,我们将问题回答的任务转变为序列生成任务,以生成自由形式的自然答案来回答 3D 场景中的问题(Gen3DQA)。我们直接优化我们的模型以获得全局句子语义,并使用一种实用的语言理解奖励来进一步提高句子质量。我们的方法在 ScanQA 基准上达到了新的最佳性能(测试集的 CIDEr 得分为 72.22/66.57)。
Oct, 2023