本文通过在神经网络框架中密切模拟问题,引入句法信息来帮助编码问题,并将不同类型的问题和共享信息建模为适应性任务,并提出适应性模型,从而在 Stanford 问题回答数据集(SQuAD)上证明这些方法可帮助获得比竞争基准更好的结果。
Mar, 2017
本文调查了在深度学习时代发布的有影响力的问答数据集,并介绍了文本问答和视觉问答两个最常见的问答任务,涵盖了最具代表性的数据集,并提出了当前的一些 QA 研究挑战。
Jun, 2022
本文提出了一个简单的构建神经 QA 基线系统的启发式方法,并发现了两种必要的构建高性能神经 QA 系统的因素:第一,处理上下文时需要注意问题单词;第二,需要超越简单的词袋建模,例如循环神经网络。我们的结果表明,满足这两个要求的 FastQA 系统可以与现有模型实现非常有竞争力的性能。我们认为这一令人惊讶的发现将之前系统的结果和最近 QA 数据集的复杂性放在了一个更加客观的角度。
本文通过评估五个数据集上的基于 BERT 的模型来研究模型是否从问答数据集中学习阅读理解,发现没有一个数据集能够具备全部实验的鲁棒性,并且发现了数据集和评估方法的不足,最后建议构建更好的 QA 数据集以评估阅读理解任务的问答能力。
Apr, 2020
本文旨在研究和比较不同的预训练语言模型在回答问题的能力上的表现,通过使用 Bert-BiLSTM 结构模型的效果来检验双向流的加入是否能够提高模型性能,并发现 RoBERTa 和 BART 表现最佳。
Oct, 2021
本文综述了传统信息检索方法和深度神经网络方法在文本问答任务中的应用,介绍了相关模型以及可供比较的数据集和文献结果。
Feb, 2020
本篇论文介绍了一个用于评估大规模句子级别答案检索模型的基准 Retrieval Question-Answering(ReQA),并使用神经编码模型和传统信息检索技术建立了基线。我们提供我们的评估代码以鼓励更多关于这一具有挑战性的任务的研究。
Jul, 2019
本研究提出了一种基于规则的开放域问答系统,可以回答来自相关上下文的任何领域的问题,使用 1000 个问题的 SQuAD 2.0 数据集测试开发的系统表现满意,同时分析了性能。
Mar, 2022
本文比较了三个新的问答数据集:SQuAD 2.0、QuAC 和 CoQA,在新特性(如无法回答的问题、多轮交互和摘要回答)方面进行了比较,并展示了这些数据集提供了互补性的覆盖率,但在回答的摘要方面覆盖率较弱。作者表明,由于数据集的结构相似,可以很容易地将单个选取模型适应于任何数据集,并展示了 SQuAD 2.0 和 CoQA 上的改进基线结果。尽管相似,但在一个数据集上训练的模型对另一个数据集是无效的,但我们通过预训练找到了适量的性能提升。为了鼓励交互评估,我们在此 https URL 上公开了数据集转换的代码。
Sep, 2018
本文研究深度学习模型,结合记忆组件或注意力机制进行问答任务。我们比较了三种模型:神经机器翻译、神经图灵机和记忆网络,用于一个模拟 QA 数据集。研究表明,注意力和记忆的组合有潜力解决某些 QA 问题。其中,本文是首个使用神经机器翻译和神经图灵机解决 QA 任务的研究。
Oct, 2015