基于 SQuAD 的神经问答模型比较分析

ACLJun, 2018

基于 SQuAD 的神经问答模型比较分析

Comparative Analysis of Neural QA models on SQuAD

Soumya Wadhwa, Khyathi Raghavi Chandu, Eric Nyberg

TL;DR本文通过定量和定性分析现有端到端神经模型在斯坦福问答数据集上的结果，旨在理解和比较其特性，以迈向实现在多个领域中的泛化能力。研究发现，预测错误反映了某些模型特定偏差，本文对此进行了进一步讨论。

Abstract

The task of question answering has gained prominence in the past few decades for testing the ability of machines to understand natural language. Large datasets for machine reading have led to the development of <

question answering machine reading neural models squad model-specific biases

发现论文，激发创造

基于神经网络的问答系统中问题理解与适应的探讨

本文通过在神经网络框架中密切模拟问题，引入句法信息来帮助编码问题，并将不同类型的问题和共享信息建模为适应性任务，并提出适应性模型，从而在 Stanford 问题回答数据集（SQuAD）上证明这些方法可帮助获得比竞争基准更好的结果。

Mar, 2017

现代问答数据集和基准：一项调查

本文调查了在深度学习时代发布的有影响力的问答数据集，并介绍了文本问答和视觉问答两个最常见的问答任务，涵盖了最具代表性的数据集，并提出了当前的一些 QA 研究挑战。

Jun, 2022

尽可能简单地构建神经问答

本文提出了一个简单的构建神经 QA 基线系统的启发式方法，并发现了两种必要的构建高性能神经 QA 系统的因素：第一，处理上下文时需要注意问题单词；第二，需要超越简单的词袋建模，例如循环神经网络。我们的结果表明，满足这两个要求的 FastQA 系统可以与现有模型实现非常有竞争力的性能。我们认为这一令人惊讶的发现将之前系统的结果和最近 QA 数据集的复杂性放在了一个更加客观的角度。

Mar, 2017

问答数据集让模型学到了什么？

本文通过评估五个数据集上的基于 BERT 的模型来研究模型是否从问答数据集中学习阅读理解，发现没有一个数据集能够具备全部实验的鲁棒性，并且发现了数据集和评估方法的不足，最后建议构建更好的 QA 数据集以评估阅读理解任务的问答能力。

Apr, 2020

基于 Transformer 的语言模型在抽取式问答中的比较研究

本文旨在研究和比较不同的预训练语言模型在回答问题的能力上的表现，通过使用 Bert-BiLSTM 结构模型的效果来检验双向流的加入是否能够提高模型性能，并发现 RoBERTa 和 BART 表现最佳。

Oct, 2021

从信息检索和深度神经网络角度的基于文本的问答：一项综述

本文综述了传统信息检索方法和深度神经网络方法在文本问答任务中的应用，介绍了相关模型以及可供比较的数据集和文献结果。

Feb, 2020

ReQA: 面向端到端答案检索模型的评价

本篇论文介绍了一个用于评估大规模句子级别答案检索模型的基准 Retrieval Question-Answering（ReQA），并使用神经编码模型和传统信息检索技术建立了基线。我们提供我们的评估代码以鼓励更多关于这一具有挑战性的任务的研究。

Jul, 2019

基于规则的开放域问答系统在 SQuAD v2.0 数据集上的设计与开发

本研究提出了一种基于规则的开放域问答系统，可以回答来自相关上下文的任何领域的问题，使用 1000 个问题的 SQuAD 2.0 数据集测试开发的系统表现满意，同时分析了性能。

Mar, 2022

CoQA、SQuAD 2.0 和 QuAC 的定性比较

本文比较了三个新的问答数据集：SQuAD 2.0、QuAC 和 CoQA，在新特性（如无法回答的问题、多轮交互和摘要回答）方面进行了比较，并展示了这些数据集提供了互补性的覆盖率，但在回答的摘要方面覆盖率较弱。作者表明，由于数据集的结构相似，可以很容易地将单个选取模型适应于任何数据集，并展示了 SQuAD 2.0 和 CoQA 上的改进基线结果。尽管相似，但在一个数据集上训练的模型对另一个数据集是无效的，但我们通过预训练找到了适量的性能提升。为了鼓励交互评估，我们在此 https URL 上公开了数据集转换的代码。

Sep, 2018

基于深度学习的问答模型实证研究

本文研究深度学习模型，结合记忆组件或注意力机制进行问答任务。我们比较了三种模型：神经机器翻译、神经图灵机和记忆网络，用于一个模拟 QA 数据集。研究表明，注意力和记忆的组合有潜力解决某些 QA 问题。其中，本文是首个使用神经机器翻译和神经图灵机解决 QA 任务的研究。

Oct, 2015