评估问答系统：评判自然语言的复杂性

Sep, 2022

评估问答系统：评判自然语言的复杂性

Evaluation of Question Answering Systems: Complexity of judging a natural language

Amer Farea, Zhen Yang, Kien Duong, Nadeesha Perera, Frank Emmert-Streib

TL;DR本文针对问答系统的发展历程、评估指标及其相应的理论框架进行综述，并探讨了相关的评估方法和数据集。

Abstract

question answering (QA) systems are among the most important and rapidly developing research topics in natural language processing (NLP). A reason, therefore, is that a QA system allows humans to interact more na

question answering natural language processing qa systems benchmark datasets assessment techniques

发现论文，激发创造

现代问答数据集和基准：一项调查

本文调查了在深度学习时代发布的有影响力的问答数据集，并介绍了文本问答和视觉问答两个最常见的问答任务，涵盖了最具代表性的数据集，并提出了当前的一些 QA 研究挑战。

Jun, 2022

NoiseQA: 以用户为中心的问答挑战数据集评估

本文研究 Question-Answering 系统在实际部署中的问题，发现在回答引擎之前的管道部件可能会引入多样化且可观的错误，而且即使是针对强大的预训练 QA 模型，性能也会因为这些上游噪声源而显著降低。作者认为在 QA 系统能够真正有效部署之前，还有很大的改进空间。因此，他们强调 QA 评估需要扩展到考虑实际使用情况，并希望他们的研究结果能引起更广泛的关注。

Feb, 2021

探索法律问答系统的最新技术

该研究旨在解决法律问答的问题，提供包括 14 个标准数据集和基于深度学习的法律问答模型在内的全面调查。该研究重点讨论了面临的挑战和不足，以及使用的不同方法和技术。

Apr, 2023

会话式问答：综述

本文对 2016 至 2021 年所发表关于问答系统的各项研究进行了回顾与总结，发现多轮问答系统已取代了单轮问答系统的先前主导地位，这表明了其在提高人工智能对话系统方面的重要性，同时也描绘了开展更多进一步和有利的研究的未来研究方向。

Jun, 2021

评估开放式问答系统评估

本研究针对认知智能领域中的 Open Question Answering 任务进行评估，提出了 QA Evaluation 任务和相应的数据集，在考虑到自动评估方法的局限性的基础上，采用人工评估来更准确地衡量基于人工智能的答案的准确性和 F1 分数，并研究表现高度相关且更可靠的评估方法以及当前方法的缺陷，最终生成的数据集有望促进更有效的自动评估工具的发展。

May, 2023

学习回答多语言和混合代码问题

本论文聚焦于在多语言环境下推进处理末端用户问题的 QA 技术，涉及多语性和混编等问题并提出了一种多文档利用的多跳问题生成技术，实验证明该方法可在 MQA、VQA 和语言生成等多个领域和语言中达到最先进的表现，是通用的，可用于提高 QA 系统性能。

Nov, 2022

自然语言问答的进展：一篇综述

该论文讨论了基于学习模型和深度学习方法的问答系统在处理语言多样性和动态性方面的成功和挑战。

Apr, 2019

尽可能简单地构建神经问答

本文提出了一个简单的构建神经 QA 基线系统的启发式方法，并发现了两种必要的构建高性能神经 QA 系统的因素：第一，处理上下文时需要注意问题单词；第二，需要超越简单的词袋建模，例如循环神经网络。我们的结果表明，满足这两个要求的 FastQA 系统可以与现有模型实现非常有竞争力的性能。我们认为这一令人惊讶的发现将之前系统的结果和最近 QA 数据集的复杂性放在了一个更加客观的角度。

Mar, 2017

基于神经网络的子程序基础问题问答系统

研究了基于上下文的 QA 系统的软件工程应用，使用尺寸为 10.9M 的数据集和自定义的神经 QA 模型来回答关于子例程基础问题，可用于软件工程的对话系统。

Jan, 2021

去除黄金标准：重新评估对话问答

本文对目前最先进的对话问答系统进行了首次的大规模人类评估，发现人类与机器之间的对话存在显著差异。此外，基于预测历史的问题重写机制能够更好地与人类判断相一致。通过研究各种建模策略，讨论了构建更好的对话问答系统的未来方向。

Dec, 2021