NoiseQA: 以用户为中心的问答挑战数据集评估

ACLFeb, 2021

NoiseQA: 以用户为中心的问答挑战数据集评估

NoiseQA: Challenge Set Evaluation for User-Centric Question Answering

Abhilasha Ravichander, Siddharth Dalmia, Maria Ryskina, Florian Metze, Eduard Hovy...

TL;DR本文研究 Question-Answering 系统在实际部署中的问题，发现在回答引擎之前的管道部件可能会引入多样化且可观的错误，而且即使是针对强大的预训练 QA 模型，性能也会因为这些上游噪声源而显著降低。作者认为在 QA 系统能够真正有效部署之前，还有很大的改进空间。因此，他们强调 QA 评估需要扩展到考虑实际使用情况，并希望他们的研究结果能引起更广泛的关注。

Abstract

When Question-Answering (QA) systems are deployed in the real world, users query them through a variety of interfaces, such as speaking to voice assistants, typing questions into a search engine, or even translating questions to languages supported by the QA system. While there has been significant community attention devoted to identifying correct answers i

question-answering systems real-world deployment upstream noise sources qa evaluation human utility

发现论文，激发创造

缓解问题回答中的噪声输入

通过在 500,000 个有噪声的句子的合成语料库中训练，并在多个语料库中进行评估，研究和减轻来自自动语音识别系统的噪声对几个问题回答任务的影响，并利用模型的置信度集成和对未知单词进行强制解码，从而提高了下游神经网络 QA 系统的准确性。

Aug, 2019

评估问答系统：评判自然语言的复杂性

本文针对问答系统的发展历程、评估指标及其相应的理论框架进行综述，并探讨了相关的评估方法和数据集。

Sep, 2022

学习回答多语言和混合代码问题

本论文聚焦于在多语言环境下推进处理末端用户问题的 QA 技术，涉及多语性和混编等问题并提出了一种多文档利用的多跳问题生成技术，实验证明该方法可在 MQA、VQA 和语言生成等多个领域和语言中达到最先进的表现，是通用的，可用于提高 QA 系统性能。

Nov, 2022

面向现实世界的口语方言问答

本文介绍了一个针对多个语言方言创建的语音问答数据集，分析了语音识别错误和方言对问答系统性能的影响，并且研究了不同用户群体的公平性问题。

Sep, 2021

现代问答数据集和基准：一项调查

本文调查了在深度学习时代发布的有影响力的问答数据集，并介绍了文本问答和视觉问答两个最常见的问答任务，涵盖了最具代表性的数据集，并提出了当前的一些 QA 研究挑战。

Jun, 2022

面向端到端口语问答的数据蒸馏技术

本研究提出了一种新的口头对话问答任务，能够使问答系统对给定的语音话语和文本语料库建模，其中使用了新的统一数据精炼方法 DDNet 直接融合音频文本特征以减少语音识别错误率，同时运用 Spoken-CoQA 数据集评估系统的对话式互动能力，并在实验中取得了优异的性能表现。

Oct, 2020

会话式问答：综述

本文对 2016 至 2021 年所发表关于问答系统的各项研究进行了回顾与总结，发现多轮问答系统已取代了单轮问答系统的先前主导地位，这表明了其在提高人工智能对话系统方面的重要性，同时也描绘了开展更多进一步和有利的研究的未来研究方向。

Jun, 2021

基于神经网络的子程序基础问题问答系统

研究了基于上下文的 QA 系统的软件工程应用，使用尺寸为 10.9M 的数据集和自定义的神经 QA 模型来回答关于子例程基础问题，可用于软件工程的对话系统。

Jan, 2021

利用生成 NQ 类问题来改进问答

本研究提出一种算法，利用数据集转换技术从长的 Trivia 问题转化为类似于日常人类交流的较短问题的方式，自动生成自然问题（NQ）数据集中的问题，同时使用神经分类器检测并去除不合法的问题，从而生成高质量的数据集，提高了 QA 表现，该算法在低资源环境下使用，扩展了 QA 系统的规模，同时保持了训练数据的质量。

Oct, 2022

问答系统在上下文使用中的期望

我们的研究针对现有的基于上下文的问答系统中存在的一系列问题，包括在模型参数知识与上下文冲突时缺乏对上下文的关注、对噪声的鲁棒性不足以及答案不一致性等。通过总结之前的一些已讨论过的以及新颖的需求，系统地评估了 15 个问答系统在 5 个数据集上的性能。实验结果表明，噪声敏感的系统在给定无关上下文的情况下答案一致性不一定更好，而噪声敏感度较高的系统更可能根据与其参数知识冲突的上下文正确回答问题。而冲突的知识和噪声的结合可能会导致系统性能降低高达 96%。因此，我们的需求分析有助于增加对这些模型工作原理的理解，并揭示了潜在的改进方向。

Jan, 2024