QADiver: 诊断 QA 模型的交互式框架

AAAIDec, 2018

QADiver: Interactive Framework for Diagnosing QA Models

Gyeongbok Lee, Sungdong Kim, Seung-won Hwang

TL;DR本研究提出了一个基于 Web 的 UI 框架，通过整合可视化和分析工具来提供有关 QA 模型性能的信息，并帮助 QA 模型研究人员改进其模型的性能。

Abstract

question answering (qa) extracting answers from text to the given question in natural language, has been actively studied and existing models have shown a promise of outperforming human performance when trained a

question answering qa squad dataset model explanation web-based ui

发现论文，激发创造

基于 SQuAD 的神经问答模型比较分析

本文通过定量和定性分析现有端到端神经模型在斯坦福问答数据集上的结果，旨在理解和比较其特性，以迈向实现在多个领域中的泛化能力。研究发现，预测错误反映了某些模型特定偏差，本文对此进行了进一步讨论。

Jun, 2018

QUADRo: 问题 - 答案数据库检索的数据集和模型

本文提出了一种基于神经信息检索和重新排名的自动问答系统，利用包含 6.3M 问题和回答对的数据库，实现了开放域问答并超越了传统的非结构化文本或图形搜索方法，并证明了基于 Transformer 模型的 (q,a) 对比仅考虑问题表示更优，该方法具有和在 BING 搜索引擎上构建的 QA 系统竞争的优点。

Mar, 2023

从信息检索和深度神经网络角度的基于文本的问答：一项综述

本文综述了传统信息检索方法和深度神经网络方法在文本问答任务中的应用，介绍了相关模型以及可供比较的数据集和文献结果。

Feb, 2020

一种带有统一知识接口的开放领域问答系统

本文提出了一种基于数据和文本的统一问答框架 UDT-QA，并使用数据到文本方法将 Wiki 百科中的表格和 Wikidata 中的图表达为口语化信息，以扩展知识索引。实验证明，该方法取得了自然问答 (Single-model state-of-the-art) 的最佳成果，并表明对于调整和热插拔的两种情况，口语化知识的优先考虑可以优化答案推理。

Oct, 2021

NoiseQA: 以用户为中心的问答挑战数据集评估

本文研究 Question-Answering 系统在实际部署中的问题，发现在回答引擎之前的管道部件可能会引入多样化且可观的错误，而且即使是针对强大的预训练 QA 模型，性能也会因为这些上游噪声源而显著降低。作者认为在 QA 系统能够真正有效部署之前，还有很大的改进空间。因此，他们强调 QA 评估需要扩展到考虑实际使用情况，并希望他们的研究结果能引起更广泛的关注。

Feb, 2021

CliniQG4QA：用于临床问答领域自适应的多样化问题生成技术

研究提出了一种名为 ClinQG4QA 的框架，该框架借助问答生成来合成新的临床背景下的 QA 对，提高 QA 模型的性能，同时还引入了 seq2seq-based 问题短语预测模块来扩大生成的多样性。该方法在实验中表现出了显著的精度提升（最高达 8%），而 QPP 模块对此有着重要作用。

Oct, 2020

面向现实世界的口语方言问答

本文介绍了一个针对多个语言方言创建的语音问答数据集，分析了语音识别错误和方言对问答系统性能的影响，并且研究了不同用户群体的公平性问题。

Sep, 2021

现代问答数据集和基准：一项调查

本文调查了在深度学习时代发布的有影响力的问答数据集，并介绍了文本问答和视觉问答两个最常见的问答任务，涵盖了最具代表性的数据集，并提出了当前的一些 QA 研究挑战。

Jun, 2022

通过人类反馈不断提高抽取式问答

本文研究了通过人类用户反馈不断改进提取问题回答（QA）系统的方法，并设计和部署了一个迭代方法，在多种设置下进行实验以扩大对随时间反馈学习的理解。我们的实验显示，从不同数据环境下的用户反馈中能够有效提高提取 QA 模型，包括适应领域的潜力。

May, 2023

为低资源语言构建高效高效的 OpenQA 系统

在这篇论文中，我们展示了能够为低资源语言开发有效且成本低廉的 OpenQA 系统的关键要素，其中包括利用机器翻译标注数据的弱监督和目标语言中相关的非结构化知识源。我们以土耳其语为挑战性案例研究，通过 ColBERT-QA 对 SQuAD-TR 进行了调整来构建我们的 OpenQA 系统。在使用两个跨足两年的维基百科转储版本的基础上，我们与基于 BM25 和 DPR 的 QA 读取器模型相比，在 EM 得分上获得了 9-34% 的性能提升以及 F1 得分上的 13-33% 的性能提升。我们希望我们的结果可以鼓励研究人员在其他低资源语言中构建 OpenQA 系统，并将所有的代码、模型和数据集公开提供。

Jan, 2024