一个生成无法回答问题的轻量级方法

EMNLPOct, 2023

一个生成无法回答问题的轻量级方法

A Lightweight Method to Generate Unanswerable Questions in English

Vagrant Gautam, Miaoran Zhang, Dietrich Klakow

TL;DR一种用于问题回答的数据增强方法，通过对可回答问题进行反义词和实体交换生成不可回答的问题，相比于现有的自动化方法，该方法具有更好的模型性能和更高的人类判断相关性和可读性，并被验证为未来工作的简单但强大的基准。

Abstract

If a question cannot be answered with the available information, robust systems for question answering (QA) should know _not_ to answer. One way to build QA models that do this is with additional training data comprised of unanswerable questions, created either by employing annotators

question answering unanswerable question generation data augmentation bert-large swaps

发现论文，激发创造

为机器阅读理解学习提问无法回答的问题

本论文提出了一种用于机器阅读理解的数据增广技术，通过自动生成相关无法回答的问题并将其与包含答案的段落相配对，提出了一个序列模型，该模型有效地捕捉了问题和段落之间的交互。实验结果表明，该模型相对于序列到序列基线模型表现更好，同时将自动生成的无法回答的问题作为数据增广的一种方法，可以大幅提高 SQuAD 2.0 数据集上的 F1 值。

Jun, 2019

多类型对话式封闭和无法回答问题的问答生成

本文提出了一种新的方法合成用于 CQA 的数据，其中包括开放式，封闭式和无法回答的问题，通过为每种问题类型设计不同的生成流程并将它们有效地结合在单个共享框架中，同时设计了分层回答分类模块，提高了合成数据的质量，手动检查发现我们的框架生成的合成数据具有非常类似于人类生成的对话的特征，在四个领域中，使用我们的合成数据训练的 CQA 系统的表现确实接近于使用人工注释数据训练的系统。

Oct, 2022

AGent：一种自动创建无法回答的问题的新型流程

通过自动重匹配缺少正确答案所需信息的上下文与问题，我们提出了一种名为 AGent 的新型流水线，从而自动创建新的不可回答问题。本文中，我们通过从 SQuAD 和 HotpotQA 的可回答问题创建了两组不可回答问题，并展示了 AGent 流水线的实用性。这些创建的问题集表现出较低的错误率。此外，对这些问题进行微调的模型在多个 EQA 基准测试中表现出与在 SQuAD 2.0 数据集上进行微调的模型相当的性能。

Sep, 2023

无法回答的视觉问答

本研究旨在构建一个值得信赖的 AI 系统，通过为 Visual Question Answering（VQA）模型教授弃权无法回答问题的能力。研究通过提供一个名为 UNK-VQA 的全面数据集来填补这一研究空白，该数据集特别设计用于解决无法回答的问题。同时，通过对图像或问题进行有意的扰动，充分评估了多模式大型模型的零或少样本性能，并提出了解决这些无法回答问题的简单方法。这一数据集将为提升 VQA 模型的弃权能力提供一个有价值的基准，从而增加 AI 系统的可信度。

Oct, 2023

利用检索句子生成模板的方式提高无监督问答

我们提出了一种无监督训练 QA 模型的方法，该方法使用生成的伪数据训练，为 QA 训练生成问题，通过对相关检索到的句子应用简单模板，而非原始上下文句子来实现，从而使模型能够学习更复杂的上下文问题关系。使用这些数据训练 QA 模型可在 SQuAD 数据集上获得 14％的 F1 分数相对提高，并且在答案为命名实体时提高 20％，从而实现无监督 QA 的最新性能。

Apr, 2020

基于填空翻译的无监督问答

本文探讨了利用无监督方法合成训练集数据以及不匹配的语料库训练 NMT 模型作为 cloze-to-natural question translator 来更有效地训练 QA 模型，这种方法已经在 SQuAD v1 数据集上验证，并且相较于过去的监督学习方法取得更好的表现。

Jun, 2019

信息查询问答中的挑战：无法回答的问题和段落检索

本文分析了预训练语言模型在信息查找问题回答方面的挑战和解决方案，包括段落选择和答案预测。作者人手对多语言数据集进行了分类和标注，在此基础上提出了未来在数据集收集和模型开发方面的研究前景。

Oct, 2020

让人沮丧地简单的自然问答

文章研究了问题回答领域（Question Answering）中各种算法模型以及增强数据方法，提出了基于 Attention-over-Attention 等方法的组合以及数据增强和集成策略，可在 SQuAD 等基准数据集上取得超人的表现。但在最新的自然问题基准数据集上，相对简单的 BERT 迁移学习方法取得了超过先前表现最优系统 1.9 F1 点的优异表现，并且添加集成策略进一步提高了 2.3 F1 点。

Sep, 2019

知道你不知道什么：SQuAD 无法回答的问题

SQuAD 2.0 is a dataset that combines existing SQuAD data with over 50,000 unanswerable questions to test extractive reading comprehension systems' abilities to determine when no answer is supported, resulting in a challenging natural language understanding task for existing models that previously achieved only 66% F1 on SQuAD 2.0.

Jun, 2018

零样本跨语言问答的合成数据增强

本研究提出了一种方法来改善跨语言问答的表现，利用问答生成模型以跨语言的方式生成合成数据，无需额外标注数据，并展示了在四个多语言数据集上的表现显著优于仅使用英文数据的基线模型，创造了新的最优性能水平。

Oct, 2020