使用合成数据训练问答模型

Feb, 2020

Training Question Answering Models From Synthetic Data

Raul Puri, Ryan Spring, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro

TL;DR通过利用大型语言模型，研究了模型大小、预训练模型的质量、合成数据的规模和算法选择等多个因素，缩小了人工和合成问题 - 答案对之间的差距。该研究通过模型生成的数据，在 SQuAD 数据集上实现了良好的准确率，并在 SQuAD2.0 上显示出优于以前的工作的结果。

Abstract

question and answer generation is a data augmentation method that aims to improve question answering (QA) models given the limited amount of human labeled data. However, a considerable gap remains between synthet

question and answer generation data augmentation language models question answering networks synthetic data

发现论文，激发创造

基于合成数据训练生成型问答模型

通过使用一种简单且经济高效的方法来合成数据以训练问答系统，本文提供了一种在资源丰富的英语等语言中常用的微调 GPT 模型的培训方法，并提出了一种零样本或少样本情况下使用指导调优模型生成 QA 对的方法，并通过实验比较了从指导调优模型获得 QA 对的各种策略，结果表明，使用我们提出的合成数据训练的模型能够达到与手动策划数据集训练的模型相当的性能，而无需付出人力成本。

Oct, 2023

生成、注释并使用合成数据的管道以用于现实世界中的问答

本文介绍了如何使用合成领域特定数据集来改进问答的性能，通过实验表明使用该方法 fine-tune 下游模型的表现得到了显著的提升。

Nov, 2022

用合成对抗数据生成提高问答模型的鲁棒性

本文提出一种使用合成对抗数据生成的方法来提高问题回答模型对人工对手的鲁棒性。通过将合成数据引入训练，成功地将对人工对手的鲁棒性提高了大约一倍。

Apr, 2021

通过往返一致性生成合成问答语料库

本研究介绍了一种通过结合问答生成和答案提取模型，过滤结果以确保往返一致性的方法生成合成问答语料库，并通过对生成数据的预训练在 SQuAD2 和 NQ 上达到了显著的改进，建立了新的最先进技术的状态。我们的合成数据生成模型，无论是问答生成还是答案提取，都可以通过在 SQuAD2 和 NQ 的可提取子集上微调公开可用的 BERT 模型来完全复制。我们还描述了一种更强大的变体，对于问答生成执行完整的序列到序列预训练，可以在 SQuAD2 上取得与人类表现相差小于 0.1％和 0.4％的完全匹配和 F1 值。

Jun, 2019

利用检索句子生成模板的方式提高无监督问答

我们提出了一种无监督训练 QA 模型的方法，该方法使用生成的伪数据训练，为 QA 训练生成问题，通过对相关检索到的句子应用简单模板，而非原始上下文句子来实现，从而使模型能够学习更复杂的上下文问题关系。使用这些数据训练 QA 模型可在 SQuAD 数据集上获得 14％的 F1 分数相对提高，并且在答案为命名实体时提高 20％，从而实现无监督 QA 的最新性能。

Apr, 2020

零样本跨语言问答的合成数据增强

本研究提出了一种方法来改善跨语言问答的表现，利用问答生成模型以跨语言的方式生成合成数据，无需额外标注数据，并展示了在四个多语言数据集上的表现显著优于仅使用英文数据的基线模型，创造了新的最优性能水平。

Oct, 2020

端到端合成数据生成用于问答系统领域自适应

本篇论文提出了一种用于合成问答数据生成的端到端方法，该模型包括一个基于 transformer 的编码器解码器网络，能够训练生成答案和问题，并且通过微调预训练的语言模型进行训练，实验结果表明，在领域适应的 QA 模型中，该生成器显著优于当前最先进的方法。

Oct, 2020

跨语言阅读理解的零样本多语言合成问答生成

使用单一生成模型在大规模上生成多语言问题和答案对，通过多任务训练的生成模型来改进跨语言 QA 模型的零 - shot 表现，并在各种语言的 XQuAD 数据集上实现了较大的性能提升。

Oct, 2020

领域自适应问答的合成问题价值评估

本文提出了一种新颖的问题价值估计器（QVE），它可以直接估计合成问题对于提高目标领域问答（QA）性能的有用性。通过综合实验，我们发现 QVE 选择的合成问题可以帮助实现比现有技术更好的目标领域 QA 表现，并且通过使用这些问题并仅使用目标领域 15％左右的人类注释，我们可以实现与完全监督基线相当的性能。

Mar, 2022

XAIQA：用于提取式问答的基于解释器的数据增强

使用医疗记录自然可用的数据，XAIQA 通过分类模型解释器生成大规模的合成问答对，提升了 GPT-4 作为抽取式问答模型的性能。

Dec, 2023