基于合成数据训练生成型问答模型

ACLOct, 2023

基于合成数据训练生成型问答模型

Training Generative Question-Answering on Synthetic Data Obtained from an Instruct-tuned Mo

Kosuke Takahashi, Takahiro Omi, Kosuke Arima, Tatsuya Ishigaki

TL;DR通过使用一种简单且经济高效的方法来合成数据以训练问答系统，本文提供了一种在资源丰富的英语等语言中常用的微调 GPT 模型的培训方法，并提出了一种零样本或少样本情况下使用指导调优模型生成 QA 对的方法，并通过实验比较了从指导调优模型获得 QA 对的各种策略，结果表明，使用我们提出的合成数据训练的模型能够达到与手动策划数据集训练的模型相当的性能，而无需付出人力成本。

Abstract

This paper presents a simple and cost-effective method for synthesizing data to train question-answering systems. For training, fine-tuning gpt models is a common practice in resource-rich languages like English,

question-answering systems data synthesis gpt models qa pairs synthetic data

发现论文，激发创造

使用合成数据训练问答模型

通过利用大型语言模型，研究了模型大小、预训练模型的质量、合成数据的规模和算法选择等多个因素，缩小了人工和合成问题 - 答案对之间的差距。该研究通过模型生成的数据，在 SQuAD 数据集上实现了良好的准确率，并在 SQuAD2.0 上显示出优于以前的工作的结果。

Feb, 2020

跨语言阅读理解的零样本多语言合成问答生成

使用单一生成模型在大规模上生成多语言问题和答案对，通过多任务训练的生成模型来改进跨语言 QA 模型的零 - shot 表现，并在各种语言的 XQuAD 数据集上实现了较大的性能提升。

Oct, 2020

零样本跨语言问答的合成数据增强

本研究提出了一种方法来改善跨语言问答的表现，利用问答生成模型以跨语言的方式生成合成数据，无需额外标注数据，并展示了在四个多语言数据集上的表现显著优于仅使用英文数据的基线模型，创造了新的最优性能水平。

Oct, 2020

自问自答：无监督知识引导的语言模型对齐

本文介绍了一种称为 Self-QA 的创新框架，利用大量无监督知识代替传统的人工撰写指导文件种子，从而生成更多正确和特定于领域的指导数据，以克服创建用于指导调整的监督配对问答数据所面临的挑战。

May, 2023

生成、注释并使用合成数据的管道以用于现实世界中的问答

本文介绍了如何使用合成领域特定数据集来改进问答的性能，通过实验表明使用该方法 fine-tune 下游模型的表现得到了显著的提升。

Nov, 2022

利用检索句子生成模板的方式提高无监督问答

我们提出了一种无监督训练 QA 模型的方法，该方法使用生成的伪数据训练，为 QA 训练生成问题，通过对相关检索到的句子应用简单模板，而非原始上下文句子来实现，从而使模型能够学习更复杂的上下文问题关系。使用这些数据训练 QA 模型可在 SQuAD 数据集上获得 14％的 F1 分数相对提高，并且在答案为命名实体时提高 20％，从而实现无监督 QA 的最新性能。

Apr, 2020

端到端合成数据生成用于问答系统领域自适应

本篇论文提出了一种用于合成问答数据生成的端到端方法，该模型包括一个基于 transformer 的编码器解码器网络，能够训练生成答案和问题，并且通过微调预训练的语言模型进行训练，实验结果表明，在领域适应的 QA 模型中，该生成器显著优于当前最先进的方法。

Oct, 2020

用合成对抗数据生成提高问答模型的鲁棒性

本文提出一种使用合成对抗数据生成的方法来提高问题回答模型对人工对手的鲁棒性。通过将合成数据引入训练，成功地将对人工对手的鲁棒性提高了大约一倍。

Apr, 2021

基于填空翻译的无监督问答

本文探讨了利用无监督方法合成训练集数据以及不匹配的语料库训练 NMT 模型作为 cloze-to-natural question translator 来更有效地训练 QA 模型，这种方法已经在 SQuAD v1 数据集上验证，并且相较于过去的监督学习方法取得更好的表现。

Jun, 2019

问题生成的合成上下文生成

通过使用大规模语言模型生成的合成上下文进行训练，研究表明，虚拟上下文在问句生成中具有类似实际上下文的效果，为未来该领域的进一步发展铺平了道路。

Jun, 2024