Jun, 2019

通过往返一致性生成合成问答语料库

TL;DR本研究介绍了一种通过结合问答生成和答案提取模型,过滤结果以确保往返一致性的方法生成合成问答语料库,并通过对生成数据的预训练在 SQuAD2 和 NQ 上达到了显著的改进,建立了新的最先进技术的状态。我们的合成数据生成模型,无论是问答生成还是答案提取,都可以通过在 SQuAD2 和 NQ 的可提取子集上微调公开可用的 BERT 模型来完全复制。我们还描述了一种更强大的变体,对于问答生成执行完整的序列到序列预训练,可以在 SQuAD2 上取得与人类表现相差小于 0.1%和 0.4%的完全匹配和 F1 值。