Dec, 2019

领域无关问答数据扩充及采样技术探究

TL;DR研究提出了一个不依赖于特定领域的问答模型,并探讨了大型预训练语言模型、各种数据采样策略以及通过背景翻译生成的查询和上下文释义的相对优点。我们发现简单的负采样技术特别有效,即使它通常用于包括无法回答的问题(如 SQuAD 2.0)的数据集。当与域内采样结合应用时,基于 XLNet(Yang 等人,2019)的提交在 MRQA 领袖板竞赛中取得了第二名的准确匹配和 F1 得分。