Oct, 2020

现代语言模型的损失函数

TL;DR本文探讨了BERT预训练在NSP任务上的影响以及其他14种可能的辅助预训练任务,并研究了将多个任务包含到预训练中的不同方法。实验证明,使用多种任务的多任务预训练框架比单个辅助任务更好地提高了结果表现,并在GLUE基准测试中打败了BERT Base。