BriefGPT.xyz
Oct, 2020
现代语言模型的损失函数
On Losses for Modern Language Models
HTML
PDF
Stephane Aroca-Ouellette, Frank Rudzicz
TL;DR
本文探讨了BERT预训练在NSP任务上的影响以及其他14种可能的辅助预训练任务,并研究了将多个任务包含到预训练中的不同方法。实验证明,使用多种任务的多任务预训练框架比单个辅助任务更好地提高了结果表现,并在GLUE基准测试中打败了BERT Base。
Abstract
bert
set many state-of-the-art results over varied NLU benchmarks by
pre-training
over two tasks: masked language modelling (MLM) and next sentence prediction (
→