Jan, 2020

BERT 的输出层是否识别所有隐藏层?一些有趣现象和提升 BERT 性能的简单方法

TL;DR本研究发现,BERT 的输出层可以通过直接将每一层作为输入来重建输入句子,即使输出层仅仅见过最终的隐藏层。基于此观察,我们提出了一种简单的方法来提高 BERT 模型在下游任务中的性能,即通过复制一些层使其更深而无需进行额外的训练。