Jan, 2020
BERT 的输出层是否识别所有隐藏层?一些有趣现象和提升 BERT 性能的简单方法
BERT's output layer recognizes all hidden layers? Some Intriguing Phenomena and a simple way to boost BERT
Wei-Tsung Kao, Tsung-Han Wu, Po-Han Chi, Chun-Cheng Hsieh, Hung-Yi Lee
TL;DR本研究发现,BERT 的输出层可以通过直接将每一层作为输入来重建输入句子,即使输出层仅仅见过最终的隐藏层。基于此观察,我们提出了一种简单的方法来提高 BERT 模型在下游任务中的性能,即通过复制一些层使其更深而无需进行额外的训练。