Nov, 2023

层层为重要且不同:每一层都重要 BERT

TL;DR该研究介绍了针对数据高效预训练语言模型的一种新型 Transformer 体系结构修改方法。该方法通过参与 BabyLM 挑战赛,赢得了 extsc {strict} 和 extsc {strict-small} 两个赛道。我们的方法允许每个 Transformer 层选择处理前一层的哪些输出。经验证实验结果显示,该简单的修改具有潜力,且不同层的重要性不尽相同。