Oct, 2021

bert2BERT:面向可重用的预训练语言模型

TL;DR本文提出了 bert2BERT,通过参数初始化有效地将现有较小的预训练模型(如 BRET_BASE)的知识转移到大型模型(如 BERT_LARGE),并通过提出高级知识进一步改进大型模型的初始化以及两阶段预训练方法,以此显着提高大型模型的预训练效率,这个方法被证明要比从头开始训练,StackBERT 和 MSLT 并使用不同类型的预训练模型的基线方法显着节省训练成本,特别是 bert2BERT 通过重复使用几乎是其一半大小的模型,将 BERT_BASE 和 GPT_BASE 的预训练计算成本节省约 45% 和 47%。