Feb, 2022

BERT WEAVER: 采用加权平均实现基于 Transformer 的模型的生命周期学习

TL;DR提出了一种称为 WEAVER 的简单且高效的后处理方法,该方法将旧知识融入新模型中,从而减少灾难性遗忘,并且在序列方式下,应用 WEAVER 导致与一次性对所有数据进行联合训练相似的单词嵌入分布,同时具有更高的计算效率。