Dec, 2022

无注意力预训练

TL;DR研究探索了基于状态空间模型的路由层和基于乘性门控机制的模型架构并结合使用对预训练准确性有很大的影响,提出的双向门控 SSM 模型可以在没有注意机制的情况下复现 BERT 的预训练结果,并可扩展到预训练 4096 个令牌。