May, 2022

GAU-based 模型的实现和实验的补充材料

TL;DR本文重新分析了 Google 在今年 2 月提出的 Transformer 变种 FLASH 的实现细节;并在此基础上,提出一种基于 GAU 的模型,并在中文语料库上进行预训练。CLUE 基准测试结果表明,该模型的开发平均分为 75.02,在速度提高 45%的情况下,比 RoFormerV1 高 1%,并与 RoFormerV2 相当有竞争力。