ACLJun, 2024

对称点积注意力用于 BERT 语言模型的高效训练

TL;DR提出了一种与 Transformer 架构的自注意力机制兼容的替代性兼容函数,并在类似 BERT 模型的预训练中实现了对称的注意力机制,在 GLUE 基准测试中得分 79.36,减少了可训练参数数量的 6%,并将收敛前所需的训练步骤减少了一半。