ICMLMay, 2024

简化线性注意力和渐进重参数化批归一化的高效 Transformer (SLAB)

TL;DR本研究针对 transformer 中的计算瓶颈模块,即正则化层和注意力模块,提出了一种名为 PRepBN 的新方法,用于逐步替换训练中的 LayerNorm,并提出了一种简化的线性注意力模块(SLA)以实现强大的性能。实验证明,该方法在图像分类和目标检测任务上的效果显著,并在语言建模任务中获得了可比较的性能和更低的延迟。