ACLMay, 2023

关于 LayerNorm 在 Transformer 注意力机制中表现力的作用

TL;DR本文表明,LayerNorm 是 Transformer 模型中 multi-head attention 层表现力的重要组成部分,其投影和缩放两个步骤对于注意力机制的作用至关重要。