Mar, 2021

注意力不是唯一的解决方案:仅仅使用注意力机制会随着深度呈双倍指数级别的降低

TL;DR本研究提出了一种新的方法来理解自我注意网络:我们展示了它们的输出可以分解为若干关注头跨层序列的操作所涉及的小项相加,通过这种分解,我们证明了自我注意具有强烈的归纳偏差,具体表现为 “令牌均匀性”;实验证明,不同变体的标准转换器体系结构存在收敛现象。