Jun, 2024

跳跃层注意力:在 Transformer 中连接抽象和详细依赖关系

TL;DR该研究论文通过引入 Skip-Layer Attention (SLA) 方法在 Transformer 模型中实现直接关注非相邻层之间的依赖关系,提升模型捕捉高层抽象特征和底层细节之间的依赖,扩展了 Transformer 的功能,实现了更多样的多头注意力机制,从而在语言建模任务中取得了更优越的性能。