BriefGPT.xyz
Ask
alpha
关键词
rank collapse
搜索结果 - 4
关注掩码和层归一化在 Transformer 中的作用
通过分析自我注意力机制和层标准化对秩崩溃的影响,本文发现层标准化在自我注意力的秩崩溃中起到了关键作用,为自我注意力提供了更富表现力、多功能的非线性动力系统。
PDF
a month ago
PIDformer: Transformer 遇见控制理论
我们提出了一种改进 transformer 架构的方法,通过引入自我注意力作为自主状态空间模型,控制系统对输入的干扰进行反馈控制,提高模型的稳定性和容错能力,从而解决了 softmax transformer 中的秩坍缩问题。我们通过在目标
→
PDF
4 months ago
自注意力网络当 QK 特征向量集中时的局部化
自我注意机制在现代机器学习中盛行,通过调节注意定位的程度,它有能力自适应地从输入序列中选择标记,被许多研究人员认为是强大模型性能的基础之一,但也使学习动态的基本机制复杂化。近年来,主要有两个论点将注意定位与模型性能联系起来,即秩坍缩和熵崩溃
→
PDF
5 months ago
Transformer 中的信号传播:理论视角和秩崩溃的作用
探究在 Transformer 的自我注意层中可能发生的排名坍塌现象及其影响,发现其会导致查询和键的梯度消失,导致训练受阻,但可以通过适当的深度相关的残差分支缩放来预防,而特定的架构超参数会导致查询和值的梯度的不均衡,这解释了为什么在 Tr
→
PDF
2 years ago
Prev
Next