BriefGPT.xyz
Ask
alpha
关键词
entropy collapse
搜索结果 - 2
自注意力网络当 QK 特征向量集中时的局部化
自我注意机制在现代机器学习中盛行,通过调节注意定位的程度,它有能力自适应地从输入序列中选择标记,被许多研究人员认为是强大模型性能的基础之一,但也使学习动态的基本机制复杂化。近年来,主要有两个论点将注意定位与模型性能联系起来,即秩坍缩和熵崩溃
→
PDF
5 months ago
防止注意力熵崩塌以稳定 Transformer 训练
本文通过追踪每层 Transformer 中 attention head 的注意熵来检验其训练动态。作者提出了一个名为 entropy collapse 的现象,即低的注意熵伴随着高的训练不稳定性,提出了一种简单高效的解决方案 sigma
→
PDF
a year ago
Prev
Next