通过除以键值长度之和而非平方根,我们提出了一种替代方法来缩放点积,以避免在应用 softmax 时导致梯度消失的区域。我们使用模拟的键和查询显示,这种方法在许多情况下更有效。
Nov, 2023
应用 Mahalanobis 距离计算注意力权重,将模型的特征空间在高上下文相关性方向进行拉伸,从而达到减少特征塌缩和提升模型鲁棒性的效果,验证了在多个实际任务中 Elliptical Attention 相对于基线 dot-product attention 和最先进的方法的优越性。
Jun, 2024
本文研究并解决了深度神经网络(如物理信息神经网络)训练过程中可能出现的多尺度动态和尺度失衡引发的故障模式,通过提出一种简单而有效的逆狄利克雷加权策略来缓解问题,并在各种应用中进行了验证和比较。
Jul, 2021
在信息理论的角度下,论文研究了不同类型的注意力机制在保留信息和解释模型输入方面的表现,并得出了一些结论。
Oct, 2022
我们对传统的 Transformer 模型中的注意力机制进行了简单修改,通过对指数函数的缩放点积取对数来量化查询 - 键的相似性,将注意力表达为一系列对数求和的指数函数,该方法的优势在于其线性化性质,具有恒定大小的潜在空间,每个标记的顺序应用具有恒定的时间和空间复杂度。我们实现了该修改,验证其在实践中的有效性,并得出结论,即它是传统注意力的一个有前途的替代方法。
Apr, 2024
研究一层 softmax 注意模型上指数损失的梯度流问题,通过分离地训练键值矩阵,我们在数据可分性假设下证明梯度流在达到最小损失值时,进一步隐式地最小化键值矩阵乘积的核范数,这种隐式正则化可以用关注权重的支持向量机(SVM)问题来描述。与先前结果相反,当将键值矩阵合并为单个权重矩阵进行训练时,梯度下降对于乘积权重矩阵的 Frobenius 范数引入了隐式正则化。对于对角键值和查询矩阵,我们的分析建立在重新参数化技术和利用与分类数据相关的 SVM 近似 KKT 条件的基础上。此外,该结果对于给定适当对齐的权重矩阵奇异空间与数据特征的初始化情况也同样适用。
Mar, 2024
本文研究分布偏移问题下,重要性加权在复杂数据上无法良好运作的原因,并提出了一种基于动态重要性加权的端到端解决方案。实验表明,该方法能够与现有最先进的方法相媲美。
Jun, 2020
通过闭合解法和快速迭代,本文对逻辑回归和 softmax 分类器两种常用分类器提出了高效的解决方案,以解决逆分类、反事实解释、对抗性示例和模型反演等最优化问题。
Sep, 2023
本文提出一种基于神经网络的图嵌入方法 —— 加权内积相似性,其能够优化相似度模型,学习任何相似度模型,且在节点表示学习和归纳任务中有高效表现。
Feb, 2019
提出 transformers 的注意力子层是 Hopfield 注意力理论中的 log-sum-exp 项的梯度上升步骤,这导致了点的并行扩展,而又被层标准化所抵消的基于指数族的对比学习的概率解释
Apr, 2022