逆距离加权注意力

Oct, 2023

Inverse distance weighting attention

Calvin McCarter

TL;DR替换尺度点积注意力为负欧氏距离对网络产生了影响，简化成距离倒数加权插值；在简单单隐藏层网络上训练，使用标准交叉熵损失，倾向于生成包含原型的关键矩阵和相应逻辑回归的值矩阵；同时，我们还展示其结果可通过人工构建的原型增加特殊情况的处理能力，形成可解释的网络。

Abstract

We report the effects of replacing the scaled dot-product (within softmax) attention with the negative-log of euclidean distance. This form of attention simplifies to inverse distance weighting interpolation. Use

scaled dot-product attention euclidean distance inverse distance weighting interpolation classification problems interpretable networks

发现论文，激发创造

Transformer 神经网络架构中注意力机制的缩放点积的替代方法

通过除以键值长度之和而非平方根，我们提出了一种替代方法来缩放点积，以避免在应用 softmax 时导致梯度消失的区域。我们使用模拟的键和查询显示，这种方法在许多情况下更有效。

Nov, 2023

椭圆形注意力

应用 Mahalanobis 距离计算注意力权重，将模型的特征空间在高上下文相关性方向进行拉伸，从而达到减少特征塌缩和提升模型鲁棒性的效果，验证了在多个实际任务中 Elliptical Attention 相对于基线 dot-product attention 和最先进的方法的优越性。

Jun, 2024

逆狄利克雷加权使物理信息神经网络训练可靠

本文研究并解决了深度神经网络（如物理信息神经网络）训练过程中可能出现的多尺度动态和尺度失衡引发的故障模式，通过提出一种简单而有效的逆狄利克雷加权策略来缓解问题，并在各种应用中进行了验证和比较。

Jul, 2021

从信息论的角度重新思考注意力权重作为解释

在信息理论的角度下，论文研究了不同类型的注意力机制在保留信息和解释模型输入方面的表现，并得出了一些结论。

Oct, 2022

具有恒定标记成本的 Softmax 注意力

我们对传统的 Transformer 模型中的注意力机制进行了简单修改，通过对指数函数的缩放点积取对数来量化查询 - 键的相似性，将注意力表达为一系列对数求和的指数函数，该方法的优势在于其线性化性质，具有恒定大小的潜在空间，每个标记的顺序应用具有恒定的时间和空间复杂度。我们实现了该修改，验证其在实践中的有效性，并得出结论，即它是传统注意力的一个有前途的替代方法。

Apr, 2024

一层 Softmax 注意力梯度流的隐性正则化

研究一层 softmax 注意模型上指数损失的梯度流问题，通过分离地训练键值矩阵，我们在数据可分性假设下证明梯度流在达到最小损失值时，进一步隐式地最小化键值矩阵乘积的核范数，这种隐式正则化可以用关注权重的支持向量机（SVM）问题来描述。与先前结果相反，当将键值矩阵合并为单个权重矩阵进行训练时，梯度下降对于乘积权重矩阵的 Frobenius 范数引入了隐式正则化。对于对角键值和查询矩阵，我们的分析建立在重新参数化技术和利用与分类数据相关的 SVM 近似 KKT 条件的基础上。此外，该结果对于给定适当对齐的权重矩阵奇异空间与数据特征的初始化情况也同样适用。

Mar, 2024

重新思考分布移动下的深度学习重要性加权

本文研究分布偏移问题下，重要性加权在复杂数据上无法良好运作的原因，并提出了一种基于动态重要性加权的端到端解决方案。实验表明，该方法能够与现有最先进的方法相媲美。

Jun, 2020

逻辑回归与 Softmax 分类器的逆向分类：高效优化

通过闭合解法和快速迭代，本文对逻辑回归和 softmax 分类器两种常用分类器提出了高效的解决方案，以解决逆分类、反事实解释、对抗性示例和模型反演等最优化问题。

Sep, 2023

加权内积表示学习实现通用相似度近似

本文提出一种基于神经网络的图嵌入方法 —— 加权内积相似性，其能够优化相似度模型，学习任何相似度模型，且在节点表示学习和归纳任务中有高效表现。

Feb, 2019

Transformer 模型的概率解释

提出 transformers 的注意力子层是 Hopfield 注意力理论中的 log-sum-exp 项的梯度上升步骤，这导致了点的并行扩展，而又被层标准化所抵消的基于指数族的对比学习的概率解释

Apr, 2022