关于注意力网络学习动态

Jul, 2023

On the learning Dynamics of Attention Networks

Rahul Vashisht, Harish G. Ramaswamy

TL;DR关注模型有三种不同的潜在变量边际可能性（LVML）：软关注、硬关注和软关注损失。我们观察到使用这些范例学到的模型具有独特的特征，并且提出了一种简单的混合方法，结合了不同损失函数的优点。

Abstract

attention models are typically learned by optimizing one of three standard loss functions that are variously called -- soft attention, hard atten

attention models soft attention hard attention latent variable marginal likelihood hybrid approach

发现论文，激发创造

潜在对齐与变分注意力

本文通过提出基于平均化变分推断损失函数的变分注意力网络方法，可以更有效地学习到潜变量对齐模型，取得了与硬注意力等传统方法相当和甚至更好的性能，在机器翻译和视觉问答任务上表现优异。

Jul, 2018

多头 Softmax 注意力的上下文学习训练动态：出现、收敛和最优性

我们研究了多头 softmax 注意力模型在上下文学习多任务线性回归中的渐变流动动力学。通过适当选择初始化，我们确定了梯度流的全局收敛性。此外，我们证明了梯度流动力学中出现了有趣的 “任务分配” 现象，在这个过程中，每个注意力头专注于解决多任务模型的单个任务。具体而言，我们证明了梯度流动力学可以分为三个阶段 —— 热身阶段，其中损失减少得相对较慢，注意力头逐渐倾向于各自的任务；出现阶段，其中每个头选择一个任务，损失迅速降低；收敛阶段，注意参数收敛到一个极限。此外，我们证明了梯度流在优化上的最佳性，即由梯度流学习到的极限模型与最佳的多头 softmax 注意力模型相当，仅相差一个常数因子。我们的分析还明确了单头和多头注意力模型在 ICL 的预测准确性方面的严格区别。我们收敛分析的关键技术是将参数空间中的梯度流动力学映射到谱域中的一组常微分方程，其中注意力权重的半奇特征值的相对大小确定了任务分配。据我们所知，我们的工作为多头 softmax 注意力模型提供了第一个收敛结果。

Feb, 2024

通过引导式硬关注训练视觉问答模型

本文介绍了一种新型的硬注意力机制，该机制忽略了某些特征但仍能达到与软注意力相同或更好的性能，而且因为其选择了输入信息的重要特征，因此比类似的软注意力机制更加高效。

Aug, 2018

注意力机制中的边缘最大化

本研究探讨了注意力机制作为令牌分离机制的形式，并论证了运行梯度下降收敛于最大边缘解，同时提出了广泛的正则化路径分析。

Jun, 2023

使用变分推断学习硬对齐

本文介绍了使用变分推断方法学习序列任务的困难注意力，在干净和嘈杂环境中的语音识别任务中，该方法表现出了比 REINFORCE 更好的效果。

May, 2017

用自注意力建模选择

通过引入自注意力的神经网络结构，本研究提出了第一个成功利用现代神经网络概念的选择模型，理论和实践都证明了该模型相对于现有模型在实际数据上更具优势。

Nov, 2023

在神经网络内建模潜在注意力

本研究提出了一种可解释的方法，能够可视化神经网络中的内在机制和其对输出的影响，从而提高了深度神经网络的可解释性和决策过程，研究的主要贡献是提出了一种数据集中心的算法，适用于多个领域的深度神经网络结构。

Jun, 2017

软硬件注意力：一种 LSTM 框架用于人类轨迹预测和异常事件检测

通过建立深度学习基础的行人运动预测模型，利用 “软性注意力” 和 “硬性注意力” 相结合的方式，成功实现了不需要手工特征处理的异常事件检测，从而在两个公开数据库中取得了比同类研究更优秀的结果。

Feb, 2017

边际概率就足够了吗？

本篇论文提出了关于注意机制的贝叶斯基础，将不同的机器学习注意力架构统一起来，并且提出了与神经科学中的机制相关的桥梁。

Apr, 2023

图注意力回顾

本文针对图神经网络进行多个实验，并研究其在节点分类问题中的理论表现。研究结果指出，图注意力机制可以区分类内和类间边缘，重要边的权重得以保留，进而实现完美的节点分类。

Feb, 2022