关注的数学理论

Jul, 2020

A Mathematical Theory of Attention

James Vuckovic, Aristide Baratin, Remi Tachet des Combes

TL;DR提出一种通过测度论来构建数学等价模型来填补对自注意力理论认知空白的框架，在此模型中，自注意力被解释为一种自相互作用粒子系统，从最大熵角度照亮自注意力，证明注意力在适当的假设下实际上是 Lipschitz 连续的。

Abstract

attention is a powerful component of modern neural networks across a wide variety of domains. However, despite its ubiquity in machine learning, there is a gap in our understanding of →

attention neural networks measure theory self-attention lipschitz-continuous

发现论文，激发创造

理解自注意力的规律性与最优传输

通过研究自注意力的局部李普希茨常数，本文在测度论框架下改进了先前的结果，从理论角度探讨了 Transformer 和多头注意力机制在神经网络的鲁棒性问题，并发现高局部李普希茨常数的测度通常由少数的狄拉克函数组成，且质量分布不均衡。此外，本文还分析了自注意力在改变令牌数的扰动下的稳定性，发现在某些输入情况下，复制令牌的攻击比仅移动令牌的攻击效果更好，称之为质量分裂现象。

Dec, 2023

自然语言处理中的注意力

本文提出一种统一的注意力机制模型，针对自然语言处理领域中基于文本数据向量表示的注意力机制的四个维度进行了分类。本文通过举例说明如何在注意力模型中利用先前信息，并讨论了该领域正在进行的研究工作和开放性挑战。这是该领域中广泛文献的首次广泛分类。

Feb, 2019

边际概率就足够了吗？

本篇论文提出了关于注意机制的贝叶斯基础，将不同的机器学习注意力架构统一起来，并且提出了与神经科学中的机制相关的桥梁。

Apr, 2023

深度学习中神经注意力模型调查

该综述旨在提供一种全面的神经注意力模型开发和应用的现状和趋势的分析，系统回顾了数百种注意力模型的体系结构和应用，特别关注于卷积网络、循环网络和生成模型，描述了其在不同应用领域和神经网络可解释性上的影响。

Mar, 2021

注意力的解剖学研究

我们引入一种范畴论的图示形式，以系统性地关联和推理机器学习模型。我们的图示以直观但不丢失关键细节的方式呈现架构，其中模型之间的自然关系通过图形变换捕捉，并且重要的差异和相似之处一目了然。在本文中，我们着重于注意力机制：将民间传说转化为数学推导，并在文献中构建了一个注意力变体的分类学。作为我们形式主义支持下的经验研究的第一个例子，我们识别了注意力的重复解剖组成部分，我们全面重组它们以探索注意力机制的变化空间。

Jul, 2024

注意力与事后解释性相遇：数学视角

通过数学研究，我们发现后续方法能够捕捉到比仅仅检查注意力权重更有用的见解，并且它们与基于注意力机制的解释结果存在明显差异。

Feb, 2024

注意力是否可解释？

测试加权输入组件的注意机制对于模型预测的影响，发现虽然注意机制可以预测输入组件的相对重要性，但并非绝对准确的指标。

Jun, 2019

注意力模型概述

本文系统总结了注意力模型在神经网络中的应用、发展及其影响。该文提出了一种分类系统，系统地讨论应用、体系结构和注意力在提高神经网络可解释性方面的作用，同时探讨未来关于注意力的研究方向。

Apr, 2019

自注意力的利普希茨常数

本研究探讨了自注意力模型的 Lipschitz 常数，并提出了一种 L2 自注意力模型来代替标准点积自注意力模型，同时推导出了 L2 自注意力模型的 Lipschitz 常数上限，并证明了其在实践中的可行性和实用性，包括用于字符级别语言建模的 Transformer-based 架构。

Jun, 2020

从信息论的角度重新思考注意力权重作为解释

在信息理论的角度下，论文研究了不同类型的注意力机制在保留信息和解释模型输入方面的表现，并得出了一些结论。

Oct, 2022