自然语言处理中的注意力

Feb, 2019

Attention in Natural Language Processing

Andrea Galassi, Marco Lippi, Paolo Torroni

TL;DR本文提出一种统一的注意力机制模型，针对自然语言处理领域中基于文本数据向量表示的注意力机制的四个维度进行了分类。本文通过举例说明如何在注意力模型中利用先前信息，并讨论了该领域正在进行的研究工作和开放性挑战。这是该领域中广泛文献的首次广泛分类。

Abstract

attention is an increasingly popular mechanism used in a wide range of neural architectures. The mechanism itself has been realized in a variety of formats. However, because of the fast-paced advances in this domain, a systematic overview of →

attention neural architectures natural language processing vector representations taxonomy

发现论文，激发创造

深度学习中神经注意力模型调查

该综述旨在提供一种全面的神经注意力模型开发和应用的现状和趋势的分析，系统回顾了数百种注意力模型的体系结构和应用，特别关注于卷积网络、循环网络和生成模型，描述了其在不同应用领域和神经网络可解释性上的影响。

Mar, 2021

注意力模型概述

本文系统总结了注意力模型在神经网络中的应用、发展及其影响。该文提出了一种分类系统，系统地讨论应用、体系结构和注意力在提高神经网络可解释性方面的作用，同时探讨未来关于注意力的研究方向。

Apr, 2019

注意力的夸克

本文研究了注意力机制的基本构建块及其计算性质，提出三种最重要的机制：加性激活注意力，乘性输出注意力（输出门控）和乘性突触注意力（突触门控），并证明加性激活注意是基本电路的下限证明中的重要角色。

Feb, 2022

基于语法的自然语言推理注意力模型

本文探讨了在自然语言推理的背景下，将注意力机制应用到句法树这种更加丰富的拓扑结构上，不仅可以利用底层的句法信息，还可以使注意力更具可解释性。结果表明，该方法非常有效，并进行了广泛的质量分析，提取出了为什么以及如何工作的见解和直觉。

Jul, 2016

边际概率就足够了吗？

本篇论文提出了关于注意机制的贝叶斯基础，将不同的机器学习注意力架构统一起来，并且提出了与神经科学中的机制相关的桥梁。

Apr, 2023

坚持承诺：（如何）让注意力成为解释？

研究关注机制在 NLP 中的应用，提出了一个针对循环网络序列分类任务中存在的问题的解决方法，并给出了证明，说明关注机制可以提供循环模型的可靠解释。

May, 2020

注意力是否可解释？

测试加权输入组件的注意机制对于模型预测的影响，发现虽然注意机制可以预测输入组件的相对重要性，但并非绝对准确的指标。

Jun, 2019

注意力不等于解释

通过多个 NLP 任务的广泛实验，发现学习的注意力权重往往与基于梯度的特征重要性测量之间存在不相关性，表明标准的注意力模块并不能提供有意义的解释并且不应该被视为能够提供这种解释。

Feb, 2019

深度学习中的视觉注意方法：深入调查

本文阐述了注意力机制在深度学习的应用，提出缺乏对于注意力技术的综合研究和分类的问题，描述了 50 种注意力技术分类的细节，并建议未来深度学习对注意力机制的研究方向。

Apr, 2022

关注的数学理论

提出一种通过测度论来构建数学等价模型来填补对自注意力理论认知空白的框架，在此模型中，自注意力被解释为一种自相互作用粒子系统，从最大熵角度照亮自注意力，证明注意力在适当的假设下实际上是 Lipschitz 连续的。

Jul, 2020