注意力的解剖学研究

Jul, 2024

On the Anatomy of Attention

Nikhil Khatri, Tuomas Laakkonen, Jonathon Liu, Vincent Wang-Maścianica

TL;DR我们引入一种范畴论的图示形式，以系统性地关联和推理机器学习模型。我们的图示以直观但不丢失关键细节的方式呈现架构，其中模型之间的自然关系通过图形变换捕捉，并且重要的差异和相似之处一目了然。在本文中，我们着重于注意力机制：将民间传说转化为数学推导，并在文献中构建了一个注意力变体的分类学。作为我们形式主义支持下的经验研究的第一个例子，我们识别了注意力的重复解剖组成部分，我们全面重组它们以探索注意力机制的变化空间。

Abstract

We introduce a category-theoretic diagrammatic formalism in order to systematically relate and reason about machine learning models. Our diagrams present architectures intuitively but without loss of essential de

category-theoretic diagrammatic formalism machine learning models attention mechanisms folklore taxonomy

发现论文，激发创造

自然语言处理中的注意力

本文提出一种统一的注意力机制模型，针对自然语言处理领域中基于文本数据向量表示的注意力机制的四个维度进行了分类。本文通过举例说明如何在注意力模型中利用先前信息，并讨论了该领域正在进行的研究工作和开放性挑战。这是该领域中广泛文献的首次广泛分类。

Feb, 2019

边际概率就足够了吗？

本篇论文提出了关于注意机制的贝叶斯基础，将不同的机器学习注意力架构统一起来，并且提出了与神经科学中的机制相关的桥梁。

Apr, 2023

注意力模型概述

本文系统总结了注意力模型在神经网络中的应用、发展及其影响。该文提出了一种分类系统，系统地讨论应用、体系结构和注意力在提高神经网络可解释性方面的作用，同时探讨未来关于注意力的研究方向。

Apr, 2019

深度学习中的视觉注意方法：深入调查

本文阐述了注意力机制在深度学习的应用，提出缺乏对于注意力技术的综合研究和分类的问题，描述了 50 种注意力技术分类的细节，并建议未来深度学习对注意力机制的研究方向。

Apr, 2022

深度学习中神经注意力模型调查

该综述旨在提供一种全面的神经注意力模型开发和应用的现状和趋势的分析，系统回顾了数百种注意力模型的体系结构和应用，特别关注于卷积网络、循环网络和生成模型，描述了其在不同应用领域和神经网络可解释性上的影响。

Mar, 2021

关注的数学理论

提出一种通过测度论来构建数学等价模型来填补对自注意力理论认知空白的框架，在此模型中，自注意力被解释为一种自相互作用粒子系统，从最大熵角度照亮自注意力，证明注意力在适当的假设下实际上是 Lipschitz 连续的。

Jul, 2020

从认知到计算：人类注意力与 Transformer 架构的比较综述

人类注意力机制和 Transformer 模型在容量约束、注意路径和意图机制等方面存在显著差异，本文从认知功能的角度进行比较分析，旨在揭示一些开放性研究问题并鼓励跨学科努力，以从人类注意力机制中获得洞察，进而发展更普适的人工智能。

Apr, 2024

在神经网络内建模潜在注意力

本研究提出了一种可解释的方法，能够可视化神经网络中的内在机制和其对输出的影响，从而提高了深度神经网络的可解释性和决策过程，研究的主要贡献是提出了一种数据集中心的算法，适用于多个领域的深度神经网络结构。

Jun, 2017

深度神经网络中人和机器关注的更多理解

通过对机器注意力机制和人类视觉注意力关系的系统研究，本文发现人类关注可以作为注意驱动任务有意义的基准，并证明更接近人工注意力机制的性能更好，同时更好的注意力对于更高级别的计算机视觉任务的可解释性也有显著提升。

Jun, 2019

注意力与事后解释性相遇：数学视角

通过数学研究，我们发现后续方法能够捕捉到比仅仅检查注意力权重更有用的见解，并且它们与基于注意力机制的解释结果存在明显差异。

Feb, 2024