边际概率就足够了吗？

Apr, 2023

Attention: Marginal Probability is All You Need?

Ryan Singh, Christopher L. Buckley

TL;DR本篇论文提出了关于注意机制的贝叶斯基础，将不同的机器学习注意力架构统一起来，并且提出了与神经科学中的机制相关的桥梁。

Abstract

attention mechanisms are a central property of cognitive systems allowing them to selectively deploy cognitive resources in a flexible manner. Attention has been long studied in the neurosciences and there are nu

attention mechanisms cognitive systems machine learning bayesian foundation neuroscience

发现论文，激发创造

注意力的夸克

本文研究了注意力机制的基本构建块及其计算性质，提出三种最重要的机制：加性激活注意力，乘性输出注意力（输出门控）和乘性突触注意力（突触门控），并证明加性激活注意是基本电路的下限证明中的重要角色。

Feb, 2022

深度学习中神经注意力模型调查

该综述旨在提供一种全面的神经注意力模型开发和应用的现状和趋势的分析，系统回顾了数百种注意力模型的体系结构和应用，特别关注于卷积网络、循环网络和生成模型，描述了其在不同应用领域和神经网络可解释性上的影响。

Mar, 2021

自然语言处理中的注意力

本文提出一种统一的注意力机制模型，针对自然语言处理领域中基于文本数据向量表示的注意力机制的四个维度进行了分类。本文通过举例说明如何在注意力模型中利用先前信息，并讨论了该领域正在进行的研究工作和开放性挑战。这是该领域中广泛文献的首次广泛分类。

Feb, 2019

注意力的解剖学研究

我们引入一种范畴论的图示形式，以系统性地关联和推理机器学习模型。我们的图示以直观但不丢失关键细节的方式呈现架构，其中模型之间的自然关系通过图形变换捕捉，并且重要的差异和相似之处一目了然。在本文中，我们着重于注意力机制：将民间传说转化为数学推导，并在文献中构建了一个注意力变体的分类学。作为我们形式主义支持下的经验研究的第一个例子，我们识别了注意力的重复解剖组成部分，我们全面重组它们以探索注意力机制的变化空间。

Jul, 2024

注意力与事后解释性相遇：数学视角

通过数学研究，我们发现后续方法能够捕捉到比仅仅检查注意力权重更有用的见解，并且它们与基于注意力机制的解释结果存在明显差异。

Feb, 2024

从认知到计算：人类注意力与 Transformer 架构的比较综述

人类注意力机制和 Transformer 模型在容量约束、注意路径和意图机制等方面存在显著差异，本文从认知功能的角度进行比较分析，旨在揭示一些开放性研究问题并鼓励跨学科努力，以从人类注意力机制中获得洞察，进而发展更普适的人工智能。

Apr, 2024

A$^3$: 神经网络中的加速注意力机制近似方法

本研究提出了 A3 机制，利用算法逼近和硬件专业化实现对于神经网络中注意力机制的加速，以达到多个数量级的能效提升和大幅度加速传统硬件的效果。

Feb, 2020

关注的数学理论

提出一种通过测度论来构建数学等价模型来填补对自注意力理论认知空白的框架，在此模型中，自注意力被解释为一种自相互作用粒子系统，从最大熵角度照亮自注意力，证明注意力在适当的假设下实际上是 Lipschitz 连续的。

Jul, 2020

计算机视觉中的注意力机制：综述

本文综述了在计算机视觉中引入的各种注意力机制的方法，着重介绍了通道注意力、空间注意力、时间注意力和分支注意力等方面，并提出了未来注意力机制研究的方向。

Nov, 2021

预训练注意力机制

通过引导模型关注输入的显著区域，或经过无监督预训练，可以提高循环神经网络在分类任务中的性能，同时可以提高注意力机制本身的效率。

Dec, 2017