Transformer 的广义注意机制和相对位置

Jul, 2022

Transformer 的广义注意机制和相对位置

Generalized Attention Mechanism and Relative Position for Transformer

R. V. R. Pandya

TL;DR本文提出了广义注意力机制 (GAM)，揭示了 Vaswani 等人的自注意力机制的新解释，提供了不同变体注意力机制和 GAM 框架中的新相对位置表示，并可简单应用于不同数据集中元素的不同位置的情况。

Abstract

In this paper, we propose generalized attention mechanism (GAM) by first suggesting a new interpretation for self-attention mechanism of Vaswani et al. . Following the interpretation, we provide description for d

generalized attention mechanism self-attention mechanism relative position representation input sequence dataset

发现论文，激发创造

相对位置表示的自注意力

本研究通过在自我关注机制中引入对序列元素相对位置或距离的表示，比绝对位置表示获得了更好的机器翻译结果。同时，将相对位置表示和绝对位置表示相结合并不能进一步提高翻译质量。

Mar, 2018

GTA：一种面向几何的多视角 Transformer 的注意机制

通过提出一种几何感知注意机制 (Geometric Transform Attention, GTA) 来对几何结构进行编码，改进了基于 Transformer 的多视角合成模型的学习效率和性能，无需额外学习参数且计算开销较小。

Oct, 2023

高斯自适应注意力是你所需的一切：跨多种模态的强大情境表示

多头高斯自适应注意力机制（GAAM）和高斯自适应变换器（GAT）能够增强跨多种模态（包括语音、文本和视觉）的信息聚合，有效提升模型性能，特别是在处理高度非平稳数据时的准确度可以提升 20% 左右，并通过识别特征空间中的关键元素，进一步展示了模型的适应性和潜力。GAAM 不仅兼容基于点积的注意力模型，而且参数较少，展现了其对现有注意力框架的提升能力和潜在价值。通过实验证明，GAAM 在多种任务上具备出色的适应性和效果，包括情感识别、图像分类和文本分类，从而显示出其在处理多模态数据方面的健壮性和多功能性。此外，该研究还引入了重要性因子（IF），一种基于学习的度量指标，增强了 GAAM 方法训练模型的可解释性。总体而言，GAAM 代表了跨多模态的注意力模型在性能和可解释性方面的进展。

Jan, 2024

音乐变形器

提出了一种使用修改后的相对注意力机制来设计变形金刚神经网络的算法，用于音乐作曲、演奏和生成任务，并在 JSB Chorales 和 Piano-e-Competition 数据集上获得了最先进的结果。

Sep, 2018

探究 (自我) 关注机制在认知与计算机视觉架构中的作用的博士论文

本文研究了复杂的推理任务中注意力和记忆的作用，分析了 Transformer-based self-attention 模型，并通过增加记忆单元的方式对其进行了扩展，提出了一种结合了注意力和记忆的认知架构 GAMR，并在视觉推理测试中的表现超过了其他架构。

Jun, 2023

深度网络中空间注意机制的实证研究

本篇论文对注意力机制的实现方法进行了实证研究，发现空间注意力及注意力机制中的关键内容对比对深度神经网络的性能影响显著，为注意力机制的进一步研究及设计提供了新的思路和方向。

Apr, 2019

GAMR: 一种深度引导关注模型用于 (视觉) 推理

本文介绍了一个用于视觉推理的新模块 —— 带有引导注意力的视觉推理模型（GAMR），它通过选择和路由任务相关的视觉信息进入记忆的注意力移动序列来实现主动视觉理论。实验证明，GAMR 能够以稳健和高效的方式学习视觉任务，并能够在全新的推理任务上实现零 - shot 泛化。研究结果支持需要在注意力和记忆之间进行关键相互作用，以动态维护和操纵任务相关视觉信息来解决复杂视觉推理任务的认知理论。

Jun, 2022

局部到全局的视觉 Transformer 自注意力

本研究提出了多通路结构的 Transformer 模型，实现局部到全局的多粒度特征推理，相较于现有的分层设计模型，在增加了极小的计算量的同时，在图像分类和语义分割任务上取得了显著的提高。

Jul, 2021

卷积与自注意力：重新解释预训练语言模型中的相对位置

该研究探讨了卷积和自注意力在自然语言任务中的关系，提出了一种将卷积融合到自注意力中的方法，并使用 BERT 在多个下游任务上验证了卷积相对于绝对位置嵌入的性能优势。

Jun, 2021

使用更好的相对位置嵌入改进 Transformer 模型

本文提出基于自我关注机制的绝对位置嵌入和相对位置嵌入方法，通过增加查询、键和相对位置嵌入之间的交互，进一步优化了位置信息的利用。其最有前途的一种方法是将绝对位置嵌入泛化，相比之前的位置嵌入方法，在 SQuAD1.1 上有更好的表现。本文还通过实验证明了相对位置嵌入方法具有合理的泛化性和鲁棒性。最后，还展示了这种新方法可以用于在小的计算预算下提高大型模型的准确性。

Sep, 2020