H-Transformer-1D: 序列快速一维分层注意力

ACLJul, 2021

H-Transformer-1D: 序列快速一维分层注意力

H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for Sequences

Zhenhai Zhu, Radu Soricut

TL;DR本研究提出了一种高效的基于矩阵结构的层次注意力方法，并证明了这种方法在自然语言和视觉任务中捕捉层次结构的归纳偏差是有效的，相比于其他次二次方提议在 Long Range Arena 基准测试上平均提高了 6 个百分点，在 One-Billion Word 数据集上也取得了新的 SOTA 测试困惑度。

Abstract

We describe an efficient hierarchical method to compute attention in the transformer architecture. The proposed attention mechanism exploits a matrix structure similar to the Hierarchical Matrix (H-Matrix) developed by the numerical analysis community, and has linear run time and memor

transformer architecture hierarchical attention inductive bias natural language vision tasks

发现论文，激发创造

使用分层学习生成长源序列

本研究设计并研究了一种新的分层注意力 Transformer 架构（HAT），在几个序列到序列任务中优于标准 Transformer，包括在 PubMed、arXiv、CNN/DM、SAMSum 和 AMI 上的四个摘要任务中取得了最新的 ROUGE 分数。该架构在 WMT20 英文到德文翻译任务中优于文档级机器翻译基线，并通过可视化分层编解码器注意力来研究了分层层次的理解，最后研究了编码器预训练上的分层学习并分析了其在分类任务上的性能。

Apr, 2021

提高注意力的必要性

我们引入了三种新的注意力机制，比标准的多头注意力在效率和学习能力方面表现更好，从而提高了 Transformer 模型的性能和广泛部署能力。我们的第一个贡献是优化的注意力，它在头部数量、参数数量和矩阵乘法数量上与标准注意力相近，但参数数量少了 3/4，每个头部少了一次矩阵乘法。接下来，我们介绍了高效的注意力，它在参数数量上只有标准注意力的一半，每个头部少了两次矩阵乘法，并且速度是标准注意力的两倍。最后，我们介绍了超级注意力，在视觉和自然语言处理任务中显著超过标准注意力，同时具有更少的参数和矩阵乘法。除了提供严谨的数学比较，我们还在 MNIST、CIFAR100、IMDB 电影评论和 Amazon 评论数据集上评估了所提出的注意力机制。

Mar, 2024

聚类注意力实现快速 Transformer

本文提出聚类注意力机制以解决 transformers 模型在处理长序列时，注意力矩阵的求解复杂度很高的问题，同时在计算预定义聚类的质心时，能够处理自由形式的注意力机制。

Jul, 2020

快速多极注意力：一种长序列的分而治之注意机制

Transformer-based models have achieved state-of-the-art performance, but the quadratic complexity of self-attention limits their applicability to long sequences; Fast Multipole Attention addresses this issue by reducing time and memory complexity, while maintaining a global receptive field with a hierarchical approach.

Oct, 2023

Treeformer: 高效注意力计算的密集梯度树

本文提出了一种名为 Treeformer 的新型 transformer 模型，通过采用基于决策树的层次化导航方法，将 attention 计算的检索成本从线性降低为几乎对数级，同时使用 TF-Attention 和 TC-Attention 两种 attention 层实现了性能优于基准 Transformer 30 倍 FLOPs 的结果。

Aug, 2022

大规模序列中通过稀疏闪存注意力加速因果注意力

我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式，其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度，我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下，我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍，对于长度为 8k 和 16k 的序列。

Jun, 2023

利用稀疏变换器生成长序列

本文介绍了一种称为 Sparse Transformers 的神经网络架构，该架构通过稀疏的注意力矩阵因式分解和其他一些技术，可以更有效地处理长序列等任务，并在 Enwik8，CIFAR-10，和 ImageNet-64 等基准数据集上创造出新的最优表现。

Apr, 2019

FAST: 可因子化注意力提升 Transformer 速度

通过引入可分解的关注机制，我们将注意力机制的计算和内存复杂度从 O (N^2) 降低到 O (N)，并保持了注意力矩阵的完整表示，具有稀疏性和全连接关系。经过各种标准设置的测试，结果表明我们的注意力机制具有稳定的性能，并在自我注意力被使用的多种应用领域中具有重要潜力。

Feb, 2024

HAM：面向 3D 视觉定位的高性能分层注意力模型

本文主要介绍了针对 3D 点云的视觉定位问题，提出了基于 Transformer 和 Hierarchical Attention Model 的端到端模型，通过对三个基本问题的解决来提高模型性能，实验结果表明 HAM 模型能够在多模态视觉输入下取得领先的结果。

Oct, 2022

基于分层注意力机制的高效长文档分类探索

本研究开发并发布了使用分段编码器，并将其与 Longformer 模型和部分预训练的 HAT 进行比较的完全预训练 HAT 模型，在多个长文档下游分类任务中，我们的最佳 HAT 模型在使用 10-20％ GPU 内存的情况下比同等大小的 Longformer 模型更快地处理文档并实现更好的性能。在消融研究中，发现 HAT 在整个模型中进行跨段上下文信息处理比其他配置的早期或晚期跨段上下文处理性能更好。

Oct, 2022