具有线性复杂度的自适应多分辨率注意力

Aug, 2021

具有线性复杂度的自适应多分辨率注意力

Adaptive Multi-Resolution Attention with Linear Complexity

Yao Zhang, Yunpu Ma, Thomas Seidl, Volker Tresp

TL;DR本文介绍了一种名为 Adaptive Multi-Resolution Attention（AdaMRA）的新型高效 Transformer 结构，利用多分辨率多头自注意机制，采用核注意力且时间空间都线性地缩放，进一步提高了模型的处理能力。在多个基准测试中取得了最新的性能和效率。

Abstract

transformers have improved the state-of-the-art across numerous tasks in sequence modeling. Besides the quadratic computational and memory complexity w.r.t the sequence length, the self-attention mechanism only p

transformers self-attention mechanism adaptive multi-resolution attention multi-resolution multi-head attention mechanism kernel attention

发现论文，激发创造

多分辨率分析 (MRA) 用于近似自注意力

利用 Multiresolution Analysis 中的 Wavelets 概念构建一种高效的自我关注模型，同时在短序列和长序列的 NLP 任务上均表现优异。

Jul, 2022

Mega: 移动平均装备的门控注意力

本文介绍了 Mega，这是一种简单，从理论上得到支持的单头门控注意力机制，具有指数移动平均数以将位置感知的局部依赖性的归纳偏差纳入位置不可知的注意力机制中。通过将整个序列有效地分成多个具有固定长度的块以实现线性时间和空间复杂度，该文进一步提出了 Mega 的变体。在长序列建模、神经机器翻译、自回归语言建模以及图像和语音分类等广泛测试中，证明了 Mega 优于其他序列模型，包括 Transformer 的变体和最近的状态空间模型。

Sep, 2022

硬件高效训练的门控线性注意力变换器

通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers 在适度规模的语言建模中表现竞争力，并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。

Dec, 2023

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

自适应双向注意力：探索多粒度表示进行机器阅读理解

本文介绍了自适应双向注意力（Adaptive Bidirectional Attention）模型用于机器阅读理解（Machine Reading Comprehension）中，通过利用不同层次的源表示来提高预测的精度并且在 SQuAD2.0 公开数据集上的实验表明，相比于之前的最先进模型，此方法的准确度提高了 2.5％EM 和 2.3％F1 分数。

Dec, 2020

高分辨率 GAN 的改进变压器

本文介绍了将多维块自注意力与多层感知机结合的 Transformer 模型 HiT，该模型在高清图像生成领域的表现优于传统基于卷积的方法。

Jun, 2021

快速多极注意力：一种长序列的分而治之注意机制

Transformer-based models have achieved state-of-the-art performance, but the quadratic complexity of self-attention limits their applicability to long sequences; Fast Multipole Attention addresses this issue by reducing time and memory complexity, while maintaining a global receptive field with a hierarchical approach.

Oct, 2023

使用 Transformer 进行高分辨率图像分割的自适应修补

使用自适应网格细化方法 (Adapative Mesh Refinement, AMR) 可以作为图像细分的预处理步骤，基于图像细节自适应地划分图像补丁，从而减少传给模型的补丁数量。该方法与任何基于注意力的模型无缝地配合使用，能够在实际病理数据集上展示出优于现有技术的分割质量，并在分辨率高达 64K²，最多 2048 个 GPU 的情况下获得 6.9 倍的几何平均加速。

Apr, 2024

美餐之眼：多模态大型语言模型的分辨率混合适应

基于图像分辨率的新型多模态大语言模型方法 (LLaVA-HR) 通过采用低分辨率和高分辨率图像特征的组合有效地改善了视觉识别的问题，在 11 个视觉 - 语言任务中表现出比现有模型更好的性能。

Mar, 2024

Transformers 是 RNN：具有线性注意力的快速自回归 Transformers

通过使用线性核特征图将自注意力表示为线性点积，并利用矩阵积的结合律特性将复杂性从 O (N^2) 降至 O (N)，我们的线性变压器实现比循环神经网络快 4000 倍，但在自回归预测上达到了与基本变压器类似的性能。

Jun, 2020