短 - 长卷积有助于高效硬件线性注意力集中于长序列

ICMLJun, 2024

短 - 长卷积有助于高效硬件线性注意力集中于长序列

Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences

Zicheng Liu, Siyuan Li, Li Wang, Zedong Wang, Yunfan Liu...

TL;DR通过采用分层和分块思想，我们提出了 CHELA（硬件高效的短长卷积与线性注意力）来解决线性注意力在因果设置下仅保持在理论层面的问题，同时通过替换状态空间模型（SSMs）为短长卷积，实现了稳定的 SSMs，保持真正的线性复杂度。通过对 Long Range Arena 基准和语言建模任务的综合实验，我们证明了所提方法的有效性。

Abstract

To mitigate the computational complexity in the self-attention mechanism on long sequences, linear attention utilizes computation tricks t

linear attention state space models computational complexity long sequences hybrid design

发现论文，激发创造

卷积状态空间模型用于长程时空建模

ConvSSMs combine ConvLSTM and state space methods to efficiently model long spatiotemporal sequences, outperforming Transformers and ConvLSTM in terms of training speed and sample generation while matching or exceeding state-of-the-art methods on various benchmarks.

Oct, 2023

饥饿的河马：基于状态空间模型的语言建模

通过使用合成语言建模任务，我们提出了一种新的 H3 SSM 层来弥补 SSMs 与注意力模型之间的表达能力差距，并引入 FlashConv 来提高模型在现代硬件上的训练效率并在 SuperGLUE 基准测试中优于 Transformers。

Dec, 2022

长短期 Transformer: 语言和视觉的高效 Transformer

提出了一种名为 “长短变压器” 的模型，其中使用自注意力机制处理长文本和高分辨率图像，同时引入了一种新型的远距离关注和短期关注机制，并采用双重归一化策略来处理两种注意力机制之间的规模差异。通过在多个语言和视觉任务中的表现，该方法优于现有的方法。

Jul, 2021

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

自注意力与卷积层之间的关系

本研究表明防止卷积操作而采用自注意层可以获得与卷积层相同的表现，这提供了一种证明多头自注意层与卷积层至少具有相同表征能力的方法。

Nov, 2019

闪电关注 - 2：在大型语言模型中处理无限序列长度的免费午餐

该论文介绍了 Lightning Attention-2，首个能实现线性注意力的理论计算优势的线性注意力实现方法，通过利用平铺技术和 GPU 硬件，充分发挥其在不同模型尺寸和序列长度上的训练和推理速度的一致性，并且比其他注意力机制更快。

Jan, 2024

卷积模型为什么在长序列建模上表现出色？

本文讨论了卷积模型的长程依赖问题，并介绍了一种名为 S4 的模型及其相应的结构基本原理，以及基于这些原理提出的 SGConv 卷积模型，在多项任务上表现出了强大的实际性能和潜力。

Oct, 2022

轻量级和动态卷积：减少注意力的付出

本文研究了使用自我关注（self-attention）和动态卷积（dynamic convolutions）两种机制建立语言和图像生成模型的效率以及准确性问题，并证明了动态卷积在大规模机器翻译、语言模型和提取式摘要等任务中的表现优于强的自我关注模型，得到了 WMT'14 英德测试集中 29.7 BLEU 的最高分。

Jan, 2019

自注意力和卷积的融合

本文指出卷积和自注意力之间存在强烈的联系，两个模型的第一阶段都包含了相似的运算，本文提出了 ACmix 模型将它们混合使用从而最小化计算成本，实验结果表明，该模型在图像识别和 Downstream 任务上均取得了显著的改进。

Nov, 2021

Mamba：具有选择性状态空间的线性时间序列建模

基于 Transformer 架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比 Transformers 快 5 倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers，与其两倍大小的模型性能相当。

Dec, 2023