学会（在测试时）学习：具有表达性隐藏状态的 RNN

Jul, 2024

学会（在测试时）学习：具有表达性隐藏状态的 RNN

Learning to (Learn at Test Time): RNNs with Expressive Hidden States

Yu Sun, Xinhao Li, Karan Dalal, Jiarui Xu, Arjun Vikram...

TL;DR利用自我关注机制在长上下文任务中表现良好，但复杂度为二次方。我们提出了一种具有线性复杂度和表达能力隐藏状态的新型序列建模层，以隐藏状态本身作为一个机器学习模型，并将更新规则作为一个自监督学习的步骤进行训练。我们考虑了两个实例化模型：TTT-Linear 和 TTT-MLP，它们分别使用线性模型和两层 MLP 作为隐藏状态。在 125M 到 1.3B 参数规模上与强基准模型 Transformer 和现代 RNN 模型 Mamba 进行对比评估，TTT-Linear 和 TTT-MLP 都能达到或超过基准模型的性能，尤其是 TTT-Linear 已经在 8k 上下文任务上比 Transformer 更快，与 Mamba 在墙时相匹配，而 TTT-MLP 在内存 I/O 方面仍面临挑战，但在长上下文任务中显示出更大的潜力，为未来的研究方向指明了一个有前景的方向。

Abstract

self-attention performs well in long context but has quadratic complexity. Existing rnn layers have linear complexity, but their performance in long context is limited by the expressive power of their hidden stat

self-attention rnn layers sequence modeling test-time training transformer

发现论文，激发创造

状态空间模型在机器翻译中的有效性如何？

通过严格细致的实验比较，本文发现 Mamba 与 transformers 在句子和段落级数据集上具有相当的竞争力，并且将注意力机制集成到 Mamba 中可以提高翻译质量、对序列长度外推的鲁棒性和对命名实体的记忆能力。

Jul, 2024

Mamba：具有选择性状态空间的线性时间序列建模

基于 Transformer 架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比 Transformers 快 5 倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers，与其两倍大小的模型性能相当。

Dec, 2023

使用深度自注意力进行字符级语言建模

本文通过实验证明，64 层深 (Deep) 的 transformer 模型，通过加入中间网络层和序列位置的辅助损失 (auxiliary losses)，能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超越截断反向传播 (Truncated Backpropagation) 的 RNN 变体，实现 1.13 和 1.06 的最小比特位 (bit per character)。

Aug, 2018

硬件高效训练的门控线性注意力变换器

通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers 在适度规模的语言建模中表现竞争力，并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。

Dec, 2023

门控循环神经网络发现注意力

近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络（RNNs）能够实现线性自注意力，这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程，我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性，并暗示某些 RNNs 可能在内部意外地实现了注意力机制。

Sep, 2023

HGRN2：具有状态扩展的门控线性循环神经网络

HGRN2 通过引入基于外积的状态扩展机制，在不引入额外参数的情况下，显著增加了循环状态大小，提高了语言建模、图像分类和长距离竞技场方面的性能。

Apr, 2024

在脉冲神经网络中学习长序列

通过与时空模型的交叉研究，本文探索了脉冲神经网络在长范围序列建模方面的潜力，并证明其在各种任务和图像分类方面均优于当前最先进的神经网络模型，为在神经形态学硬件上实现高效能耗的长范围序列建模奠定了基础。

Dec, 2023

状态汤：上下文技能学习、检索和混合

探索利用状态序列模型的内部状态作为任务向量进行快速模型合并的方法，并通过简单的线性状态插值方法提高下一个标记的困惑度和上下文学习任务性能。

Jun, 2024

Transformers 是 RNN：具有线性注意力的快速自回归 Transformers

通过使用线性核特征图将自注意力表示为线性点积，并利用矩阵积的结合律特性将复杂性从 O (N^2) 降至 O (N)，我们的线性变压器实现比循环神经网络快 4000 倍，但在自回归预测上达到了与基本变压器类似的性能。

Jun, 2020

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023