Jul, 2024

学会(在测试时)学习:具有表达性隐藏状态的 RNN

TL;DR利用自我关注机制在长上下文任务中表现良好,但复杂度为二次方。我们提出了一种具有线性复杂度和表达能力隐藏状态的新型序列建模层,以隐藏状态本身作为一个机器学习模型,并将更新规则作为一个自监督学习的步骤进行训练。我们考虑了两个实例化模型:TTT-Linear 和 TTT-MLP,它们分别使用线性模型和两层 MLP 作为隐藏状态。在 125M 到 1.3B 参数规模上与强基准模型 Transformer 和现代 RNN 模型 Mamba 进行对比评估,TTT-Linear 和 TTT-MLP 都能达到或超过基准模型的性能,尤其是 TTT-Linear 已经在 8k 上下文任务上比 Transformer 更快,与 Mamba 在墙时相匹配,而 TTT-MLP 在内存 I/O 方面仍面临挑战,但在长上下文任务中显示出更大的潜力,为未来的研究方向指明了一个有前景的方向。