LongSSM: 论语言模型中的状态空间模型长度扩展

Jun, 2024

LongSSM: 论语言模型中的状态空间模型长度扩展

LongSSM: On the Length Extension of State-space Models in Language Modelling

Shida Wang

TL;DR在这篇论文中，我们研究了语言建模中状态空间模型（SSMs）的长度扩展问题。我们发现，使用零隐藏状态初始化的状态空间模型在长度扩展上存在困难，并将此困难解释为多项式外推的等价形式。基于这个理论，我们提出了一种简单而有效的方法 —— 改变隐藏状态初始化方案 —— 以改进长度扩展。此外，我们的方法表明，使用较长的训练序列长度对于长度扩展是有益的，但并非必要条件。改变隐藏状态初始化使得能够以更小的训练上下文长度有效地训练具有长记忆的模型。

Abstract

In this paper, we investigate the length-extension of state-space models (SSMs) in language modeling. Length extension involves training models on short sequences and testing them on longer ones. We show that

state-space models length-extension hidden states initialization polynomial extrapolation long-memory model

发现论文，激发创造

利用结构化状态空间高效建模长序列

提出了一种结构化状态空间序列模型（S4），它在处理长依赖序列数据方面与传统模型相比有着更好的结果，通过调整状态矩阵可以将模型计算复杂度降低，达到了 SOTA 水平。

Oct, 2021

门控状态空间实现的长序列语言模型

本论文介绍了一种基于门控状态空间（GSS）的自回归序列建模方法，该方法使用自注意力来建模局部依赖关系，从而能够有效地处理长距离依赖关系，且在英语书籍、Github 源代码和 ArXiv 数学文章上的实验表明，该方法训练速度明显快于传统方法并且具有零样本推广能力。

Jun, 2022

深度 SSM 结构的长度无关泛化界限与稳定性约束

通过提供对稳定状态空间模型块的 PAC 界限，本文论证了稳定状态空间模型块的使用在理论上是合理的，并且该界限随着状态空间模型块的稳定程度的增加而减小。

May, 2024

状态空间模型的表达能力：形式语言视角

基于线性状态空间模型的循环模型在语言建模方面表现出色，与变压器竞争力强，但对此类模型的原理能力了解甚少，因此我们提出了一项理论研究，比较了这种模型与变压器和传统循环神经网络的能力，发现它们有重叠但有区别的优势。

May, 2024

时态图上的状态空间模型：第一原理研究

本研究通过将结构信息整合到在线逼近目标中，采用拉普拉斯正则化项，将状态空间模型理论扩展到时间图，提出了 GraphSSM 框架，用于建模时间图的动态性，实验证明 GraphSSM 在各种时间图基准测试中的有效性。

Jun, 2024

状态空间模型中的状态幻觉

通过对比转换器架构的普遍存在的理论弱点，我们的分析揭示了状态空间模型在状态跟踪方面与转换器非常相似的表达能力的限制，这可能从根本上限制了它们解决现实世界状态跟踪问题的能力。

Apr, 2024

块状态变换器

本文介绍了一种名为 Block-State Transformer (BST) 的混合层，它在内部组合了用于长距离上下文建模的 SSM 子层和用于序列的短期表示的 Block Transformer 子层，并研究了三种完全可并行化的 SSM 和块状注意力的集成变体。我们证明了我们的模型在语言模型困惑度上胜过类似的基于 Transformer 的架构，并可以推广到更长的序列。另外，Block-State Transformer 在模型并行化时的层级速度比 Block-Recurrent Transformer 快了十倍以上。

Jun, 2023

Mamba-360：状态空间模型作为长序列建模的 Transformer 替代方案调研：方法、应用和挑战

序列建模是跨多个领域的一个关键领域，包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上，循环神经网络（RNNs）和长短时记忆网络（LSTMs）在机器翻译、命名实体识别等序列建模任务中占主导地位，但转换器的进步改变了这一范式，因为其性能更优越。然而，转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题，其中使用频谱网络或卷积在一些任务上表现良好，但仍然难以处理长序列。状态空间模型（SSMs）已经成为此背景下序列建模范式的有希望的可替代选择，特别是随着 S4 及其变种（如 S4nd、Hippo、Hyena、Diagnol State Spaces（DSS）、Gated State Spaces（GSS）、Linear Recurrent Unit（LRU）、Liquid-S4、Mamba 等）的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类，还重点介绍了 SSMs 在视觉、视频、音频、语音、语言（特别是长序列建模）、医疗（包括基因组学）、化学（如药物设计）、推荐系统和时间序列分析等领域的不同应用。此外，我们总结了 SSMs 在长序列竞技场（LRA）、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到：https://github.com/badripatro/mamba360。

Apr, 2024

从泛化分析到状态空间模型的优化设计

本文研究了状态空间模型（SSM）的普适性，并提出基于普适性结果改进训练算法的方法。具体地，我们给出了一种依赖数据的 SSM 普适性界限，展示了 SSM 参数与训练序列的时间依赖性之间的相互作用。基于该普适性界限，我们（1）建立了一个基于提出的普适性度量的模型初始化缩放规则，显著提高了 SSM 对序列数据中不同时间模式的输出值尺度的稳健性；（2）引入了一种新的正则化方法来提高 SSM 的普适性性能。通过数值实验验证了我们的结果。

May, 2024

稳定的状态空间模型的记忆问题通过稳定的参数化得到缓解

在本文中，我们从参数化的角度研究了状态空间模型（SSMs）的长期记忆学习能力。我们证明了没有进行重新参数化的状态空间模型具有类似于传统循环神经网络的记忆限制：状态空间模型能够稳定逼近的目标关系必须具有指数衰减的记忆。我们的分析将这种 “记忆的诅咒” 视为循环权重收敛至稳定边界的结果，因此暗示重新参数化技术可能是有效的。为此，我们引入了一类针对 SSMs 的重新参数化技术，可以有效解除其记忆限制。除了提高逼近能力之外，我们进一步说明了选择合理的重新参数化方案也可以增强优化的稳定性。我们使用合成数据集和语言模型对我们的发现进行了验证。

Nov, 2023