- 神经序列模型的时滞嵌入理论
为了生成连贯的回应,语言模型从输入文本序列中推断未观察到的含义。本研究通过测试序列模型重建未观察到动态系统的能力,发现每个序列层可以学习到该系统的可行嵌入。然而,状态空间模型比变压器具有更强的归纳偏差,尤其是它们在初始化阶段更有效地重建未观 - 使用 Delta 规则并行化线性变换器来处理序列长度
用 Delta 规则训练线性变压器,并结合滑动窗口和全局注意力层构建的混合模型,在语言建模和下游任务中表现出色。
- LongSSM: 论语言模型中的状态空间模型长度扩展
在这篇论文中,我们研究了语言建模中状态空间模型(SSMs)的长度扩展问题。我们发现,使用零隐藏状态初始化的状态空间模型在长度扩展上存在困难,并将此困难解释为多项式外推的等价形式。基于这个理论,我们提出了一种简单而有效的方法 —— 改变隐藏状 - ICML变压器是 SSM:通过结构化状态空间对偶实现的广义模型和高效算法
Transformers 与 state-space models(包括 Mamba)存在相关性,通过结构化半可分矩阵的各种分解,我们开发了一个理论连接的丰富框架,证明了这些模型家族之间的联系。基于我们的 state space duali - 循环神经网络:梯度消失和梯度爆炸并非问题的终点
递归神经网络在学习长期记忆方面存在困难,而最近基于状态空间模型的 RNN 取得的成功挑战了我们的理论理解。我们的分析揭示了元素逐个递归设计模式和谨慎参数设置在缓解这种效应方面的重要性,这一特征存在于状态空间模型及其他架构中。总体而言,我们的 - 深度 SSM 结构的长度无关泛化界限与稳定性约束
通过提供对稳定状态空间模型块的 PAC 界限,本文论证了稳定状态空间模型块的使用在理论上是合理的,并且该界限随着状态空间模型块的稳定程度的增加而减小。
- 基于标记合并的转换器和状态空间模型的高效时间序列处理
在时间序列分析中,我们首次探讨了令牌合并在时间序列变换器和状态空间模型中的应用,通过引入局部合并算法,我们能够在长序列上有效实现令牌合并,从而在多个模型和数据集上获得显著的计算效益而对准确性影响最小。
- MambaVC:利用选择性状态空间进行学习的视觉压缩
通过引入基于状态空间模型的 MambaVC,我们在视觉压缩任务中取得了出色的速率失真性能,同时降低了计算和内存开销。
- 避免使用 HiPPOs 的长记忆状态空间模型之希望
通过使用 Hankel 算子理论,我们开发了一种名为 HOPE 的新的 LTI 系统参数化方案,使得状态空间模型能够进行随机初始化、提高训练稳定性,并具有非衰减的记忆能力,相比传统的模型,参数更少,并在长序列任务中表现出更好的性能,同时我们 - ICML通过广义贝叶斯实现鲁棒卡尔曼滤波
在存在异常值和误设测量模型的状态空间模型的在线滤波中,我们导出了一种新颖、可靠证明的闭合贝叶斯更新规则。我们的方法将广义贝叶斯推理与滤波方法(如扩展和集成卡尔曼滤波器)相结合,其中前者用于展示鲁棒性,后者用于确保非线性模型的计算效率。在异常 - ST-MambaSync:高陡交通预测的 Mamba 结构与时空变换器融合
这项研究介绍了 ST-MambaSync,它是一个创新的框架,将一个简化的状态空间层与一个流线型的注意力层集成在一起,在处理高维数据(如空间 - 时间数据集)时,它在空间 - 时间预测任务中实现了竞争性的准确率。我们深入研究了注意机制与 M - 考虑长期运动趋势的视频预测的状态空间分解模型
通过自适应分解的方法,我们提出了一种状态空间分解的随机视频预测模型,将整体视频帧生成分解为确定性外观预测和随机运动预测,从而增强模型对动态场景的泛化能力。实验结果表明,我们的模型在多个数据集上优于基线模型。
- IJCAILongVQ: 基于结构化记忆的长序列建模与向量量化
长序列模型中,使用了 LongVQ 方法以更有效地利用向量量化技术来压缩全局抽象,并以线性时间计算注意力矩阵,有效地解决长距离依赖问题。
- 状态空间模型中的状态幻觉
通过对比转换器架构的普遍存在的理论弱点,我们的分析揭示了状态空间模型在状态跟踪方面与转换器非常相似的表达能力的限制,这可能从根本上限制了它们解决现实世界状态跟踪问题的能力。
- UltraLight VM-UNet:并行视觉曼巴大幅减少皮肤病变分割参数
提出了一种基于 UltraLight Vision Mamba UNet 的 PVM 层的方法,通过在处理特征时达到卓越的性能,保持了总体处理通道数的稳定,用较低的计算负载实现了强大的性能竞争力。
- H-vmunet: 高阶视觉 Mamba UNet 用于医学图像分割
该研究设计了一种基于状态空间模型的高阶视觉 Mamba UNet (H-vmunet) 用于医学图像分割,其中提出的高阶 2D 选择性扫描 (H-SS2D) 模块通过更高阶的交互逐渐减少冗余信息的引入,提高了 2D 选择性扫描操作的适应性, - ICLR基于结构化状态空间的高效视频生成:SSM 遇见视频扩散模型
基于扩散模型,我们提出利用状态空间模型进行视频生成,以解决注意力机制对内存的消耗随序列长度增加而呈二次增长的限制,并通过实验证明在更长的视频序列生成中,我们的基于状态空间模型的方法能够显著节省内存消耗同时保持与基于注意力模型竞争力的结果。
- 基于 L-BFGS-B 的 L1 和分组 - Lasso 正则化下的线性和非线性系统辨识
基于 L-BFGS-B 算法,本文提出了一种识别线性和非线性离散时间状态空间模型的方法,可能在 $l_1$ 和组 - Lasso 正则化的基础上进行。该方法不仅丰富了现有的线性系统识别工具集,还可应用于识别包括循环神经网络在内的极其广泛的参 - 大规模变分高斯状态空间模型
引入一种基于分级变分推断和结构化变分逼近的摊还推断算法,应用于受高斯噪声驱动的非线性动力学状态空间模型。通过利用蒙特卡洛逼近方法中的低秩结构来辅助隐变量的边际化计算、基于低秩精度矩阵更新的推断网络来近似更新步骤、并将当前和未来的观测数据转化 - 事件相机的状态空间模型
通过引入具有可学习时间尺度参数的状态空间模型(SSM)来处理事件感测器数据,解决了在不同频率下部署模型的挑战,并且与传统 RNN 和 Transformer 模型相比,SSM 模型在事件感测任务中训练速度更快,且在更高频率的测试输入下表现出