决策猛蛇：一种具有自我演进正则化的离线强化学习多粒度状态空间模型

Jun, 2024

决策猛蛇：一种具有自我演进正则化的离线强化学习多粒度状态空间模型

Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL

Qi Lv, Xiang Deng, Gongwei Chen, Michael Yu Wang, Liqiang Nie

TL;DR决策曼巴（DM）是一种新颖的多粒度状态空间模型（SSM），用于处理条件序列建模和 transformer 架构在离线强化学习（RL）任务中的应用。DM 通过使用曼巴架构明确地建模历史隐藏状态来提取时间信息，并通过细粒度 SSM 模块捕捉状态 - 动作 - 返回三元组之间的关系，从而进行了离线 RL 的定制设计。此外，通过使用渐进正则化来提出自我进化策略，以减轻噪声轨迹导致的过拟合问题。大量的任务实验表明，DM 明显优于其他基准模型。

Abstract

While the conditional sequence modeling with the transformer architecture has demonstrated its effectiveness in dealing with offline reinforcemen

conditional sequence modeling transformer architecture offline reinforcement learning multi-grained state space model self-evolving policy

发现论文，激发创造

决策玛巴：有选择性状态空间的序列建模强化学习

该研究探讨决策变压器架构中整合 Mamba 框架的潜在性能提升，并通过实验评估修改后的决策变压器模型 Decision Mamba 在不同决策环境中的效果，为顺序决策模型的发展做出贡献，突显了神经网络的架构和训练方法对复杂任务性能的重要影响，并突出了 Mamba 作为改进强化学习场景中基于 Transformer 模型的有效工具的潜力。

Mar, 2024

蝰蛇作为决策者：探索离线强化学习中的多尺度序列建模

该研究论文借助于 Mamba Decision Maker 对 RL 领域的序列建模能力进行了深入探讨，并为未来鲁棒高效决策系统的进一步发展铺平了道路。

Jun, 2024

KalMamba：面向不确定下的高效概率状态空间模型的强化学习

提出了 KalMamba—— 一种高效的架构，将概率状态空间模型与确定性状态空间模型的可伸缩性相结合，利用 Mamba 在潜在空间中学习线性高斯状态空间模型的动力学参数，并通过并行关联扫描实现标准卡尔曼滤波和平滑。实验证明，KalMamba 在强化学习中与最先进的 SSM 方法相媲美，同时在计算效率上显著提升，特别是在长时间交互序列中。

Jun, 2024

决策蛇：基于混合选择序列建模的强化学习

基于 transformer 模型和 Mamba 模型，我们提出了一种用于决策制定和长期记忆的 Decision Mamba-Hybrid (DM-H) 方法，并通过实验证明在长期和短期任务中达到了最先进的性能，同时在线测试效率比基于 transformer 的基线模型快 28 倍。

May, 2024

Mamba：具有选择性状态空间的线性时间序列建模

基于 Transformer 架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比 Transformers 快 5 倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers，与其两倍大小的模型性能相当。

Dec, 2023

Graph-Mamba: 面向具有选择性状态空间的长程图序列建模

本研究介绍了 Graph-Mamba，通过将 Mamba block 与依赖于输入的节点选择机制进行整合，增强了图网络中的长程上下文建模，从而显著提高了预测性能。通过对十个基准数据集的广泛实验，证明 Graph-Mamba 在长程图预测任务中胜过最先进的方法，且在 FLOPs 和 GPU 内存消耗方面计算成本只占一小部分。

Feb, 2024

RoboMamba: 高效机器人推理和操作的多模态状态空间模型

通过集成视觉编码器与 Mamba 模型，RoboMamba 同时提供了机器人推理和动作能力，并且在模型的微调和推断过程中保持了高效的计算速度。

Jun, 2024

DGMamba: 通过广义状态空间模型实现域泛化

该研究提出了一种名为 DGMamba 的新型域泛化框架，具有对未知领域的强大普适性和全局感受野以及高效的线性复杂度，通过引入 HSS 和 SPR 两个核心组件来改进分布偏移问题；其中，HSS 减少了与特定领域特征相关的隐藏状态对输出预测的影响，而 SPR 旨在通过重新排列图像内的非语义补丁，并通过领域之间的补丁融合来规范化 Mamba。在四个常用的域泛化基准测试中进行的广泛实验证明，DGMamba 相比于现有模型取得了卓越的结果。

Apr, 2024

Mamba24/8D: 通过状态空间模型增强点云的全局交互

通过借鉴最近的状态空间模型在长序列建模方面的潜力，我们引入了基于 SSM（状态空间模型）的架构 Mamba 到点云领域，并提出了 Mamba24/8D，它在线性复杂度下具有强大的全局建模能力。该架构在多个 3D 点云分割任务上取得了最先进的结果，并通过大量实验证实了其有效性。

Jun, 2024

MambaAD：用于多类无监督异常检测的状态空间模型研究

应用 Mamba 到多类无监督异常检测，提出了包含预训练编码器和 Mamba 解码器的 MambaAD，通过在多个尺度上引入局部增强状态空间模块 (LSS)，该方法在六个不同的异常检测数据集上展示了具有 SoTA 性能的结果，证实了其有效性。

Apr, 2024