蝰蛇作为决策者：探索离线强化学习中的多尺度序列建模

Jun, 2024

蝰蛇作为决策者：探索离线强化学习中的多尺度序列建模

Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning

Jiahang Cao, Qiang Zhang, Ziqing Wang, Jiaxu Wang, Hao Cheng...

TL;DR该研究论文借助于 Mamba Decision Maker 对 RL 领域的序列建模能力进行了深入探讨，并为未来鲁棒高效决策系统的进一步发展铺平了道路。

Abstract

sequential modeling has demonstrated remarkable capabilities in offline reinforcement learning (RL), with decision transformer (DT) being one of the most notable representatives, achieving significant success. Ho

sequential modeling offline reinforcement learning decision transformer mamba decision maker rl datasets

发现论文，激发创造

决策蛇：基于混合选择序列建模的强化学习

基于 transformer 模型和 Mamba 模型，我们提出了一种用于决策制定和长期记忆的 Decision Mamba-Hybrid (DM-H) 方法，并通过实验证明在长期和短期任务中达到了最先进的性能，同时在线测试效率比基于 transformer 的基线模型快 28 倍。

May, 2024

决策玛巴：有选择性状态空间的序列建模强化学习

该研究探讨决策变压器架构中整合 Mamba 框架的潜在性能提升，并通过实验评估修改后的决策变压器模型 Decision Mamba 在不同决策环境中的效果，为顺序决策模型的发展做出贡献，突显了神经网络的架构和训练方法对复杂任务性能的重要影响，并突出了 Mamba 作为改进强化学习场景中基于 Transformer 模型的有效工具的潜力。

Mar, 2024

决策猛蛇：一种具有自我演进正则化的离线强化学习多粒度状态空间模型

决策曼巴（DM）是一种新颖的多粒度状态空间模型（SSM），用于处理条件序列建模和 transformer 架构在离线强化学习（RL）任务中的应用。DM 通过使用曼巴架构明确地建模历史隐藏状态来提取时间信息，并通过细粒度 SSM 模块捕捉状态 - 动作 - 返回三元组之间的关系，从而进行了离线 RL 的定制设计。此外，通过使用渐进正则化来提出自我进化策略，以减轻噪声轨迹导致的过拟合问题。大量的任务实验表明，DM 明显优于其他基准模型。

Jun, 2024

Mamba 在离线强化学习中是否与轨迹优化兼容？

本研究目的是通过全面的实验，从数据结构和网络架构的角度探索决策 Mamba 在离线强化学习中的潜力，证明它与轨迹优化的兼容性，并超越了以往最先进的方法。

May, 2024

层级决策曼巴

通过引入两种新方法，Decision Mamba (DM) 和 Hierarchical Decision Mamba (HDM)，增强了 Transformer 模型的性能，实验证明 Mamba 模型在大多数任务中优于 Transformer 模型，其中 HDM 在大多数环境中表现最好。

May, 2024

Mamba：具有选择性状态空间的线性时间序列建模

基于 Transformer 架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比 Transformers 快 5 倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers，与其两倍大小的模型性能相当。

Dec, 2023

Mamba-ND：针对多维数据的选择性状态空间建模

本文介绍了一种名为 Mamba-ND 的通用设计，将 Mamba 架构扩展到任意多维数据，并通过与其他替代方案的比较实证表明 Mamba-ND 在多个多维基准测试中表现出与最先进方法相竞争的性能。

Feb, 2024

RoboMamba: 高效机器人推理和操作的多模态状态空间模型

通过集成视觉编码器与 Mamba 模型，RoboMamba 同时提供了机器人推理和动作能力，并且在模型的微调和推断过程中保持了高效的计算速度。

Jun, 2024

视频曼巴组合套件：状态空间模型作为视频理解的多功能替代方案

本研究通过广泛实验评估不同模型角色的 Mamba 对视频理解的潜力，探索其在视频理解领域的替代性，发现 Mamba 在仅视频和视频语言任务上展现出强大的潜力，并显示了有希望的效率 - 性能平衡，为未来的视频理解研究提供了宝贵的数据和见解。

Mar, 2024

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021