Mamba 在离线强化学习中是否与轨迹优化兼容？

May, 2024

Mamba 在离线强化学习中是否与轨迹优化兼容？

Is Mamba Compatible with Trajectory Optimization in Offline Reinforcement Learning?

Yang Dai, Oubo Ma, Longfei Zhang, Xingxing Liang, Shengchao Hu...

TL;DR本研究目的是通过全面的实验，从数据结构和网络架构的角度探索决策 Mamba 在离线强化学习中的潜力，证明它与轨迹优化的兼容性，并超越了以往最先进的方法。

Abstract

transformer-based trajectory optimization methods have demonstrated exceptional performance in offline Reinforcement Learning (offline rl)

transformer-based trajectory optimization methods mamba offline rl decision mamba trajectory optimization

发现论文，激发创造

蝰蛇作为决策者：探索离线强化学习中的多尺度序列建模

该研究论文借助于 Mamba Decision Maker 对 RL 领域的序列建模能力进行了深入探讨，并为未来鲁棒高效决策系统的进一步发展铺平了道路。

Jun, 2024

决策蛇：基于混合选择序列建模的强化学习

基于 transformer 模型和 Mamba 模型，我们提出了一种用于决策制定和长期记忆的 Decision Mamba-Hybrid (DM-H) 方法，并通过实验证明在长期和短期任务中达到了最先进的性能，同时在线测试效率比基于 transformer 的基线模型快 28 倍。

May, 2024

决策玛巴：有选择性状态空间的序列建模强化学习

该研究探讨决策变压器架构中整合 Mamba 框架的潜在性能提升，并通过实验评估修改后的决策变压器模型 Decision Mamba 在不同决策环境中的效果，为顺序决策模型的发展做出贡献，突显了神经网络的架构和训练方法对复杂任务性能的重要影响，并突出了 Mamba 作为改进强化学习场景中基于 Transformer 模型的有效工具的潜力。

Mar, 2024

层级决策曼巴

通过引入两种新方法，Decision Mamba (DM) 和 Hierarchical Decision Mamba (HDM)，增强了 Transformer 模型的性能，实验证明 Mamba 模型在大多数任务中优于 Transformer 模型，其中 HDM 在大多数环境中表现最好。

May, 2024

决策猛蛇：一种具有自我演进正则化的离线强化学习多粒度状态空间模型

决策曼巴（DM）是一种新颖的多粒度状态空间模型（SSM），用于处理条件序列建模和 transformer 架构在离线强化学习（RL）任务中的应用。DM 通过使用曼巴架构明确地建模历史隐藏状态来提取时间信息，并通过细粒度 SSM 模块捕捉状态 - 动作 - 返回三元组之间的关系，从而进行了离线 RL 的定制设计。此外，通过使用渐进正则化来提出自我进化策略，以减轻噪声轨迹导致的过拟合问题。大量的任务实验表明，DM 明显优于其他基准模型。

Jun, 2024

DeciMamba: 探索 Mamba 的长度外推潜能

通过对 Mamba 的可推广长度进行可视化和分析，发现限制来自于训练阶段使用的序列长度，为了解决此限制，引入了一种特别设计给 Mamba 的上下文扩展方法 DeciMamba，通过 S6 层中嵌入的隐藏过滤机制，使得经过训练的模型即使没有额外的训练也能良好地推广，经真实世界的长距离 NLP 任务实验表明，DeciMamba 可以将推广的上下文长度延长到训练过程中看到的长度的 25 倍，而且无需使用额外的计算资源。

Jun, 2024

Mamba-ND：针对多维数据的选择性状态空间建模

本文介绍了一种名为 Mamba-ND 的通用设计，将 Mamba 架构扩展到任意多维数据，并通过与其他替代方案的比较实证表明 Mamba-ND 在多个多维基准测试中表现出与最先进方法相竞争的性能。

Feb, 2024

Mamba：具有选择性状态空间的线性时间序列建模

基于 Transformer 架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比 Transformers 快 5 倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers，与其两倍大小的模型性能相当。

Dec, 2023

将 Mamba 和 Transformer 整合用于长短程时间序列预测

在这篇论文中，我们提出了一种混合框架 Mambaformer，该框架在内部结合了 Mamba 和 Transformer 架构，用于长短范围的时间序列预测，并通过比较研究表明，Mambaformer 系列可以在长短范围的时间序列预测问题中胜过 Mamba 和 Transformer。

Apr, 2024

解读视觉中的莽巴：线性注意力视角

探索了 Mamba 模型与线性注意力 Transformer 之间的相似性和差异性，发现忘记门和块设计是 Mamba 模型成功的核心因素，并通过融合这两个关键设计提出了 Mamba-Like Linear Attention (MLLA) 模型，该模型在图像分类和高分辨率密集预测任务中优于多种视觉任务中的 Mamba 模型，同时具有可并行计算和快速推理速度。

May, 2024