层级决策曼巴

May, 2024

Hierarchical Decision Mamba

André Correia, Luís A. Alexandre

TL;DR通过引入两种新方法，Decision Mamba (DM) 和 Hierarchical Decision Mamba (HDM)，增强了 Transformer 模型的性能，实验证明 Mamba 模型在大多数任务中优于 Transformer 模型，其中 HDM 在大多数环境中表现最好。

Abstract

Recent advancements in imitation learning have been largely fueled by the integration of sequence models, which provide a structured flow of information to effectively mimic task behaviours. Currently, Decision T

imitation learning sequence models decision mamba hierarchical decision mamba transformer models

发现论文，激发创造

决策蛇：基于混合选择序列建模的强化学习

基于 transformer 模型和 Mamba 模型，我们提出了一种用于决策制定和长期记忆的 Decision Mamba-Hybrid (DM-H) 方法，并通过实验证明在长期和短期任务中达到了最先进的性能，同时在线测试效率比基于 transformer 的基线模型快 28 倍。

May, 2024

蝰蛇作为决策者：探索离线强化学习中的多尺度序列建模

该研究论文借助于 Mamba Decision Maker 对 RL 领域的序列建模能力进行了深入探讨，并为未来鲁棒高效决策系统的进一步发展铺平了道路。

Jun, 2024

决策玛巴：有选择性状态空间的序列建模强化学习

该研究探讨决策变压器架构中整合 Mamba 框架的潜在性能提升，并通过实验评估修改后的决策变压器模型 Decision Mamba 在不同决策环境中的效果，为顺序决策模型的发展做出贡献，突显了神经网络的架构和训练方法对复杂任务性能的重要影响，并突出了 Mamba 作为改进强化学习场景中基于 Transformer 模型的有效工具的潜力。

Mar, 2024

通过层次强化学习重新思考决策 Transformer

决策 Transformer 是一种创新算法，利用了转换器架构在强化学习中的最新进展；我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法，并展示了 DT 作为该框架的一个特例，同时讨论了潜在的失败选择；受到这些观察的启发，我们研究了如何联合优化高层和低层策略以实现拼接能力，从而进一步发展了新的离线强化学习算法；我们的实证结果清楚地表明，所提出的算法在多个控制和导航基准测试中明显优于 DT；我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。

Nov, 2023

Mamba 在离线强化学习中是否与轨迹优化兼容？

本研究目的是通过全面的实验，从数据结构和网络架构的角度探索决策 Mamba 在离线强化学习中的潜力，证明它与轨迹优化的兼容性，并超越了以往最先进的方法。

May, 2024

Dimba: Transformer-Mamba 扩散模型

该论文介绍了 Dimba，一种新的文本到图像扩散模型，它采用了一种独特的混合架构，结合了 Transformer 和 Mamba 元素。

Jun, 2024

高效在线策略适应的超级决策 Transformer

Hyper-Decision Transformer (HDT) framework proposes an adaptation module initialized by a hyper-network to enable efficient adaptation to novel tasks for offline reinforcement learning, demonstrating better performance than state-of-the-art baselines in terms of task success rates.

Apr, 2023

分层决策 Transformer

本文提出了一种层次算法用于从演示中学习序列模型，可解决强化学习中的任务策略估计问题，通过选择子目标来指导低层控制器完成任务，改善了以往方法的性能，并证明了其在多项任务中优于基线方法，表明层次模型适用于从演示中学习序列模型。

Sep, 2022

MTMamba: 基于 Mamba 的多任务稠密场景理解的增强解码器

多任务密集场景理解的模型 MTMamba 利用 Mamba 处理长程依赖，并通过交叉任务交互显式地建模任务间的信息交流，实现了对语义分割、人体解析和目标边界检测任务在 PASCAL-Context 数据集上超越先前最佳方法的性能提升。

Jul, 2024

探索未知领域：从 Transformer 到 Mamba 的导航指南

综述了一种名为 Mamba 的机制，讨论了其在深度神经网络（例如 Transformer）和自然语言处理领域中的潜力、改进以及与其他网络的集成等相关研究方向。

Jun, 2024