Mar, 2024

决策玛巴:有选择性状态空间的序列建模强化学习

TL;DR该研究探讨决策变压器架构中整合 Mamba 框架的潜在性能提升,并通过实验评估修改后的决策变压器模型 Decision Mamba 在不同决策环境中的效果,为顺序决策模型的发展做出贡献,突显了神经网络的架构和训练方法对复杂任务性能的重要影响,并突出了 Mamba 作为改进强化学习场景中基于 Transformer 模型的有效工具的潜力。