Jun, 2024

决策猛蛇:一种具有自我演进正则化的离线强化学习多粒度状态空间模型

TL;DR决策曼巴(DM)是一种新颖的多粒度状态空间模型(SSM),用于处理条件序列建模和 transformer 架构在离线强化学习(RL)任务中的应用。DM 通过使用曼巴架构明确地建模历史隐藏状态来提取时间信息,并通过细粒度 SSM 模块捕捉状态 - 动作 - 返回三元组之间的关系,从而进行了离线 RL 的定制设计。此外,通过使用渐进正则化来提出自我进化策略,以减轻噪声轨迹导致的过拟合问题。大量的任务实验表明,DM 明显优于其他基准模型。