BriefGPT.xyz
Ask
alpha
关键词
self-evolving policy
搜索结果 - 1
决策猛蛇:一种具有自我演进正则化的离线强化学习多粒度状态空间模型
决策曼巴(DM)是一种新颖的多粒度状态空间模型(SSM),用于处理条件序列建模和 transformer 架构在离线强化学习(RL)任务中的应用。DM 通过使用曼巴架构明确地建模历史隐藏状态来提取时间信息,并通过细粒度 SSM 模块捕捉状态
→
PDF
a month ago
Prev
Next