关键词conditional sequence modeling
搜索结果 - 3
- 决策猛蛇:一种具有自我演进正则化的离线强化学习多粒度状态空间模型
决策曼巴(DM)是一种新颖的多粒度状态空间模型(SSM),用于处理条件序列建模和 transformer 架构在离线强化学习(RL)任务中的应用。DM 通过使用曼巴架构明确地建模历史隐藏状态来提取时间信息,并通过细粒度 SSM 模块捕捉状态 - 使用决策变换器进行四足动物运动的微型强化学习
我们提出了一种方法,将模仿学习应用于资源受限的机器人平台,通过将模仿学习问题视为条件序列建模任务,使用专家示范增强的自定义奖励训练决策变压器,并利用量化和修剪等软件优化方案压缩生成模型,在 Isaac Gym 仿真环境中验证了该方法,在资源 - 技能变换器:移动操纵的一体化策略
通过结合条件序列建模和技能模块化,我们提出了 Skill Transformer 方法,用于解决长期规划的机器人任务,并通过 Transformer 架构和演示轨迹对高级技能和低级动作进行端到端训练,并通过技能预测模块保持整体任务的组合性和