BriefGPT.xyz
Ask
alpha
关键词
policy architecture
搜索结果 - 2
深度强化学习中的时序索引作为顺序操控任务的归纳偏差
通过顺序执行不同的动作头部来学习原始技能,我们提出了一种有助于完成操作任务所需的技能学习的策略结构,在 Metaworld 任务上的测试表明,这种简单的结构优于标准策略学习方法,突显了其改进技能获取的潜力。
PDF
6 months ago
基于迭代强化学习的 Cassie 动态 locomotion 技能设计
本文提出了一种完全重新定义奖励函数,并限制与之前迭代结果偏差的实际方法,使用一组 DASS 元组来表征政策,并与梯度更新相结合,演示了在 Cassie 二足机器人上实现不同步态风格和不同速度的稳定行走的有效性。
PDF
5 years ago
Prev
Next