Jan, 2024

深度强化学习中的时序索引作为顺序操控任务的归纳偏差

TL;DR通过顺序执行不同的动作头部来学习原始技能,我们提出了一种有助于完成操作任务所需的技能学习的策略结构,在 Metaworld 任务上的测试表明,这种简单的结构优于标准策略学习方法,突显了其改进技能获取的潜力。