ASPiRe: 自适应技能先验在强化学习中的应用
ASAP-RL 提出了一种基于动作技能和专家先验知识的自动驾驶高效强化学习算法,旨在应对在复杂的拥堵道路条件下,传统驾驶策略难以扩展的问题。实验结果表明,相对于其他应用不同技能和先验知识的方法,该算法能够提高学习效率和驾驶性能。
May, 2023
本文提出了一种基于对抗性先验的多样式强化学习方法,通过引入多种风格的先验知识,成功实现了机器人在不同风格下的运动控制和技能学习,无需人工设计奖励函数。
Mar, 2022
通过对不对称选择的研究,提出了分层强化学习和 KL 正则化在技能传递方面的潜力,实验和理论结果展示了技能传递和表达能力间的权衡,并提出了一种基于不对称选择的技能选择方法。
Jan, 2022
通过引入动作先验,结合奖励整形和辅助正则化损失的方法,该论文提出了一种适应性算法,可以高效地利用先验知识,特别是软动作先验,取得了在 Reinforcement Learning 问题上的最新成果和深度 RL 的鲁棒性改进。
Sep, 2022
本文介绍了如何使用概率建模与信息结构约束相结合的方法来学习行为先验,并将其有效地整合到强化学习框架中,以实现多任务与转移学习。最后通过在一系列仿真连续控制域上的应用来展示该框架的有效性。
Oct, 2020
本论文提出了一种用于预训练行为先验的方法,以便捕捉先前看到的各种任务中观察到的复杂输入输出关系,并展示了如何使用这种学习到的先验以便快速学习新任务,有效地解决了具有挑战性的机器人操纵领域中的问题。
Nov, 2020
本文介绍了一种基于多个技能先验的强化学习方法,通过学习每个任务所需技能的先验分布,并将任务的相似性与先前的任务进行比较,以指导在新任务上学习策略,从而更好地推广到训练中从未遇到的新任务。
Sep, 2022
本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions),以优化从有限的演示中推断表达丰富的奖励函数的能力,并演示了该方法可以有效地从图像中恢复新任务的奖励。
May, 2018