本文研究强化学习中的奖励函数的学习,提出了利用先验知识和偏好数据约束奖励函数的 PRIOR 框架,可以降低 50% 的反馈数量并提高奖励函数学习和代理性能。
Oct, 2022
本文介绍了如何使用概率建模与信息结构约束相结合的方法来学习行为先验,并将其有效地整合到强化学习框架中,以实现多任务与转移学习。最后通过在一系列仿真连续控制域上的应用来展示该框架的有效性。
Oct, 2020
通过学习技能先验分布,将其用于最大熵强化学习,能够在导航和机器人操作任务中实现有效的技能传输。
使用信息熵的目标函数和可压缩动作序列作为先验,提出了一种新的强化学习算法,能够学习解决包含可压缩序列动作的任务。在一系列连续控制任务中表现比最先进的无模型方法更好,并且产生出强大的信息正则化代理,能够对噪声观测进行鲁棒控制和执行开环控制。
May, 2023
本论文提出了一种用于预训练行为先验的方法,以便捕捉先前看到的各种任务中观察到的复杂输入输出关系,并展示了如何使用这种学习到的先验以便快速学习新任务,有效地解决了具有挑战性的机器人操纵领域中的问题。
Nov, 2020
本文提出了一种规划方法,使用行为先验知识帮助增强学习中的有效探索和学习,表明探索策略形式的行为先验可以帮助代理更快地学习。
Jul, 2022
本文提出了一种基于对抗性先验的多样式强化学习方法,通过引入多种风格的先验知识,成功实现了机器人在不同风格下的运动控制和技能学习,无需人工设计奖励函数。
Mar, 2022
通过对不对称选择的研究,提出了分层强化学习和 KL 正则化在技能传递方面的潜力,实验和理论结果展示了技能传递和表达能力间的权衡,并提出了一种基于不对称选择的技能选择方法。
Jan, 2022
本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions),以优化从有限的演示中推断表达丰富的奖励函数的能力,并演示了该方法可以有效地从图像中恢复新任务的奖励。
May, 2018
本篇文章提出了一种基于动作建议的深度强化学习任务之间的迁移学习替代方法,该方法可提高 Gridworld 和 Atari 环境下的收敛速率并提供知识迁移情况的洞见。
Jun, 2023