探索层次感知逆强化学习
本论文提出了一种新的逆向强化学习(IRL)方法 ——Context Hierarchy IRL(CHIRL),可从专家的演示中学习复杂行为的奖励函数,通过逐层建立上下文图来表达上下文结构,并利用相应的模块深度神经网络表示奖励函数,可以有效解决 IRL 存在的问题,尤其在具有复杂奖励函数的任务中,表现出极高的扩展性和表现力。
Feb, 2022
提出了一种称为 “分层逆强化学习(HIRL)” 的框架,用于从展示中学习子任务结构,并使用得出的结构来学习局部奖励函数以及处理任何全局依赖关系,实验结果表明 HIRL 策略的成功率比传统方法高,并且更容易适应环境噪声和抵御干扰。
Apr, 2016
从专家行为中直接推断出奖励机制(RM)的贝叶斯逆强化学习(BIRL)框架,以非 Markovian 奖励函数为基础进行了重大改进,新的奖励空间定义,将专家示范调整为包括历史,展示了计算奖励后验的方法,并提出了一种模拟退火的新修改方案来最大化后验,通过优化其推断的奖励表现出良好性能,并与学习严格二值非 Markovian 奖励的现有方法进行了有利比较。
Jun, 2024
研究使用基于眼动的意图来自动生成子目标,从而提高深度强化学习代理的样本效率。该方法在 Atari 2600 游戏套件中的 Montezuma's Revenge 等长视程罕见奖励任务中得到了验证。
Jun, 2023
本文研究如何构建通用且高效的层次强化学习算法,其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督,并使用脱离策略的经验来提高效率。我们称此算法为 HIRO,并在模拟机器人上的实验中表现出高性能和高样本效率。
May, 2018
论文提出了一种算法框架,称为层次性指导,旨在通过利用专家的反馈来学习序贯决策制定策略,以应对奖励稀疏和时间范围长等问题,该框架可以在不同的层次上组合不同的 imitation learning 和 reinforcement learning,从而大大减少专家工作量和探索成本,并对该框架的某些实例的标注成本进行了理论分析。
Mar, 2018
我们提出一种基于不可微分计划器的逆强化学习,用于推断从专家提供的演示中学习奖励函数,并与采用特定假设的数学模型相比,我们的方法可以得到更好的奖励推断,同时保持在数据驱动方法和已知人类偏差之间的平衡。
Jun, 2019
层次模型强化学习 (HMBRL) 旨在将模型强化学习 (MBRL) 的更好的样本效率与层次化强化学习 (HRL) 的抽象能力结合起来,以高效地解决复杂任务。我们在这项工作中描述了一个新颖的 HMBRL 框架,并进行了全面评估。通过构建模拟不同时间抽象水平下环境动态的层次化世界模型来补充 HRL 的多层次决策制定方式。这些模型用于训练一系列以自上而下方式进行通信的代理,向下级代理提出目标。本研究的一个重点是探索静态且环境无关的时间抽象,从而允许在层次结构中同时训练模型和代理。与大多数以目标条件化的 H (MB) RL 方法不同,这也导致了较低维度的抽象动作。尽管我们的 HMBRL 方法在最终回合收益方面表现没有传统方法好,但它成功地利用紧凑、低维度的抽象动作在两个抽象层次上进行决策。我们在全面的实验中揭示了提高我们方法性能的一个核心挑战,即在我们的世界模型堆栈的抽象层级上进行模型利用。我们对这个问题进行了深入研究,讨论了它对领域的影响,并提出了克服这一挑战的未来研究方向。通过分享这些发现,我们旨在为改进 HMBRL 方法论的广泛讨论做出贡献,并帮助开发更有效的复杂决策环境的自主学习系统。
Jun, 2024
本文提出了一种适用于高维、噪声、连续的黑盒动态模型系统的新的逆强化学习算法 —— 逐步退化逆强化学习(RHIRL)以解决 IRL 面临的可扩展性和鲁棒性两大挑战。实验表明,RHIRL 在大多数情况下优于其他主流 IRL 算法,并且我们还证明了其累积误差随任务持续时间的线性增长。
Jun, 2022
本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC),该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题,并能够在连续状态和动作空间的任务中成功地学习 3 级层级。
Dec, 2017