本研究探究了带有教师辅助的反向强化学习问题,提出了一种交互式教学框架,设计了两种具体教学算法:全知教学和黑盒教学,最后在汽车驾驶仿真环境中进行了实验并证明了教学算法的效果。
May, 2019
本文中,我们介绍了使用生成模型的有限时间问题中逆强化学习(IRL)的可行奖赏估计问题,提出了关于可行奖赏集合的最小最大下界,并分析了平均复杂度。
Apr, 2023
本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions),以优化从有限的演示中推断表达丰富的奖励函数的能力,并演示了该方法可以有效地从图像中恢复新任务的奖励。
May, 2018
给定一个包含多个次优专家行为的问题,我们将逆向强化学习(IRL)方法扩展到了这种情况,研究了与给定专家集兼容的奖励函数的理论性质,并分析了使用生成模型估计可行奖励集的统计复杂性,得到了一个具有极小极大最优性的均匀采样算法。
Jan, 2024
我们研究了在顺序决策任务中通过示范进行教学的问题,特别关注教师无法访问学习者的模型和策略,仅有由教师选择的起始状态的轨迹作为反馈的情况。我们通过有限反馈的教学过程进行形式化,并提出了解决该教学问题的算法。该算法使用了改进的主动风险价值法来选择起始状态,改进的最大因果熵算法来推断策略,并使用困难度评分比方法来选择教学示范。我们在合成的汽车驾驶环境中对该算法进行了测试,并得出结论:当学习者的反馈有限时,所提出的算法是一种有效的解决方案。
Sep, 2023
研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数,从而有效地解决逆强化学习中从少量演示推断奖励的问题,并在多个连续控制任务中展示了实验结果。
Sep, 2019
本文对逆强化学习领域的现有文献进行了分类调查,介绍了 IRL 问题和其挑战,讨论了目前的解决方法,并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法,同时总结了该领域的研究进展和当前未解决的问题。
Jun, 2018
逆强化学习(IRL)的目标是从行为示范中恢复专家智能体的奖励函数。本文介绍了一种新的可行奖励集概念,捕捉了离线设置的机会和限制,并分析了其估计的复杂性。通过引入针对该设置固有困难的原始学习框架,我们提出了两种计算和统计高效的算法,IRLO 和 PIRLO,用于解决这个问题。
Feb, 2024
从专家行为中直接推断出奖励机制(RM)的贝叶斯逆强化学习(BIRL)框架,以非 Markovian 奖励函数为基础进行了重大改进,新的奖励空间定义,将专家示范调整为包括历史,展示了计算奖励后验的方法,并提出了一种模拟退火的新修改方案来最大化后验,通过优化其推断的奖励表现出良好性能,并与学习严格二值非 Markovian 奖励的现有方法进行了有利比较。
Jun, 2024
逆强化学习(IRL)是学习奖励函数的问题,该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果,包括离线和在线设置,使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法,我们分别设计了离线和在线设置的 IRL 算法,并建立了样本复杂度的下界,表明 RLP 和 RLE 算法是近乎最优的。此外,我们还展示了学习的奖励函数在具有适当相似性假设的目标 MDP 上的转移能力。
Nov, 2023