给定一个包含多个次优专家行为的问题,我们将逆向强化学习(IRL)方法扩展到了这种情况,研究了与给定专家集兼容的奖励函数的理论性质,并分析了使用生成模型估计可行奖励集的统计复杂性,得到了一个具有极小极大最优性的均匀采样算法。
Jan, 2024
本论文提出了一种新的逆向强化学习(IRL)方法 ——Context Hierarchy IRL(CHIRL),可从专家的演示中学习复杂行为的奖励函数,通过逐层建立上下文图来表达上下文结构,并利用相应的模块深度神经网络表示奖励函数,可以有效解决 IRL 存在的问题,尤其在具有复杂奖励函数的任务中,表现出极高的扩展性和表现力。
Feb, 2022
研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数,从而有效地解决逆强化学习中从少量演示推断奖励的问题,并在多个连续控制任务中展示了实验结果。
Sep, 2019
我们引入了 DRASRL 框架,该框架考虑了路径排序和路径之间的差异度,通过测量轨迹生成的策略之间的距离来消除奖励的歧义,同时利用对比学习技术来推断表示空间中的嵌入,结合成对排序损失函数将排序信息纳入到潜在特征中,并采用 Transformer 架构来捕捉潜在空间中的上下文依赖,从而实现更准确的奖励估计。经过广泛的实验,我们的 DRASRL 框架在性能上显著优于先前的 SOTA 方法。
Oct, 2023
本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions),以优化从有限的演示中推断表达丰富的奖励函数的能力,并演示了该方法可以有效地从图像中恢复新任务的奖励。
May, 2018
本文对逆强化学习领域的现有文献进行了分类调查,介绍了 IRL 问题和其挑战,讨论了目前的解决方法,并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法,同时总结了该领域的研究进展和当前未解决的问题。
Jun, 2018
通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入,本文在简单的 Catcher 游戏上取得了高水平表现,显著超越了 CNN-AIRL 基线,但在 Enduro Atari 赛车游戏中表现不佳,这彰显了需要进一步研究的必要性。
Oct, 2018
本文提出使用主动探索策略的逆强化学习算法(AceIRL),该算法通过构造置信区间捕捉潜在的奖励函数,寻找信息最充分的环境区域的探索策略,从而快速学习专家的奖励函数和制定一个良好的策略。AceIRL 是第一种不需要环境生成模型并具有样本复杂度界限的主动逆强化学习方法,并与具备环境生成模型情况下的样本复杂度相匹配,在模拟实验中证明 AceIRL 优于其他探索策略。
Jul, 2022
该论文介绍了一种新的逆向强化学习方法,该方法不需要对数据进行特定的简化假设,可以在不确定简化函数的情况下进行推理和评估参数不确定性。
Mar, 2017
本文中,我们介绍了使用生成模型的有限时间问题中逆强化学习(IRL)的可行奖赏估计问题,提出了关于可行奖赏集合的最小最大下界,并分析了平均复杂度。
Apr, 2023