基于聚合数据的对抗性模仿学习
本文提出了一种新颖的反向强化学习算法,基于对抗奖励学习框架,该算法能够实现自动奖励学习并在大规模高维问题中具有很强的适用性和可扩展性,提高了强化学习的性能和应用范围。
Oct, 2017
本文提出了一种新的多智能体逆强化学习框架(MA-AIRL),有效地解决了高维空间和未知动态的马尔科夫博弈问题,并展示了在策略模仿方面,MA-AIRL 显著优于现有方法。
Jul, 2019
给定一个包含多个次优专家行为的问题,我们将逆向强化学习(IRL)方法扩展到了这种情况,研究了与给定专家集兼容的奖励函数的理论性质,并分析了使用生成模型估计可行奖励集的统计复杂性,得到了一个具有极小极大最优性的均匀采样算法。
Jan, 2024
本文提出使用主动探索策略的逆强化学习算法(AceIRL),该算法通过构造置信区间捕捉潜在的奖励函数,寻找信息最充分的环境区域的探索策略,从而快速学习专家的奖励函数和制定一个良好的策略。AceIRL 是第一种不需要环境生成模型并具有样本复杂度界限的主动逆强化学习方法,并与具备环境生成模型情况下的样本复杂度相匹配,在模拟实验中证明 AceIRL 优于其他探索策略。
Jul, 2022
本研究探讨了 IRL 是否能从金融随机环境(LOB)中的代理中推断出奖励,并使用先前的线性和高斯过程回归器以及自己的方法通过贝叶斯神经网络(BNN)来模拟其潜在奖励函数,说明非线性奖励函数产生的复杂行为可以通过推断来推断。
Jun, 2019
本文提出了一种新的适用于多智能体环境的 Multi-Agent 模仿学习框架,它建立在广义反向强化学习的基础上,并引入了实用的多智能体演员 - 评论家算法。该方法可用于多个合作或竞争代理的高维环境中模仿复杂的行为。
Jul, 2018
使用不完美和异构演示在模仿学习中存在相当大的挑战,本文介绍了一种名为 IRLEED 的新框架,通过估计演示者的专业水准,克服了现有逆强化学习算法中对不完善演示的缺陷,并结合最大熵逆强化学习框架从多样的不完善演示中高效地得出最优策略。通过在线和离线模仿学习设置以及模拟和人工生成的数据进行的实验表明,IRLEED 具有适应性和有效性,成为从不完善演示中学习的通用解决方案。
Feb, 2024
本文对逆强化学习领域的现有文献进行了分类调查,介绍了 IRL 问题和其挑战,讨论了目前的解决方法,并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法,同时总结了该领域的研究进展和当前未解决的问题。
Jun, 2018
本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions),以优化从有限的演示中推断表达丰富的奖励函数的能力,并演示了该方法可以有效地从图像中恢复新任务的奖励。
May, 2018