介绍了一种动态感知的逆强化学习方法 ——IQ-Learn,它通过学习单个 Q 函数来避免对抗性训练,并可在标准测试中取得最好的结果,比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。
Jun, 2021
本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权分别作为策略和奖励模型,结合软强化学习框架下的无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活,具有稳定的学习和最小化的超参数调整。
May, 2023
逆强化学习(IRL)是学习奖励函数的问题,该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果,包括离线和在线设置,使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法,我们分别设计了离线和在线设置的 IRL 算法,并建立了样本复杂度的下界,表明 RLP 和 RLE 算法是近乎最优的。此外,我们还展示了学习的奖励函数在具有适当相似性假设的目标 MDP 上的转移能力。
Nov, 2023
在仿真学习中,我们通过整合奖励模型集合以及使用演化策略方法 EvIL 来提高重新训练和迁移性能,同时加速目标环境中的重新训练,在连续控制任务中比之前的工作更加高效地重新训练策略。
Jun, 2024
本文提出了用于从机器人的多次策略中恢复策略目标的新算法。该算法基于观察所观察到的代理程序沿梯度方向更新其策略参数的假设。
Jul, 2020
提出了一种提取专家行为策略的新框架,直接从数据中提取策略,将模仿学习与生成对抗网络进行比拟,提出了无模型模仿学习算法,并证明该算法在模仿大型、高维度环境中的复杂行为时相对于现有无模型模仿学习方法具有明显性能提升。
Jun, 2016
通过更好地利用专家演示,我们提出了两种简单的方法,即将专家演示数据放入内部强化学习算法的重放缓冲区中以直接通知学习器高奖励状态,以及在 Q 值引导中使用专家操作以改善目标 Q 值估计并更准确地描述高价值专家状态。在 MuJoCo 任务套件中,我们的方法相对于 MaxEntIRL 基准在 HalfCheetah-v2 上将恢复速度提高 2.13 倍,在 Ant-v2 上提高 2.6 倍,在 Hopper-v2 上提高 18 倍,在 Walker2d-v2 上提高 3.36 倍。
Feb, 2024
RILe 是一个学生 - 教师系统,通过根据学生的表现和与专家演示的一致性动态调整奖励函数,实现对不完美数据的鲁棒性,并在具有有限或嘈杂专家数据的环境中优于现有方法的 2 倍。
本研究提出了一种基于离线数据集的 RL 算法,结合了 RL 和模仿学习的 iRLSVI 算法,可显著减少后悔度。
Mar, 2023
通过拉格朗日方法、元梯度以及基于成本违规的交替梯度等多种方法,我们在考虑轨迹成本约束的情况下成功匹配了专家分布,并且在实证研究中证明了我们的元梯度方法具有最佳性能。
Mar, 2024