本文针对马可夫决策过程上的反向强化学习问题,即通过一个环境模型以及一个奖励函数,推断出状态、行动、和特征限制,以此来激励智能体的行为。本文针对该问题提出了一个基于最大熵 IRL 的方法,并提出了一个迭代算法,以最大似然的方式推断最佳的约束条件,同时通过仿真实验和现实数据验证了其有效性。
Sep, 2019
本文提出了一种基于平均奖励框架的逆强化学习方法,并通过研发一系列随机一阶方法用以有效减少计算复杂度,这些方法可用于解决平均奖励马尔可夫决策过程的子问题,并为对策镜像下降法提供支持。最终,我们在 MuJoCo 基准测试和其他控制任务中进行数值实验以验证分析。
May, 2023
本文提出了一种基于梯度的逆强化学习方法,同时估计系统动态,以后解决由生成策略引起的演示偏差,有效提高了样本利用率并准确估计奖励和转移模型,该方法在合成 MDP 和转移学习任务上都得到了改进。
Apr, 2016
给定一个专家示范数据集,逆向强化学习(IRL)旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的 IRL 问题。我们采用随机梯度下降算法更新奖励,并采用随机软策略迭代算法更新策略,假设可以访问一个生成模型,我们证明了我们的算法使用 O (1/ε^2) 个马尔可夫决策过程(MDP)样本能够恢复一个 ε- 最优奖励。此外,我们证明在 O (1/ε^4) 个样本情况下,所恢复的奖励对应的最优策略与专家策略在总变差距离上接近 ε。
Mar, 2024
本文介绍了一种将机器学习和经济学中互相独立发展的求解逆强化学习问题的不同方法联系起来的方法,发现了它们属于一类共同形式目标、策略和目标梯度的优化问题,探究了不同方法的适用场景和算法效率。
Mar, 2021
逆向约束强化学习 (Inverse Constraint Reinforcement Learning, ICRL) 领域研究了从离线专家演示中估计约束的算法,并提供了一种基于置信水平对专家演示进行约束估计的方法,使用户可以选择满足期望置信水平的约束进行使用,同时允许用户了解专家轨迹数量不足时的情况并采集更多专家轨迹以同时学习满足期望置信水平的约束和达到期望性能水平的策略。
Jun, 2024
研究提出了一种强化学习的理论框架,旨在解决设计适当的奖励函数和保证学习策略的安全性两大挑战。文章从凸解析角度扩展了奖励可识别性和泛化性等方面的研究,并在约束马尔可夫决策过程中证明了真实奖励需要在常数范围内确定才能确保泛化到新的转移模型和约束条件。最后,文章在网格世界环境中验证了理论结果。
Jun, 2023
提出了一种基于 Fokker-Planck(FP)方程的新型物理意识逆强化学习算法 FP-IRL,可以同时推断转移和奖励函数,无需事先估计转移动态,适用于转移函数不可访问的情况
本文提出了一种新算法,用于部分可观测的马尔可夫决策过程中的反向强化学习,可增加数据效率并减少信息不对称,通过融合时间逻辑表达式作为先验信息,使用因果熵而不是熵,防止算法复杂度的通用来源,有效地解决了非凸问题,并在高级 Unity 仿真器中进行了实验,结果表明该算法具有较高的性能。
Dec, 2022
本文中,我们介绍了使用生成模型的有限时间问题中逆强化学习(IRL)的可行奖赏估计问题,提出了关于可行奖赏集合的最小最大下界,并分析了平均复杂度。
Apr, 2023