同时估计奖励与动态的逆强化学习
本文对逆强化学习领域的现有文献进行了分类调查,介绍了IRL问题和其挑战,讨论了目前的解决方法,并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法,同时总结了该领域的研究进展和当前未解决的问题。
Jun, 2018
本文针对马可夫决策过程上的反向强化学习问题,即通过一个环境模型以及一个奖励函数,推断出状态、行动、和特征限制,以此来激励智能体的行为。本文针对该问题提出了一个基于最大熵IRL的方法,并提出了一个迭代算法,以最大似然的方式推断最佳的约束条件,同时通过仿真实验和现实数据验证了其有效性。
Sep, 2019
本文提出了一种新算法,用于部分可观测的马尔可夫决策过程中的反向强化学习,可增加数据效率并减少信息不对称,通过融合时间逻辑表达式作为先验信息,使用因果熵而不是熵,防止算法复杂度的通用来源,有效地解决了非凸问题,并在高级 Unity 仿真器中进行了实验,结果表明该算法具有较高的性能。
Dec, 2022
提出了一种基于Fokker-Planck(FP)方程的新型物理意识逆强化学习算法FP-IRL,可以同时推断转移和奖励函数,无需事先估计转移动态,适用于转移函数不可访问的情况
Jun, 2023
我们提出了一种贝叶斯方法来进行离线模型基于的逆向强化学习(IRL)。该方法通过同时估计专家的奖励函数和对环境动态的主观模型,与现有的离线模型基于IRL方法有所不同。我们利用一类先验分布,参数化了专家对环境的模型准确性,以此开发出高维环境中估计专家奖励和主观动态的高效算法。我们的分析揭示了一个新的观点,即当先验认为专家对环境有高度准确的模型时,估计出的策略表现出了稳健的性能。我们在MuJoCo环境中验证了这个观察结果,并展示了我们的算法在离线IRL问题上优于最先进的方法。
Sep, 2023
逆向强化学习通过学习专家轨迹的奖励函数,理解模仿或协作任务,从而消除手动奖励设计的需要。本文提出了一种新的变分下界的逆向强化学习方法(VLB-IRL),通过最大化下界相当于最小化近似分布和真实分布之间的逆Kullback-Leibler散度,同时学习奖励函数和根据所学奖励函数最大化下界来寻找到达专家级性能的策略,该方法在几个已知领域上优于现有的逆向强化学习算法。
Nov, 2023
逆强化学习(IRL)是学习奖励函数的问题,该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的IRL结果,包括离线和在线设置,使用多项式采样和运行时间等方面的效率。使用RLP和RLE算法,我们分别设计了离线和在线设置的IRL算法,并建立了样本复杂度的下界,表明RLP和RLE算法是近乎最优的。此外,我们还展示了学习的奖励函数在具有适当相似性假设的目标MDP上的转移能力。
Nov, 2023
通过引入结构风险最小化方法,本文解决了逆强化学习模型选择中的权衡问题,以估计误差和模型复杂度为目标,选择最佳的奖励函数类别。具体实施的结构风险最小化包括估计策略梯度和建立模型惩罚的Rademacher复杂度的上界。通过模拟实验验证了该方案的性能和效率。
Dec, 2023
在线逆向强化学习中,为了改善对奖励函数的估计,学习器可以收集关于环境动态的样本。本文针对在线逆向强化学习问题在线性马尔可夫决策过程中的情况进行研究,介绍了奖励兼容性的新框架,并开发了一种样本高效的算法CATY-IRL,其复杂度与状态空间的基数无关。在表格式环境中,CATY-IRL表现为最优的最小最大率,并改进了最先进的下界。最后,我们提出了一个统一的逆向强化学习和无奖励探索框架,可能具有独立的研究价值。
Jun, 2024