具有约束恢复的逆强化学习
本文提出了一种基于梯度的逆强化学习方法,同时估计系统动态,以后解决由生成策略引起的演示偏差,有效提高了样本利用率并准确估计奖励和转移模型,该方法在合成MDP和转移学习任务上都得到了改进。
Apr, 2016
本文对逆强化学习领域的现有文献进行了分类调查,介绍了IRL问题和其挑战,讨论了目前的解决方法,并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法,同时总结了该领域的研究进展和当前未解决的问题。
Jun, 2018
本文针对马可夫决策过程上的反向强化学习问题,即通过一个环境模型以及一个奖励函数,推断出状态、行动、和特征限制,以此来激励智能体的行为。本文针对该问题提出了一个基于最大熵IRL的方法,并提出了一个迭代算法,以最大似然的方式推断最佳的约束条件,同时通过仿真实验和现实数据验证了其有效性。
Sep, 2019
研究使用强化学习智能体从行为演示中学习约束以及将其迁移到具有不同形态和奖励功能的新智能体的方法,建立了能够在高维度完全无模型的情况下学习任意 Markovian 约束的框架,并且该方法与之前的工作相比,在离散设置、特定类型约束和环境转移动力学等方面表现更好。
Nov, 2020
本文提出了一种新算法,用于部分可观测的马尔可夫决策过程中的反向强化学习,可增加数据效率并减少信息不对称,通过融合时间逻辑表达式作为先验信息,使用因果熵而不是熵,防止算法复杂度的通用来源,有效地解决了非凸问题,并在高级 Unity 仿真器中进行了实验,结果表明该算法具有较高的性能。
Dec, 2022
提出一种基于最大因果熵的方法来学习环境约束下的最优策略,该方法利用在约束下运作的代理的演示进行学习,证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数,评估学习策略的有效性,并基于其在其他代理中的可转移性评估学习成本函数。此方法已经在各种任务和环境中表现优于现有技术,能够处理具有随机动态和连续状态动作空间的问题。
May, 2023
给定一个专家示范数据集,逆向强化学习(IRL)旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的IRL问题。我们采用随机梯度下降算法更新奖励,并采用随机软策略迭代算法更新策略,假设可以访问一个生成模型,我们证明了我们的算法使用O(1/ε^2)个马尔可夫决策过程(MDP)样本能够恢复一个ε-最优奖励。此外,我们证明在O(1/ε^4)个样本情况下,所恢复的奖励对应的最优策略与专家策略在总变差距离上接近ε。
Mar, 2024
在线逆向强化学习中,为了改善对奖励函数的估计,学习器可以收集关于环境动态的样本。本文针对在线逆向强化学习问题在线性马尔可夫决策过程中的情况进行研究,介绍了奖励兼容性的新框架,并开发了一种样本高效的算法CATY-IRL,其复杂度与状态空间的基数无关。在表格式环境中,CATY-IRL表现为最优的最小最大率,并改进了最先进的下界。最后,我们提出了一个统一的逆向强化学习和无奖励探索框架,可能具有独立的研究价值。
Jun, 2024
本研究解决了逆约束强化学习(ICRL)中采样策略的有效性和效率未知的问题。通过引入一种可证明高效的探索框架,定义了ICRL问题的可行约束集,并提出了两种算法以实现高效约束推断,结果在多个环境下得到了实证验证,显示出显著的性能提升。
Sep, 2024
本文解决了逆约束强化学习(ICRL)中现有采样策略效率未知的问题。提出了一种具有保证效率的探索框架,并提出了两种算法,通过动态减少成本估计的有界聚合误差和战略性约束探索策略,来实现有效的约束推断。实验结果显示,这些算法在多种环境下表现优越。
Sep, 2024