可证明有效的逆约束强化学习中的探索
本文针对马可夫决策过程上的反向强化学习问题,即通过一个环境模型以及一个奖励函数,推断出状态、行动、和特征限制,以此来激励智能体的行为。本文针对该问题提出了一个基于最大熵IRL的方法,并提出了一个迭代算法,以最大似然的方式推断最佳的约束条件,同时通过仿真实验和现实数据验证了其有效性。
Sep, 2019
本文提出使用主动探索策略的逆强化学习算法(AceIRL),该算法通过构造置信区间捕捉潜在的奖励函数,寻找信息最充分的环境区域的探索策略,从而快速学习专家的奖励函数和制定一个良好的策略。AceIRL是第一种不需要环境生成模型并具有样本复杂度界限的主动逆强化学习方法,并与具备环境生成模型情况下的样本复杂度相匹配,在模拟实验中证明AceIRL优于其他探索策略。
Jul, 2022
本文提出了基于最大熵原理的逆强化学习算法,用于推断约束非凸最优化问题的奖励函数和约束条件,并采用指数梯度下降算法解决约束问题。通过在网格世界环境中的实验验证了该算法的效力。
May, 2023
逆强化学习(IRL)是学习奖励函数的问题,该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的IRL结果,包括离线和在线设置,使用多项式采样和运行时间等方面的效率。使用RLP和RLE算法,我们分别设计了离线和在线设置的IRL算法,并建立了样本复杂度的下界,表明RLP和RLE算法是近乎最优的。此外,我们还展示了学习的奖励函数在具有适当相似性假设的目标MDP上的转移能力。
Nov, 2023
在线逆向强化学习中,为了改善对奖励函数的估计,学习器可以收集关于环境动态的样本。本文针对在线逆向强化学习问题在线性马尔可夫决策过程中的情况进行研究,介绍了奖励兼容性的新框架,并开发了一种样本高效的算法CATY-IRL,其复杂度与状态空间的基数无关。在表格式环境中,CATY-IRL表现为最优的最小最大率,并改进了最先进的下界。最后,我们提出了一个统一的逆向强化学习和无奖励探索框架,可能具有独立的研究价值。
Jun, 2024
逆向约束强化学习 (Inverse Constraint Reinforcement Learning, ICRL) 领域研究了从离线专家演示中估计约束的算法,并提供了一种基于置信水平对专家演示进行约束估计的方法,使用户可以选择满足期望置信水平的约束进行使用,同时允许用户了解专家轨迹数量不足时的情况并采集更多专家轨迹以同时学习满足期望置信水平的约束和达到期望性能水平的策略。
Jun, 2024
采用信息论的观点,我们研究强化学习中的探索问题,并提出了一种新颖的无模型解决方案,通过推导实例特定的下界以及最优的探索策略,我们衍生出一种基于集成模型的无模型探索策略,适用于表格和连续马可夫决策过程, 数值结果表明我们的策略能够比最先进的探索方法更快地找到高效的策略。
Jun, 2024
本研究解决逆约束强化学习(ICRL)中的隐性约束推断问题,填补了相关理论与实践知识的空白。通过系统性梳理最新进展,提出了适用于多种环境和条件的算法框架,显著推动了该领域的发展,同时指出了当前面临的关键挑战与应用潜力,如自主驾驶和机器人控制。
Sep, 2024
本研究解决了逆约束强化学习(ICRL)中采样策略的有效性和效率未知的问题。通过引入一种可证明高效的探索框架,定义了ICRL问题的可行约束集,并提出了两种算法以实现高效约束推断,结果在多个环境下得到了实证验证,显示出显著的性能提升。
Sep, 2024