May, 2024

模型不匹配下的受限增强学习

TL;DR在训练环境下,现有的关于约束强化学习(RL)的研究可能可以获得良好的策略。然而,在真实环境中部署时,由于训练与真实环境之间可能存在模型不匹配,它可能很容易违反最初满足的约束。为了解决上述挑战,我们将问题形式化为模型不确定性下的约束强化学习,即旨在学习一个能够优化奖励并同时满足模型不匹配下的约束的良好策略。我们提出了一种名为鲁棒约束策略优化(RCPO)的算法,这是一种适用于大型 / 连续状态空间且在训练期间每次迭代都具有最坏情况奖励改进和约束违规的理论保证的算法。我们在一组具有约束条件的强化学习任务上展示了我们算法的有效性。