Jan, 2022

约束递归限制在受限制的强化学习中以防止不稳定性

TL;DR考虑在马尔可夫决策过程中找到一种确定性策略,该策略统一(在所有状态下)最大化一种奖励,同时受到不同奖励的概率约束。本文提出了一种适当的约束强化学习算法来防止学习不稳定性,并使用递归约束描述了我们的问题的动机和适用性。