May, 2024

多项式时间下的受限强化学习确定性策略

TL;DR我们提出了一种新颖的算法,能够高效计算约束强化学习问题的近似最优确定性策略。该算法通过三个关键思想进行组合:(1)价值需求增强,(2)动作空间的近似动态规划,以及(3)时间空间的取整。在较弱的奖励假设下,我们的算法构成了一个对多样化成本准则的全多项式时间近似方案。该类准则要求以递归方式计算策略的成本,涉及时间和状态空间,包括经典期望、几乎确定和实时约束。我们的工作不仅为解决实际决策中的挑战提供了经过证明的高效算法,还为高效计算约束性确定性策略提供了统一的理论。