Jul, 2021

基于约束的强化学习的简单无回报方法

TL;DR本文探讨奖励自由强化学习和受限制的强化学习之间的联系,在标记 MDP 设置中,我们提出了一种简单的元算法,利用现有的奖励自由 RL 解算器,对受限制的强化学习问题进行直接求解, 在现有结果的基础上匹配最佳结果,同时在线性函数近似下,我们直接将其扩展到标记二人马尔可夫博弈的设置中,并提供了一个新的受限制的 RL 结果。