Feb, 2021

状态增强约束强化学习:克服通过奖励学习的限制

TL;DR通过在状态中增加Lagrange乘子并将原始-对偶方法重新解释为推动乘子演变的动态部分,本文提出了一种系统的状态增强过程,可确保解决具有约束的增强学习问题。