Jan, 2023

AutoCost:进化内在代价的零违规强化学习

TL;DR本文提出了 AutoCost 框架,并在 Safety Gym 上进行了验证,结果表明其在 constrained RL 中实现了零违规性能,同时与基线有可比性的表现。