Jun, 2024

e-COP:策略的时序受限优化

TL;DR本文介绍了 $ exttt {e-COP}$ 算法,这是第一个适用于有约束的强化学习 (RL) 的离散 (有限时段) 设置的策略优化算法。我们通过在离散设置下建立策略差异引理来解决这个问题,提供算法的理论基础。通过对 Safety Gym 测试套件中的基准进行广泛的实证分析,我们展示了我们的算法在性能上与非离散设置下的最新算法相似或更优。该算法的可扩展性为将其应用于大型语言或扩散模型的通过人类反馈进行安全约束的强化学习打开了大门。