IJCAIMay, 2022

带惩罚项的近端优化安全强化学习

TL;DR本论文提出惩罚近端策略优化 (P3O) 算法,通过一个等效的无约束问题的单次极小化来解决繁琐的受约束策略迭代,同时可以扩展至多约束和多智能体场景,实验表明该算法在一组有约束的机车任务上具有先进性能。