Apr, 2023

可行策略迭代

TL;DR本文研究安全强化学习问题,提出了一种名为可行策略迭代算法的间接安全强化学习方法,该算法通过使用一个称为约束衰减函数的可行性函数表示可行域,实现了保证策略的约束和可行性并达到优化目标。实验表明,可行策略迭代算法在经典控制任务和安全场景中能够取得更好的表现。