Jan, 2022

安全强化学习的约束变分策略优化

TL;DR该研究通过引入新的期望最大化方法,并从概率推理的角度解决问题,将安全增强学习问题分解为凸优化和监督学习两个阶段,实现了更稳定和更高效的学习表现,并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。