关键词constrained policy optimization
搜索结果 - 3
- 针对对抗性干扰的坚固安全强化学习
该论文提出了一种鲁棒安全强化学习框架,解决了在真实控制任务中应用强化学习时外部干扰的安全性问题,该框架通过建立鲁棒不变集合来保证安全,并采用约束强化学习算法进行策略优化。
- IJCAI熟练操纵的约束强化学习
本文研究了在 24 DOF 机器人手器学习使用约束策略优化来执行对象重定位任务,并发现在学习期间添加约束能确保机器人更快达到目标点,从而使其具有更加稳健和安全的行为能力。
- ICLR奖励受限策略优化
提出了一种名为 “奖励约束策略优化(RCPO)” 的多时间尺度方法,该方法使用替代惩罚信号引导策略满足约束,并证明了该方法的收敛性和训练满足约束的策略的能力。