Nov, 2023

仿真机器人臂的安全强化学习

TL;DR通过在 Panda 机械臂创建自定义环境,扩展安全强化学习算法的适用性,并通过与基准版本的比较表明,在满足安全约束条件的同时,受限版本能够学习到同样好的策略,但需要更长的训练时间。