Jan, 2022

SafeAPT:使用在模拟器中学得的多样策略的安全模拟 - 真实机器人学习

TL;DR介绍了一种名为 SafeAPT 的学习算法,它使用仿真实验学习的策略并将其安全地迁移到实际机器人中,通过实际交互而不会危害自身或周围环境。该算法通过迭代学习概率奖励模型和安全模型,并使用仿真经验作为先验,在满足安全约束的情况下完成该策略。经过实际和仿真机器人的对比实验,显示 SafeAPT 能够在短时间内找到高性能策略并在交互期间最小化安全违规。