Jul, 2024

Safe CoR: 用约束性回报集成模仿学习和安全强化学习的双专家方法

TL;DR在自主机器人领域,确保复杂和动态环境下的安全性和可靠性仍然是一个重大挑战。通过引入安全约束,安全强化学习解决这些问题,但在复杂驾驶环境等复杂环境中仍面临挑战。为了应对这些挑战,我们提出了安全约束奖励(Safe CoR)框架,这是一种利用两种类型的专家演示(重点是性能优化的奖励专家演示和优先考虑安全性的安全专家演示)的新方法。通过利用约束奖励(CoR),我们的框架指导智能体平衡奖励总和的性能目标与安全约束。我们在包括 safety gym、metadrive 和真实世界的 Jackal 平台在内的多种环境中测试了所提出的框架。在真实世界的 Jackal 平台上,我们提出的框架提高了算法的性能 39% 并减少了约束违规 88%,证明了该框架的有效性。通过这种创新方法,我们期望在现实世界的性能方面取得重大进展,从而在安全可靠的自主机器人领域产生深远影响。