BriefGPT.xyz
Oct, 2023
安全的深度策略适应
Safe Deep Policy Adaptation
HTML
PDF
Wenli Xiao, Tairan He, John Dolan, Guanya Shi
TL;DR
SafeDPA是一种处理策略适应性和安全强化学习问题的新型强化学习与控制框架,通过在仿真环境中联合学习自适应策略和动力模型,并通过少量现实数据进行动力模型微调,引入基于控制屏障函数的安全过滤器,以确保在现实世界部署中的安全性。SafeDPA在安全性和任务性能方面表现出较大的优越性,实验证明在未见扰动的真实世界实验中,相比基准方法,安全率增加了300%。
Abstract
A critical goal of autonomy and artificial intelligence is enabling
autonomous robots
to rapidly adapt in dynamic and uncertain environments. Classic adaptive control and safe control provide stability and
safety guaran
→