Oct, 2023

安全的深度策略适应

TL;DRSafeDPA是一种处理策略适应性和安全强化学习问题的新型强化学习与控制框架,通过在仿真环境中联合学习自适应策略和动力模型,并通过少量现实数据进行动力模型微调,引入基于控制屏障函数的安全过滤器,以确保在现实世界部署中的安全性。SafeDPA在安全性和任务性能方面表现出较大的优越性,实验证明在未见扰动的真实世界实验中,相比基准方法,安全率增加了300%。