May, 2022

通过系统识别低维线性模型,构建基于模型的安全和基于模型无关的强化学习的桥梁

TL;DR本文提出了一种新方法,通过显式地找到受 RL 策略控制的系统的低维模型,并在简单模型上应用稳定性和安全保证,将基于模型的安全性与基于模型的无模型强化学习相结合。使用复杂的二足机器人 Cassie 和其基于强化学习的行走控制器作为示例,本文表明低维度的动力学模型足以捕捉闭环系统的动态,并说明所找到的线性模型能够通过安全关键的最优控制框架提供保证。