Nov, 2023

通过奖励塑造在强化学习中保证控制需求

TL;DR在满足控制问题中的规范和追踪要求的过程中,需要通过强化学习来保证所获得的策略在部署之前能够满足必要的性能和稳定性准则,如期望的调整时间和稳态误差。基于这种必要性,本文提出了一组结果和系统奖励设计过程,可以确保最优策略生成的轨迹与指定的控制要求相一致,并且可以评估任何给定的策略是否满足这些要求。我们通过在 OpenAI Gym 的两个代表性环境 —— 倒立摆摆动问题和月球着陆器问题中进行了全面的数值实验来验证我们的方法。通过使用表格和深度强化学习方法,我们的实验一致证明了我们提出的框架的有效性,突出了其确保策略符合所规定的控制要求的能力。