May, 2024

通过信任域拟 - 牛顿策略优化强化模型预测控制

TL;DR通过使用参数化模型预测控制器作为策略并利用所需参数的少量,我们提出了一种带有超线性收敛率的限制拟牛顿训练算法进行策略优化。通过解线性方程组的解来计算所需的二阶导数信息。模拟研究表明,所提出的训练算法在数据效率和准确性方面优于其他算法。