Feb, 2024

连续时间控制中积分增强学习的计算影响

TL;DR积分强化学习中的计算方法选择(如求积法则)对控制性能产生显著影响,并通过与哈密顿 - 雅可比 - 贝尔曼方程的牛顿法相比较,揭示了计算误差在策略迭代中的额外误差项,并且在使用再生核希尔伯特空间中的效用函数时,通过贝叶斯求积法与诱导核函数结合可以实现最佳求积,其中理论发现最终通过两个经典控制任务得到验证。