MMJun, 2020
有限时间跨度下连续时间线性二次强化学习的对数损失
Logarithmic regret for episodic continuous-time linear-quadratic reinforcement learning over a finite-time horizon
Matteo Basei, Xin Guo, Anran Hu, Yufei Zhang
TL;DR研究连续时间线性二次调节强化学习问题,提出基于连续时间观测和控制的最小二乘算法和基于离散时间观测和分段常数控制的最小二乘算法,并分析了它们的误差界限和实现可能性。