MMJun, 2020

有限时间跨度下连续时间线性二次强化学习的对数损失

TL;DR研究连续时间线性二次调节强化学习问题,提出基于连续时间观测和控制的最小二乘算法和基于离散时间观测和分段常数控制的最小二乘算法,并分析了它们的误差界限和实现可能性。