有限时间跨度下连续时间线性二次强化学习的对数损失

Jun, 2020

有限时间跨度下连续时间线性二次强化学习的对数损失

Linear Quadratic Reinforcement Learning: Sublinear Regret in the Episodic Continuous-Time Framework

Matteo Basei, Xin Guo, Anran Hu

TL;DR研究连续时间线性二次调节强化学习问题，提出基于连续时间观测和控制的最小二乘算法和基于离散时间观测和分段常数控制的最小二乘算法，并分析了它们的误差界限和实现可能性。

Abstract

This paper studies a continuous-time linear quadratic reinforcement learning problem in an episodic setting. We first show that na\"ive discretization and piecewise approximation with discrete-time RL algorithms yields a linear regret with respect to the number of learning episodes $N$