Apr, 2024
线性二次调节器的样本复杂度:强化学习视角
Sample Complexity of the Linear Quadratic Regulator: A Reinforcement Learning Lens
Amirreza Neshaei Moghaddam, Alex Olshevsky, Bahman Gharesifard
TL;DR我们提供了一个新的算法,可以在没有依赖于两点梯度估计的情况下,在大约 1/ε 个函数评估内确保 ε- 最优性,适用于具有未知参数的折扣离散时间 LQR 问题。