Nov, 2020

有限时间内的带噪声线性二次调节器的策略梯度方法

TL;DR本文研究了在线性二次型调节器问题中寻找最优策略的强化学习方法,并在两个例子中说明了该方法的性能。