Dec, 2019

无模型线性二次调节器问题的梯度方法的收敛性和样本复杂度

TL;DR研究了无模型强化学习中的线性二次调节器问题,建立了梯度流动力学和随机搜索法的指数稳定性,同时证明了函数评估次数和仿真时间都会随着精度要求的提高而对数增加。