BriefGPT.xyz
Ask
alpha
关键词
discounted discrete-time lqr problem
搜索结果 - 1
线性二次调节器的样本复杂度:强化学习视角
我们提供了一个新的算法,可以在没有依赖于两点梯度估计的情况下,在大约 1/ε 个函数评估内确保 ε- 最优性,适用于具有未知参数的折扣离散时间 LQR 问题。
PDF
3 months ago
Prev
Next