BriefGPT.xyz
大模型
Ask
alpha
关键词
mean square bellman error
搜索结果 - 1
基于梯度的价值估计的高效实现
本文研究了值估计的梯度方法在强化学习中速度较慢的原因,提出了一种基于 Gauss-Newton 方向的低复杂度非批量化近端方法,并介绍了主要算法 RANS 及其在经典问题中的表现。
PDF
a year ago
Prev
Next