BriefGPT.xyz
Ask
alpha
关键词
least-squares based implementation
搜索结果 - 1
关于广义贝尔曼方程和时间差分学习
该论文研究了非政策时间差异学习在折扣马尔可夫决策过程中的应用,提出了一种新的基于广义 Bellman 方程设置 λ- 参数的方案来控制偏差,通过马尔科夫链理论证明了该方案的收敛性并分析了其在最小二乘实现中的收敛性。
PDF
7 years ago
Prev
Next