BriefGPT.xyz
Ask
alpha
关键词
off-policy temporal-difference learning
搜索结果 - 2
关于某些基于梯度的时间差分离线学习算法的收敛性
本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法,并针对几个基于梯度的 TD 算法提出了一组收敛性结果。
PDF
7 years ago
关于广义贝尔曼方程和时间差分学习
该论文研究了非政策时间差异学习在折扣马尔可夫决策过程中的应用,提出了一种新的基于广义 Bellman 方程设置 λ- 参数的方案来控制偏差,通过马尔科夫链理论证明了该方案的收敛性并分析了其在最小二乘实现中的收敛性。
PDF
7 years ago
Prev
Next