BriefGPT.xyz
Ask
alpha
关键词
temporal-difference learning
搜索结果 - 23
强调时序差分学习
该研究概括了近期两个关于强化学习中强调算法的稳定性和收敛性的研究,同时展示了强调算法的灵活性在状态折扣、状态引导和资源分布等方面的经验优势。
PDF
9 years ago
时序差分网络
介绍了一种将时间差异(TD)学习推广到相互关联预测网络的方法, TD 网络能够表示和应用 TD 学习到比以前更广泛的预测类别,并通过将预测之间的关系作为条件来提高学习效率,此外,还演示了 TD 网络可以学习预测状态表示,成为 TD 方法能力
→
PDF
9 years ago
离策演员 - 评论家
本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题,在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时,能够灵活地运用 policy 设计,具
→
PDF
12 years ago
Prev
Next