BriefGPT.xyz
Ask
alpha
关键词
target networks
搜索结果 - 3
目标网络如何稳定时序差分法
本研究提供了对深度强化学习中关于目标网络的理论解释,通过对拟合部分策略估计方法的形式化定义,解释了目标网络为何可以稳定 TD 学习,并阐述了它的优缺点和在极具挑战性的离线采样和非线性函数逼近设置中保证收敛的条件。
PDF
a year ago
ICML
使用线性结构稳定 Q 学习,以实现证明有效的学习
本文讨论了 $Q$-learning 算法的不稳定性问题,提出了一种基于探索的改进方案。该算法通过结合二阶更新,目标网络等机制,实现了线性 MDPs 的最新遗憾界限,并且算法设计独立于时间步长。此外,该算法表现出一定的实例依赖性,并且在近似
→
PDF
2 years ago
基于目标的时序差分学习
本文介绍了一种新的基于目标的时间差分(TD)学习算法,并对其收敛性进行了理论分析,该算法与标准的 TD 学习不同,维护两个独立的学习参数 - 目标变量和在线变量,以加速 Deep Q 学习中目标网络的收敛。
PDF
5 years ago
Prev
Next