BriefGPT.xyz
大模型
Ask
alpha
关键词
temporal-difference error
搜索结果 - 3
ICLR
高效深度强化学习需要控制过拟合
本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析,研究了数据高效 RL 的瓶颈,发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首,因此,在任何形式的监督学习中,利用任何形式的正则化技术,找到验证 TD 误差的
→
PDF
a year ago
损失函数与非均匀采样在经验重放中的等效性
本研究使用优先经验回放(PER)解决深度强化学习中样本分布不均衡问题,通过等价变换使得非均衡损失函数拥有与均衡损失函数相同的梯度,并在 MuJoCo 和 Atari 环境中验证了其优越性。
PDF
4 years ago
ICML
平均奖励马尔科夫决策过程的学习和规划
本研究提出了一种基于平均报酬 MDPs 的学习和规划算法,其中包括第一种无参考状态的普遍证明收敛的无模型控制算法、第一个证明收敛的无政策自由预测算法,以及第一个离线学习算法,其收敛于实际值函数而不是值函数增加一个偏移量。在使用时间差错错误而
→
PDF
4 years ago
Prev
Next