BriefGPT.xyz
Ask
alpha
关键词
update rule
搜索结果 - 3
ICML
构建数学结构以实现学习优化
本文提出了一种基于数学原理的 L2O 模型,通过数值模拟验证了该模型的理论发现并展示了其超越普通 L2O 模型的优越性。
PDF
a year ago
深度强化学习中目标网络的 t-Soft 更新
本文提出了一种新的强化学习(DRL)目标网络的鲁棒更新规则,以替代传统的指数移动平均更新规则,并通过类比于指数移动平均和正态分布之间的关系,基于学生 t 分布衍生了一种 t-soft 更新方法。通过 PyBullet 机器人模拟 DRL 的
→
PDF
4 years ago
发现强化学习算法
该论文提出一种新的元学习方法,可以通过与一组环境交互,发现一个包含价值函数和时间差分学习等元素的更新规则,从而得到一个名为 LPG 的 RL 算法,该方法可以发现自己对于价值函数的替代方案,并有效地推广到复杂的 Atari 游戏中。
PDF
4 years ago
Prev
Next