BriefGPT.xyz
Ask
alpha
关键词
lpg
搜索结果 - 1
发现强化学习算法
该论文提出一种新的元学习方法,可以通过与一组环境交互,发现一个包含价值函数和时间差分学习等元素的更新规则,从而得到一个名为 LPG 的 RL 算法,该方法可以发现自己对于价值函数的替代方案,并有效地推广到复杂的 Atari 游戏中。
PDF
4 years ago
Prev
Next