BriefGPT.xyz
Ask
alpha
关键词
value distribution
搜索结果 - 3
AAAI
QUOTA:用于强化学习的分位数选项架构
该论文提出了量化期权体系结构(QUOTA),基于分布式强化学习的最新进展进行探索。 QUOTA 具有新的探索维度,同时利用价值分布的乐观和悲观。在具有挑战性的视频游戏和物理机器人模拟器中,我们证明了 QUOTA 的性能优势。
PDF
6 years ago
分位数回归的分布式强化学习
本文介绍了一种分布强化学习方法,不仅仅用于估计价值函数的平均值,而是显式地建模返回的分布,通过闭合实验和文献相关得到了一些理论和算法上的结果,最后在 Atari 2600 游戏中,该算法的表现显著优于许多 DQN 的改进方案,包括相关的分布
→
PDF
7 years ago
ICML
强化学习的分布视角
本文阐述了价值分配的重要性,提出了一种基于价值分配的学习算法,并通过实证结果证明了该算法的有效性。
PDF
7 years ago
Prev
Next