BriefGPT.xyz
Ask
alpha
关键词
hindsight
搜索结果 - 2
IJCAI
回顾性信任区域策略优化
我们提出了一种新的强化学习算法:Hindsight Trust Region Policy Optimization,它通过利用 hindsight 来提高稀疏抽奖的表现,并引入了 QKL 和 HGF 两种方法来提高学习稳定性和表现。我们在
→
PDF
5 years ago
ICLR
回顾策略梯度
本文研究如何将 hindsight 引入到 policy gradient 方法中,对各种稀疏奖励机制进行实验并表明 hindsight 能显著提高样本效率。
PDF
7 years ago
Prev
Next