关键词sparse reward functions
搜索结果 - 2
- 蒙特卡罗增强演员 - 评论家算法处理来自次优演示的稀疏奖励深度强化学习
提供 RL 算法的稠密形状奖励函数往往非常具有挑战性,因此发展能够从易于指定的稀疏奖励函数中学习的 RL 算法已成为研究动机。为解决因奖励稀疏性而引入的新的探索挑战,我们引入了 Monte Carlo 增强 Actor Critic (MC - NIPS基于轨迹的球迷宫游戏学习
本研究介绍了一种简单的方法来应用轨迹学习方法,以增加深度强化学习方法的样本效率,该方法应用于文献中最近引入的具有挑战性的球迷宫游戏,并展示了通过使用模拟器为模型生成有限数量的轨迹,可以在不使用人工生成轨迹的情况下,获得约 2-3 倍的学习加