关键词intrinsic reward functions
搜索结果 - 2
- AAAI一个代理应该如何练习?
该研究提出了一种通过学习内在奖励函数来驱动代理在练习期间学习,避免缺乏外在任务奖励的影响的方法,并通过元梯度法来适应练习奖励参数,该方法在格子世界以及两个游戏中进行了评估,显示了在练习和比赛中同时学习的优势。
- 学习策略梯度方法的内部奖励
本文中,研究了在序列决策任务中,优化奖励函数对于强化学习的性能具有重要意义,提出了一种适用于基于策略梯度的学习代理的学习内在奖励的算法,并在性能上对比了使用该方法的强化学习代理和仅使用外在奖励的代理。