BriefGPT.xyz
Ask
alpha
关键词
reward-design problem
搜索结果 - 1
学习策略梯度方法的内部奖励
本文中,研究了在序列决策任务中,优化奖励函数对于强化学习的性能具有重要意义,提出了一种适用于基于策略梯度的学习代理的学习内在奖励的算法,并在性能上对比了使用该方法的强化学习代理和仅使用外在奖励的代理。
PDF
6 years ago
Prev
Next