BriefGPT.xyz
Ask
alpha
关键词
adaptive reward informativeness criterion
搜索结果 - 1
强化学习中奖励函数的信息性
设计具有信息量的奖励函数以加速学习代理的收敛,并通过提出一种新的奖励信息量准则来适应性地设计代理奖励。实验证明了提出的奖励信息量准则在自适应设计代理奖励方面的有效性。
PDF
5 months ago
Prev
Next