Feb, 2024

强化学习中奖励函数的信息性

TL;DR设计具有信息量的奖励函数以加速学习代理的收敛,并通过提出一种新的奖励信息量准则来适应性地设计代理奖励。实验证明了提出的奖励信息量准则在自适应设计代理奖励方面的有效性。