May, 2022

快速学习的奖励设计

TL;DR研究如何选择奖励函数以提高强化学习的学习速度, 提出基于状态的奖励设计原则, 并提出线性规划算法以最大化行动差距和最小化主观贴现; 通过在表格环境中使用Q学习算法进行实验,表明设计奖励遵循一定的原则,如逐步增加接近目标奖励,可以加速学习。