Jun, 2023

解决持续任务强化学习中无界状态空间问题

TL;DR本篇论文探讨了深度加强学习算法在面对状态空间无法预测,强烈依赖于重置时的困境。通过引入 Lyapunov 启发式奖励塑造方法,策略学习可以更快、更稳定地收敛到最优解