Nov, 2022

多目标强化学习中随机环境和局部决策问题的解决

TL;DR本研究旨在探讨多目标强化学习算法在具有随机状态转换的环境中学习最优策略的影响因素,并通过实证评估比较了不同的算法变种。研究结果表明设计良好的奖励信号可以改善性能,全局统计的 MORL Q-learning 算法也显示出比基准算法更好的性能,但仍然存在着噪声 Q 值估计问题的影响。