Oct, 2022

评估深度强化学习中任务不完全规定的影响

TL;DR本研究探讨如何更准确地评估深度强化学习方法在真实世界中的应用,并提出了考虑参数化 MDP 家族的方法。研究结果表明,在 MDP 家族上对 DRL 方法进行评估,相对于在用户选择的 MDP 实例上进行评估,往往可以得到不同的方法排名,这为强化学习的实证研究提出了新的挑战。