ICMLOct, 2019

神经网络在深度强化学习中的表现能力

TL;DR我们通过神经网络对策略,Q 函数和动态的表达能力,比较模型无关的强化学习与模型基于的方法。我们理论和实证地展示,即使对于一维连续状态空间,存在许多其最佳 Q 函数和策略比动态复杂得多的 MDP。我们假设许多现实世界中的 MDP 也具有类似的特点。基于这样的理论假设,我们使用简单的多步模型基于启发式策略改善算法(BOOTS)将较弱的 Q 函数引导为更强的策略,并将此应用于 MuJoCo 基准测试任务,结果表明 BOOTS 能够显著提高模型基于或模型无关的策略优化算法的性能。