ICMLJun, 2024

深度强化学习的理解与诊断

TL;DR利用神经网络构建的深度神经决策模型在不同领域中得到广泛应用,但深度神经网络在近似值函数时可能会导致决策边界的稳定性问题,特别是对于高度非凸和复杂的神经网络结构,不可识别、非鲁棒特征对策略决策有较大敏感性。因此,有必要开发能够理解神经网络策略学习中敏感性的技术。本研究介绍了一种理论基础的方法,系统分析了深度神经决策边界在时间和空间上的不稳定方向。通过实验在 Arcade Learning Environment (ALE) 中,我们展示了该方法在识别相关不稳定方向以及测量样本偏移对神经网络策略学习中敏感方向集合的影响方面的有效性。最重要的是,我们证明了最先进的鲁棒训练技术相对于标准训练方法在学习不相交的不稳定方向时,随着时间的推移产生更大的振荡。我们相信这些结果揭示了强化学习策略的决策过程的基本属性,并能帮助构建可靠而稳健的深度神经策略。