深度强化学习的理解与诊断

ICMLJun, 2024

Understanding and Diagnosing Deep Reinforcement Learning

Ezgi Korkmaz

TL;DR利用神经网络构建的深度神经决策模型在不同领域中得到广泛应用，但深度神经网络在近似值函数时可能会导致决策边界的稳定性问题，特别是对于高度非凸和复杂的神经网络结构，不可识别、非鲁棒特征对策略决策有较大敏感性。因此，有必要开发能够理解神经网络策略学习中敏感性的技术。本研究介绍了一种理论基础的方法，系统分析了深度神经决策边界在时间和空间上的不稳定方向。通过实验在 Arcade Learning Environment (ALE) 中，我们展示了该方法在识别相关不稳定方向以及测量样本偏移对神经网络策略学习中敏感方向集合的影响方面的有效性。最重要的是，我们证明了最先进的鲁棒训练技术相对于标准训练方法在学习不相交的不稳定方向时，随着时间的推移产生更大的振荡。我们相信这些结果揭示了强化学习策略的决策过程的基本属性，并能帮助构建可靠而稳健的深度神经策略。

Abstract

deep neural policies have recently been installed in a diverse range of settings, from biotechnology to automated financial systems. However, the utilization of deep neural networks to approximate the value function leads to concerns on the →

deep neural policies decision boundary stability sensitivities learnt representations unstable directions

发现论文，激发创造

深度强化学习策略跨 MDP 学习共享对抗特征

本文探讨和提出了一种框架，用于研究深度强化学习中跨状态和跨马尔可夫决策流程（MDPs）的决策边界和损失景观相似性，并发现高敏感性方向支持非鲁棒特征在训练环境中的共享，这一结果揭示了深度强化学习的基本特性，为构建稳健可靠的深度强化学习代理迈出了实质性的步伐。

Dec, 2021

对抗性鲁棒深度强化学习需要重新定义鲁棒性

本文探讨了深度强化学习策略中的鲁棒性问题，发现通过更自然的方式在黑盒设置中可以找到灵敏度方向，且相较于最先进的对抗性训练技术，普通训练技术可以使学习到的策略更加鲁棒。该实验结果可以为构建更加鲁棒的深度强化学习策略提供帮助。

Jan, 2023

在深度强化学习中检测对抗方向以作出鲁棒决策

这篇文章提出了一种检测存在非鲁棒方向的新方法，基于深度神经网络策略损失的局部二次逼近，解决了在强化学习中高度复杂状态下存在的政策不稳定问题，并证明了其在对抗攻击环境中的有效性。

Jun, 2023

深度强化学习中的泛化分析调查

通过利用深度神经网络解决高维状态或动作空间中的问题，强化学习研究在许多领域获得了显著的成功和关注。本文将概述深度强化学习策略遇到过拟合问题从而限制其鲁棒性和泛化能力的基本原因，并形式化和统一不同的解决方法来增加泛化能力并克服状态 - 动作值函数中的过拟合问题。我们相信我们的研究可以为当前深度强化学习的进展提供一个紧凑的系统统一分析，并有助于构建具有改进泛化能力的鲁棒深度神经策略。

Jan, 2024

强化学习中的稳定边缘现象研究

通过研究强化学习中的稳定性边界现象，发现优化动力学可以在不同的问题领域中发生转移，但深度强化学习的优化动力学在某些方面与监督学习不同。

Jul, 2023

如何折扣深度强化学习：走向新的动态策略

本文研究使用深度神经网络作为函数逼近器来解决逼近真实世界复杂度的强化学习问题。同时，我们探讨了折扣因子在深度 Q 网络（DQN）学习过程中所起的作用，实验结果表明在逐渐增加折扣因子值的情况下，可以显著降低 DQN 学习步骤的数量。当与变动的学习率一起使用时，其在多项实验中均优于原始 DQN，并将这一现象与神经网络在近似于动态规划设置中的不稳定性联系起来，同时描述了在学习过程中可能陷入局部最优解的可能性，从而将我们的讨论与探索 / 利用困境联系起来。

Dec, 2015

通过学习识别少而关键的状态进行一般政策评估和改进

在深度神经网络上，使用 Parameter-Based Value Functions 和 Policy Evaluation Networks 的 Actor-Critic 框架，学习单一价值函数来评估和改进 RL 策略，并通过学习少量的探测状态和行动映射来提取关于环境的重要抽象知识。

Jul, 2022

深度强化学习自动驾驶决策的揭秘

自适应驾驶决策中，深度强化学习模型的黑盒特性限制了实际应用，因此本研究工作关注一种基于注意力机制的可解释深度强化学习框架，并使用连续近端策略优化算法作为基准模型，在开源自适应驾驶仿真环境中加入了多头注意力机制。通过分析技术讨论模型的可解释性和因果关系，发现模型的第一个头部编码了邻近车辆的位置，而第二个头部则专注于领导车辆。此外，自车的动作在时空上受到目标车道上车辆的因果依赖。这些发现可帮助从业人员解读深度强化学习算法的结果。

Mar, 2024

深度神经网络的决策边界研究：实证研究

深度学习神经网络中决策边界的演变及其对抗训练的影响等领域的问题研究。

Feb, 2020

深度强化学习简要调查

深度强化学习是 AI 领域的一项重大进展，可以构建具有更高层次视觉世界理解能力的自主系统。本文综述了深度强化学习的中央算法，包括基于价值和基于策略的方法，并重点介绍了深度神经网络在强化学习中的独特优势，最后描述了该领域内的几个当前研究方向。

Aug, 2017