深度强化学习策略跨 MDP 学习共享对抗特征

AAAIDec, 2021

深度强化学习策略跨 MDP 学习共享对抗特征

Deep Reinforcement Learning Policies Learn Shared Adversarial Features Across MDPs

Ezgi Korkmaz

TL;DR本文探讨和提出了一种框架，用于研究深度强化学习中跨状态和跨马尔可夫决策流程（MDPs）的决策边界和损失景观相似性，并发现高敏感性方向支持非鲁棒特征在训练环境中的共享，这一结果揭示了深度强化学习的基本特性，为构建稳健可靠的深度强化学习代理迈出了实质性的步伐。

Abstract

The use of deep neural networks as function approximators has led to striking progress for reinforcement learning algorithms and applications. Yet the knowledge we have on →

deep neural networks reinforcement learning decision boundary loss landscape robust features

发现论文，激发创造

深度强化学习的理解与诊断

利用神经网络构建的深度神经决策模型在不同领域中得到广泛应用，但深度神经网络在近似值函数时可能会导致决策边界的稳定性问题，特别是对于高度非凸和复杂的神经网络结构，不可识别、非鲁棒特征对策略决策有较大敏感性。因此，有必要开发能够理解神经网络策略学习中敏感性的技术。本研究介绍了一种理论基础的方法，系统分析了深度神经决策边界在时间和空间上的不稳定方向。通过实验在 Arcade Learning Environment (ALE) 中，我们展示了该方法在识别相关不稳定方向以及测量样本偏移对神经网络策略学习中敏感方向集合的影响方面的有效性。最重要的是，我们证明了最先进的鲁棒训练技术相对于标准训练方法在学习不相交的不稳定方向时，随着时间的推移产生更大的振荡。我们相信这些结果揭示了强化学习策略的决策过程的基本属性，并能帮助构建可靠而稳健的深度神经策略。

Jun, 2024

对抗性鲁棒深度强化学习需要重新定义鲁棒性

本文探讨了深度强化学习策略中的鲁棒性问题，发现通过更自然的方式在黑盒设置中可以找到灵敏度方向，且相较于最先进的对抗性训练技术，普通训练技术可以使学习到的策略更加鲁棒。该实验结果可以为构建更加鲁棒的深度强化学习策略提供帮助。

Jan, 2023

在深度强化学习中检测对抗方向以作出鲁棒决策

这篇文章提出了一种检测存在非鲁棒方向的新方法，基于深度神经网络策略损失的局部二次逼近，解决了在强化学习中高度复杂状态下存在的政策不稳定问题，并证明了其在对抗攻击环境中的有效性。

Jun, 2023

针对状态观测的鲁棒深度强化学习对抗扰动

通过提出状态对抗马尔可夫决策过程 (SA-MDP) 的理论框架和一种新的策略正则化方法，并在多个强白盒对抗攻击中测试，我们成功地提高了一系列深层强化学习算法在离散和连续动作控制问题上的鲁棒性。

Mar, 2020

深度强化学习用于自适应学习系统

本文提出了一种采用马尔可夫决策过程（MDP）的无模型强化学习算法 --- 深度 Q 学习算法来找到最优化的自适应学习策略，同时开发了一个转移模型估计器来优化数据利用，实验结果表明该算法在自适应学习领域有着较高的效率。

Apr, 2020

基于分布鲁棒的强化学习基础探讨

鉴于训练和部署之间环境变化的需求，我们对分布稳健强化学习（DRRL）的理论基础做出贡献。通过一个以分布稳健马尔可夫决策过程（DRMDPs）为核心的综合建模框架，我们严谨地构建了适用于决策者和对手的各种建模属性。此外，我们还研究了对手引起的偏移的灵活性，并检验了动态规划原理的存在条件。从算法的角度来看，动态规划原理的存在具有重要意义，因为大多数现有的数据和计算效率强化学习算法依赖于该原理。我们提供了从统一方法论出发的简化证明以及不存在全面广义动态规划原理的场景的反例。

Nov, 2023

具有策略预算的个性化强化学习

个性化机器学习中，我们提出了一种名为 r-MDPs 的框架，通过与一小组代表性策略的交互来满足多样化的用户群体，并同时优化这些策略以最大化整体社会福利。通过两种深度强化学习算法，我们在多个模拟环境中进行了实证研究，展示了这些算法在有限的策略预算下实现有意义的个性化，并具有可扩展性，能够适应更大的策略预算。

Jan, 2024

共同体多智能体强化学习的参数共享深度确定性策略梯度

本文探讨基于 actor-critic 方法的合作多智能体问题，在局部观察设置下，在神经网络的基础上提出了参数共享确定性策略梯度方法，包括演员评论家共享、演员共享和部分共享评论家的演员共享等三个变体，该方法在学习速度、内存效率和智能体数量方面具有优势，并能充分利用奖励共享和交换特性。

Oct, 2017

深度强化学习中的对抗策略优化

本文提出了一种新的强化学习算法 APO，该算法利用 max-min 博弈理论减轻数据扩充带来的过拟合问题，提高了学习策略的效率，并对几个 DeepMind 控制机器人环境的高维度和噪声状态设置进行了评估。实证结果表明，我们的方法 APO 在性能上始终优于最先进的基于策略的 PPO 代理，并且与最先进的数据增强，RAD 和基于正式的 DRAC 等方法进行了比较。

Apr, 2023

深度策略梯度的深入探讨

研究了深度策略梯度算法的行为如何反映驱动其发展的概念框架，并提出了对最先进方法的细粒度分析。结果表明，深度策略梯度算法的行为经常偏离其驱动框架所预测的行为，这表明了我们对当前方法的了解不足，并提示需要超越当前基准中心的评估方法。

Nov, 2018