深度强化学习中的对抗策略优化
本论文对深度强化学习的过拟合现象进行了系统研究,发现过拟合可能会以不同方式发生,并且常用的随机性技术不一定能有效检测或预防过拟合,因此需要更加严谨的评估协议并研究感性偏差对泛化行为的影响。
Apr, 2018
本研究提出了一种名为Reinforcement Learning with Augmented Data的加强数据的强化学习算法,将图像数据进行数据增强、使用深度神经网络等算法,提取出了数据效率、推广性等方面的关键特征。实验结果表明,该算法可以在DeepMind和OpenAI Gym等常见测试用例中优于当前最先进的算法。
Apr, 2020
本文通过比较三种方法,探究如何寻找适当的数据增强方式,并结合两个新的正则化项,以理论上的方式为某些 actor-critic 算法的数据增广提供支持,最终在 Procgen 基准测试上展示了在相对于标准 RL 算法提高了 ~40% 的测试性能。我们的代理优于其他针对 RL 中泛化改进的基线。此外,我们还展示了我们的代理学习出更能适应环境变化的策略和表示,包括不保留背景信息的变化。
Jun, 2020
本文提出了SOft Data Augmentation(SODA)方法,通过在编码器上施加约束,最大化增强和非增强数据的潜在表示之间的互信息,从而提高强化学习的样本效率、泛化能力和稳定性,实验表明该方法显著优于最先进的基于视觉的RL方法。
Nov, 2020
研究了在常见的离线政策RL算法中使用数据增强时不稳定性的原因,并提出了一种简单而有效的技术来稳定此类算法。在基于DeepMind Control Suite的一系列基准以及机器人操纵任务中,我们的方法极大地提高了ConvNets在增强下的稳定性和样本效率,并在具有未见视觉的环境中实现了与基于图像的RL中最先进方法的竞争性结果,同时证明了我们的方法可扩展到基于ViT的体系结构的RL。
Jul, 2021
本文介绍了一种名为Robust Policy Optimization的算法,该算法应用于强化学习中,利用扰动分布来提高策略的熵,提高探索性能,取得了比PPO等算法更好的性能表现,并在多个环境中表现出鲁棒性能。
Dec, 2022
本文介绍了针对强化学习(RL)的数据增强技术,旨在提高 RL 算法在不同环境下的表现效果,包括引入噪声、探索状态空间和改善训练数据的多样性。作者提出了两种新的增强技术,并在三种常用的 RL 算法和五个 MuJoCo 环境中进行实验研究,结果表明增强技术对增加回报有积极作用。
May, 2023
提出了一种名为HIPODE的数据增强方法,它可以为任何离线强化学习过程提供一种通用的插件方法,使用负采样技术选择可能具有高价值的候选状态附近的状态来生成高质量的合成数据,并在D4RL基准测试中优于最先进的无策略数据增强方法和大多数流行的基于模型的离线强化学习方法。
Jun, 2023
该论文提出了一种算法,旨在通过消除对混淆特征的过度拟合来提高强化学习代理的泛化能力。我们的方法包括一个最大最小博弈论的目标,其中一个生成器在强化学习过程中传递观察的风格。生成器的额外目标是扰动观察,从而最大化代理采取不同行动的概率,而策略网络通过更新参数来最小化这种扰动的影响,同时最大化预期的未来奖励,从而保持稳健性。基于这一设置,我们提出了一种实用的深度强化学习算法ARPO(对抗鲁棒策略优化),以找到一个能够适应未知环境的鲁棒策略。我们在Procgen和Distracting Control Suite上评估了我们的方法的泛化能力和样本效率。实验证明,与一些基线算法(包括数据增强)相比,ARPO展现出了更好的性能。
Aug, 2023
通过利用深度神经网络解决高维状态或动作空间中的问题,强化学习研究在许多领域获得了显著的成功和关注。本文将概述深度强化学习策略遇到过拟合问题从而限制其鲁棒性和泛化能力的基本原因,并形式化和统一不同的解决方法来增加泛化能力并克服状态-动作值函数中的过拟合问题。我们相信我们的研究可以为当前深度强化学习的进展提供一个紧凑的系统统一分析,并有助于构建具有改进泛化能力的鲁棒深度神经策略。
Jan, 2024