通过引导机缘式课程的自助强化学习

Jun, 2022

通过引导机缘式课程的自助强化学习

Robust Deep Reinforcement Learning through Bootstrapped Opportunistic Curriculum

Junlin Wu, Yevgeniy Vorobeychik

TL;DR论文提出了一种新颖的灵活的对抗课程学习框架Bootstrapped Opportunistic Adversarial Curriculum Learning(BCL)，通过对先前阶段的多次运行的最高质量解决方案进行保守自举，并机遇地跳过课程，实现了学习策略对对抗扰动的鲁棒性。实验表明，在Pong游戏中，该框架可使所学策略对最大255倍的扰动具有稳健性；相比之下，现有最佳方法只能承受最大5倍的对抗噪声。

Abstract

Despite considerable advances in deep reinforcement learning, it has been shown to be highly vulnerable to adversarial perturbations to state observations. Recent efforts that have attempted to improve adversaria

发现论文，激发创造

强韧性对抗性强化学习

提出了一种稳健性的敌对训练(robust adversarial reinforcement learning, RARL)方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

使用对抗种群的鲁棒强化学习

利用强化学习中的对抗噪音和以聚集对手人口作为训练方法，改善了机器人领域中强化学习中的鲁棒性和泛化性能。

Aug, 2020

对抗性损失下的鲁棒深度强化学习

该研究提出了RADIAL-RL框架，以提高深度强化学习代理的鲁棒性，经实验表明，RADIAL-RL代理在对抗攻击下的性能表现出色，同时提出了一种新的评估方法，称为Greedy Worst-Case Reward (GWC)。

Aug, 2020

可验证强化学习的策略平滑算法

本文针对强化学习中的深度神经网络，提出了一种能够直接认证总奖励且无需在每一时间步骤都保持鲁棒性的有效方法，其中使用了采样平滑和基于样条插值的鲁棒性证明。

Jun, 2021

最坏情况感知鲁棒强化学习：高效无攻击对抗训练

本文提出了一种强大且高效的深度强化学习鲁棒训练框架WocaR-RL，通过直接估计和优化有界l_p攻击下策略的最坏情况奖励，而不需要额外的学习攻击者样本，能够在多个环境下实现最先进的性能，并获得比先前最先进的强化训练方法更高的训练效率。

Oct, 2022

对抗性鲁棒深度强化学习需要重新定义鲁棒性

本文探讨了深度强化学习策略中的鲁棒性问题，发现通过更自然的方式在黑盒设置中可以找到灵敏度方向，且相较于最先进的对抗性训练技术，普通训练技术可以使学习到的策略更加鲁棒。该实验结果可以为构建更加鲁棒的深度强化学习策略提供帮助。

Jan, 2023

深度强化学习中的稳健策略优化对抗风格转移

该论文提出了一种算法，旨在通过消除对混淆特征的过度拟合来提高强化学习代理的泛化能力。我们的方法包括一个最大最小博弈论的目标，其中一个生成器在强化学习过程中传递观察的风格。生成器的额外目标是扰动观察，从而最大化代理采取不同行动的概率，而策略网络通过更新参数来最小化这种扰动的影响，同时最大化预期的未来奖励，从而保持稳健性。基于这一设置，我们提出了一种实用的深度强化学习算法ARPO（对抗鲁棒策略优化），以找到一个能够适应未知环境的鲁棒策略。我们在Procgen和Distracting Control Suite上评估了我们的方法的泛化能力和样本效率。实验证明，与一些基线算法（包括数据增强）相比，ARPO展现出了更好的性能。

Aug, 2023

通过对抗正则化实现稳健的多智能体强化学习：理论基础和稳定算法

通过控制一个策略的利普希茨常数，我们展示了在固定条件下的利普希茨和接近最优策略的存在，并基于此提出了新的强健 MARL 框架 ERNIE，通过对状态观测和动作进行对抗性正则化来提高其的利普希茨连续性，并展示了在交通灯控制和粒子环境中的广泛实验。另外，我们扩展了ERNIE到基于分布鲁棒优化的mean-field MARL，该方法在性能上超越了非强健对照组，并具有独立因素。

Oct, 2023

通过对抗攻击和训练的强大深度强化学习：一项综述

深度强化学习可以通过对抗训练提高其鲁棒性和可靠性，本研究对当代对抗性攻击方法进行了深入分析和分类，以提高深度强化学习代理的鲁棒性。

Mar, 2024

走向强壮的策略：通过对抗攻击和防守增强离线强化学习

该研究提出了一个框架，通过利用先进的对抗攻击和防御来提高离线强化学习模型的稳健性，并以D4RL基准进行了评估，结果显示了演员和评论家对攻击的脆弱性以及防御策略在提高策略稳健性方面的有效性，为提高实际场景中离线强化学习模型的可靠性提供了希望。

May, 2024