通过人口训练降低漏洞利用

Aug, 2022

Reducing Exploitability with Population Based Training

Pavel Czempin, Adam Gleave

TL;DR通过种群训练对抗性方案以增加对手的多样性，从而提高自我对抗强化学习的鲁棒性。

Abstract

self-play reinforcement learning has achieved state-of-the-art, and often superhuman, performance in a variety of zero-sum games. Yet prior work has found that policies that are highly capable against regular opponents can fail catastrophically against →

发现论文，激发创造

强韧性对抗性强化学习

提出了一种稳健性的敌对训练(robust adversarial reinforcement learning, RARL)方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

通过对抗性集成强化学习在非对称不完美信息游戏中实现强大的对手建模

本文提出了一种算法框架，用于在不完美信息的非对称博弈中学习鲁棒策略，并通过对手建模来推断对手类型，使用多智能体强化学习技术通过自我博弈学习对手模型，并使用集成训练方法来提高策略的稳健性，借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。

Sep, 2019

使用对抗种群的鲁棒强化学习

利用强化学习中的对抗噪音和以聚集对手人口作为训练方法，改善了机器人领域中强化学习中的鲁棒性和泛化性能。

Aug, 2020

基于学习得到的优化对手的状态观测下鲁棒强化学习

研究了强化学习在面对敌对攻击(即使状态的扰动)时的鲁棒性，并提出了一种基于ATLA框架的方法来增强Agent的鲁棒性，通过训练online的对抗学习可以达到最优敌对攻击框架与提前学习历史数据等手段，从而提高强化学习在实验中的表现。

Jan, 2021

关于在观测扰动下安全强化学习的鲁棒性

本文研究了安全强化学习中观测对抗攻击的安全性和鲁棒性，并提出了两种新方法以最大化代价或奖励来攻击目标，同时提出了一种鲁棒性训练框架。

May, 2022

重新思考敌对政策：多智能体RL中的广义攻击公式与可证明防御

本文研究在强化学习的多智能体环境中，攻击者通过对受害者智能体进行对抗性的过程来实施攻击，并提出了一种更一般化的攻击模型，通过攻击预算来实现对智能体的控制，可产生能够利用受害者智能体的隐蔽性对抗策略，同时提供了首个提供收敛证明的保护方案，以对抗最强的对抗性训练。

May, 2023

高效对抗引导的强化学习鲁棒性优化

本研究引入了群体对抗训练方法以增强强化学习代理的鲁棒性和优化性能，通过在最优解决方案的近似嵌套和更加普适性的选取方式进行了验证。

Jun, 2023

对抗马尔可夫博弈：关于自适应基于决策的攻击与防御

通过理论和实证研究，我们解决自适应对手提出的挑战，并开发自适应防御策略，从而确定在部署在现实世界中的基于机器学习的系统中确保鲁棒性的有效方法。

Dec, 2023

走向强壮的策略：通过对抗攻击和防守增强离线强化学习

该研究提出了一个框架，通过利用先进的对抗攻击和防御来提高离线强化学习模型的稳健性，并以D4RL基准进行了评估，结果显示了演员和评论家对攻击的脆弱性以及防御策略在提高策略稳健性方面的有效性，为提高实际场景中离线强化学习模型的可靠性提供了希望。

May, 2024

具有动机的对手：对抗鲁棒性的战略性替代方案

通过战略建模，我们的研究提出使用对手的动机作为归纳偏差学习的一种方式，通过战略训练在不确定奖励条件下防御对手，此方法甚至对对手动机的轻微了解也能有用，潜在收益程度取决于动机与学习任务结构的关系。

Jun, 2024