有界理性曲线下的鲁棒对抗强化学习

Nov, 2023

有界理性曲线下的鲁棒对抗强化学习

Robust Adversarial Reinforcement Learning via Bounded Rationality Curricula

Aryaman Reddi, Maximilian Tölle, Jan Peters, Georgia Chalvatzaki, Carlo D'Eramo

TL;DR基于熵正则化的量子对抗增强学习 (QARL) 是一种新方法，通过渐进式增加对手的理性来简化优化问题的复杂性，从而提高稳健性以及在多个 MuJoCo 运动和导航问题上的整体性能。

Abstract

robustness against adversarial attacks and distribution shifts is a long-standing goal of Reinforcement Learning (RL). To this end, Robust adversarial reinforcement learning (RARL) trains a protagonist against de

robustness adversarial reinforcement learning nash equilibrium entropy regularization quantal adversarial rl

发现论文，激发创造

风险厌恶稳健对抗强化学习

本文提出了一种风险规避的强化学习算法，通过引入风险规避主角和风险趋避对手的方式，使用价值函数方差来建模风险，避免极端不良事件的发生，该算法在自动驾驶控制器上的实验中证明具有较高的鲁棒性。

Mar, 2019

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

通过适应性规则对抗训练实现史塔克伯格博弈的坚韧强化学习

本文介绍了一种用于强化学习的 Stackelberg 游戏模型 ——RRL-Stack，旨在提供额外的鲁棒性训练和解决目前 RL 训练中存在的过度保守智能及训练不稳定等问题，并提出了一种基于 Stackelberg Policy Gradient 算法的解决方案，在单一和多智能体任务中展现更好的训练稳定性和鲁棒性。

Feb, 2022

基于反证法的强化学习鲁棒性敌对攻击

本文提出了基于 Falsification 的 Robust Adversarial Reinforcement Learning (FRARL) 框架，将时序逻辑 Falsification 整合到 Adversarial Learning 中以提高策略的鲁棒性，实验结果表明，采用该框架训练的智能体比其他方法更具有通用性和遵守安全规则的能力。

Jul, 2020

通过对抗式强化学习的强健市场做市

本研究证明对抗强化学习 (ARL) 可以用于产生适应性强、抗干扰的做市商代理。我们将 Avellaneda 和 Stoikov [2008] 的单一代理模型转化为做市商和对手之间的离散时间零和游戏，实验证明 ARL 方法的性能改善显著，收敛到纳什均衡。

Mar, 2020

使用对抗种群的鲁棒强化学习

利用强化学习中的对抗噪音和以聚集对手人口作为训练方法，改善了机器人领域中强化学习中的鲁棒性和泛化性能。

Aug, 2020

可行的针对不完全规定环境的对抗鲁棒强化学习

本文提出了可行的对抗性强化学习 (FARR) 方法来自动确定环境参数的范围，通过将该问题作为二人零和博弈，最优化 FARR 目标可以在可行支持上产生对抗性分布和策略鲁棒，在参数化的网格世界和三个 MuJoCo 控制环境中证明，使用 FARR 训练的优化代理相对于现有的极小化、域随机化和后悔目标在可行对抗参数选择上更具鲁棒性。

Jul, 2022

零和位置差分博弈作为鲁棒强化学习的框架：深度 Q 学习方法

该研究论文提出了鲁棒强化学习（RRL）通过考虑位置微分博弈理论中的 RRL 问题，给出了理论上的合理性，并发展了一种集中式 Q 学习方法。利用该方法，我们证明了在 Isaacs 的条件下（适用于现实世界的动态系统），同一个 Q 函数可以被用作最小最大化 Bellman 方程的近似解，基于这些结果，我们提出了 Isaacs 深度 Q 网络算法，并在不同环境中展示了它们相对于其他基线 RRL 和多智能体 RL 算法的优越性。

May, 2024

马尔可夫博弈中应对风险偏好的易处理均衡计算

通过赋予智能体风险厌恶和有限理性等人类决策要素，我们展示了一类风险厌恶量子响应均衡解（Risk-Averse Quantal Response Equilibria，RQE），不依赖于底层游戏结构而只依赖于智能体的风险厌恶程度和有限理性，在所有 n 个玩家矩阵和有限时域马尔可夫博弈中可以高效计算。此外，我们还通过实证经济学研究所涉及的许多两人矩阵游戏验证了这类解集的丰富性，并对在有生成模型的有限时域马尔可夫博弈中计算这些均衡的样本复杂度进行了首次分析，同时在简单的多智能体强化学习基准测试中验证了我们的发现。

Jun, 2024

实用鲁棒强化学习：邻域不确定性集和双代理算法

介绍了一种新的不确定性集合并基于此提出了一种名为 ARQ-Learning 的鲁棒强化学习方法，同时还提出一种能高效解决 ARQ-Learning 在大规模或连续状态空间下的问题的技术，最终将其应用于各种存在模型不确定性的强化学习应用中。

May, 2023