对抗性强化学习中的错误最小化的概率视角

Jun, 2024

对抗性强化学习中的错误最小化的概率视角

Probabilistic Perspectives on Error Minimization in Adversarial Reinforcement Learning

Roman Belaire, Arunesh Sinha, Pradeep Varakantham

TL;DR深度强化学习中对抗性噪声的解决方法，包括使用正则化方法和引入 Adversarial Counterfactual Error 目标来提高鲁棒性。实证结果表明该方法在解决对抗 RL 问题上优于当前最先进的方法。

Abstract

deep reinforcement learning (DRL) policies are critically vulnerable to adversarial noise in observations, posing severe risks in safety-critical scenarios. For example, a self-driving car receiving manipulated s

deep reinforcement learning adversarial noise safety-critical scenarios regularization methods adversarial counterfactual error

发现论文，激发创造

基于遗憾的优化方法用于强化学习的鲁棒性

该论文提出一种更为积极的方法改进深度强化学习中的强健性，采用最小化最大后悔作为优化方法，并证明该方法可显著提高性能。

Feb, 2023

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

风险厌恶稳健对抗强化学习

本文提出了一种风险规避的强化学习算法，通过引入风险规避主角和风险趋避对手的方式，使用价值函数方差来建模风险，避免极端不良事件的发生，该算法在自动驾驶控制器上的实验中证明具有较高的鲁棒性。

Mar, 2019

ReLU 拯救：通过正 Advantage 改进你的 On-Policy Actor-Critic 模型

本文介绍了一种用于加强 on-policy 进行深度强化学习（DRL）算法的有效性的新方法，通过在价值函数估计中加入了保守性指标，同时使用 Thompson sampling 来实现谨慎探索，改进了现有算法，从而在多个基准中进行了严格的实证评估，并提供了理论证明，表明了新算法的可行性，特别是在多智能体强化学习中。

Jun, 2023

最坏情况感知鲁棒强化学习：高效无攻击对抗训练

本文提出了一种强大且高效的深度强化学习鲁棒训练框架 WocaR-RL，通过直接估计和优化有界 l_p 攻击下策略的最坏情况奖励，而不需要额外的学习攻击者样本，能够在多个环境下实现最先进的性能，并获得比先前最先进的强化训练方法更高的训练效率。

Oct, 2022

健壮深度学习作为最优控制：洞见和收敛保证

研究了深度学习算法中存在的对抗性攻击问题，提供了一种新的对抗性训练算法，通过将最小 - 最大问题解释为最优控制问题进行优化，从而大幅度提高训练时间，并通过实验证明了该算法的稳定性和收敛性。

May, 2020

深度强化学习的认证对抗鲁棒性

本文研究基于深度神经网络的自主决策系统的安全性，提出了一种基于认证对抗鲁棒性的在线防御机制，该机制计算执行过程中状态 - 动作值的保证下限，以在可能存在对手或噪声导致输入空间最差情况偏离选择最佳行动，在行人碰撞回避场景和一个经典控制任务中，该方法显示出提高对噪声和对手的鲁棒性。

Oct, 2019

深度强化学习在自主网络操作中的应用调查

近年来网络攻击数量的快速增加使得有必要提出原则性方法来防御恶意行为者。深度强化学习已成为一种有望减轻这些攻击的方法，但在大规模应用于自主网络操作之前，需要克服许多挑战。本文调研了相关的深度强化学习文献，并构思了一个理想的自主网络操作的深度强化学习代理，提供了领域特性概要、深度强化学习方法与自主网络操作之间的比较、扩展深度强化学习的方法以应对高维状态空间挑战以及限制对抗环境中代理利用性的现有方法的概述和评价，并提出未来的研究问题。

Oct, 2023

SAAC: 基于扮演者 - 评论者对抗博弈的安全强化学习

本文提出了一种利用最大熵 RL 和安全性对抗指导的 SAAC 框架，能够有效解决在现实世界系统中，风险或安全性是一个约束的问题，同时它也能够满足不同的安全性标准。

Apr, 2022

分布鲁棒性的瞬间

在分布鲁棒学习中，我们引入了基于对抗性矩违规的新的极小极大目标，并展示了通过最小化该目标等效于最小化与真实条件期望的最坏情况下的 $l_2$ 距离，从而在计算成本上提供了大体量的经验性节省。

May, 2024