对奖励机器强化学习的对抗性攻击
本研究主要研究深度强化学习模型的脆弱性,针对相应的攻击方式进行了探究,并提出了黑盒攻击、在线顺序攻击等攻击方法来应对其高计算需求,同时探讨了攻击者扰动环境动态的可能性,并通过实验验证了这些攻击方式的有效性。
Jul, 2019
为确保强化学习在真实系统中的可用性,需要保证其对噪声和对抗性攻击具有鲁棒性。本文研究在线操纵攻击的全类攻击形式,包括状态攻击、观察攻击、行动攻击和奖励攻击。我们通过马尔可夫决策过程(MDP)对隐藏在攻击交互中的元级环境进行建模,并展示了该攻击者设计隐蔽攻击以最大化其预期收益(通常对应于减小受害者价值)的问题。我们证明攻击者可以通过规划或使用标准强化学习技术进行学习,以多项式时间或多项式样本复杂度确定最优攻击策略。我们认为受害者的最优防御策略可以通过解决随机 Stackelberg 博弈获得,该博弈可以简化为部分可观察的交替轮流随机博弈(POTBSG)。攻击者和受害者都不会从偏离各自最优策略中获益,因此这些解决方案具有真正的鲁棒性。虽然防御问题是 NP 困难的,但我们证明在许多情况下最优马尔可夫防御策略可以在多项式时间(样本复杂度)内计算(学习)。
Nov, 2023
本文针对电网控制系统的弱点进行研究,发现现有的强化学习算法存在敏感性,容易受到恶意攻击,提出了一种基于对抗训练的解决方案,以增强算法的安全性和鲁棒性。
Oct, 2021
本文提出了针对强化学习的对抗攻击,并通过这些攻击提高了深度强化学习算法对参数不确定性的鲁棒性。我们展示了即使是一个简单的攻击也能成功降低深度强化学习算法的性能,并进一步使用工程丢失函数的梯度信息改进了攻击方法,导致性能进一步降低。这些攻击方法被用于训练中,以改善 RL 控制框架的鲁棒性。我们展示了在 Cart-pole,Mountain Car,Hopper 和 Half Cheetah 等 RL 基准测试环境中,对 DRL 算法进行对抗训练可以显著提高其对参数变化的鲁棒性。
Dec, 2017
研究在决策类攻击领域提出了像素级决策驱动的黑盒攻击算法,该算法使用增强学习算法找到对抗性扰动分布,经实验证明,与现有技术相比更具攻击成功率和可转移性。
Nov, 2022
通过基于强化学习的新范例生成对抗性样本,我们对神经机器翻译系统如何失败的情况进行了探究,旨在暴露给定性能度量下的缺陷,我们对两种主流的神经翻译架构,RNN-search 和 Transformer,进行了敌对攻击的实验,结果表明我们的方法有效地生成了稳定的攻击和有保留含义的对抗性样本,同时,我们还展示了攻击偏好模式的定性和定量分析,证明我们的方法能够暴露神经翻译系统的缺陷。
Nov, 2019
用于嘈杂和不确定环境下的深度强化学习中,通过对任务结构进行利用,我们提出了一套 RL 算法,成功地提高了在词汇嘈杂的环境下的性能,从而为在部分可观察环境中利用 Reward Machines 提供了一个通用的框架。
May, 2024
研究团队提出使用奖励机器(RM)对协作多智能体强化学习中的团队任务进行编码,分解任务成子任务分配给个体智能体去完成,提出一种分布式完成子任务的算法,提供了一种自然去中心化学习的方法,并在实验中验证了所提出的方法非常有效。
Jul, 2020