Dec, 2017

具有对抗攻击的强化学习做法

TL;DR本文提出了针对强化学习的对抗攻击,并通过这些攻击提高了深度强化学习算法对参数不确定性的鲁棒性。我们展示了即使是一个简单的攻击也能成功降低深度强化学习算法的性能,并进一步使用工程丢失函数的梯度信息改进了攻击方法,导致性能进一步降低。这些攻击方法被用于训练中,以改善 RL 控制框架的鲁棒性。我们展示了在 Cart-pole,Mountain Car,Hopper 和 Half Cheetah 等 RL 基准测试环境中,对 DRL 算法进行对抗训练可以显著提高其对参数变化的鲁棒性。