ICLRMay, 2019

对抗策略:攻击深度强化学习

TL;DR在零和游戏的模拟人形机器人中,使用拥有不良意图的对手智能体可以生成表面上看似随机无序的行为,以攻击通过自我对弈训练而具有抵抗敌方攻击鲁棒性的最新受害者,尤其在高维度环境中更加有效,且可以诱导受害策略网络的不同反应。