Dec, 2017

深度强化学习:不死之身的秘诀

TL;DR本文调查了深度强化学习网络在训练时间和测试时间的对抗攻击中的鲁棒性,结果显示在非连续的训练时间攻击中,通过调整策略,Deep Q-Network (DQN) 代理能够恢复和适应对抗条件,相比较 ε- 贪婪和参数空间噪声探索方法,本文还对鲁棒性和抗干扰性进行了比较。