ICLRJun, 2021

谁是最强的敌人?走向深度强化学习中最优和高效的规避攻击

TL;DR本文提出了一种协作攻击方法 PA-AD,它通过将一个动态规划算法模型和一个强化学习模型进行合作,能够更加高效地找到最强的对策,实现在多个任务中求得强化学习代理的鲁棒性。