Oct, 2022

最坏情况感知鲁棒强化学习:高效无攻击对抗训练

TL;DR本文提出了一种强大且高效的深度强化学习鲁棒训练框架 WocaR-RL,通过直接估计和优化有界 l_p 攻击下策略的最坏情况奖励,而不需要额外的学习攻击者样本,能够在多个环境下实现最先进的性能,并获得比先前最先进的强化训练方法更高的训练效率。