ICLRJun, 2021

通过函数平滑证明强化学习的稳健策略

TL;DR本文介绍了一种名为 CROP 的统一框架,该框架旨在提供针对行动和奖励水平的稳健性认证,通过局部平滑算法和全局平滑算法来保证措施的鲁棒性。CROP 被用于评估几种现有的 RL 算法,包括 Atari 游戏和 Highway、CartPole 等环境,并证明了认证的准确性。