Jun, 2021

可验证强化学习的策略平滑算法

TL;DR本文针对强化学习中的深度神经网络,提出了一种能够直接认证总奖励且无需在每一时间步骤都保持鲁棒性的有效方法,其中使用了采样平滑和基于样条插值的鲁棒性证明。