Dec, 2023

策略平滑强化学习的奖励认证

TL;DR本文提出了一种通用的黑盒认证方法,能够在各种 $l_p$ 范数边界扰动下直接认证平滑策略的累积奖励,并扩展了在动作空间上认证扰动的方法。我们利用 f - 分布度量原始分布与扰动分布之间的差异,并通过求解凸优化问题确定认证边界。理论分析和实验结果表明,我们的方法不仅提高了平均累积奖励的认证下界,而且比最先进的技术更高效。