Feb, 2024

深度强化学习中对抗输入的分析

TL;DR通过正式验证的视角,我们对敌对输入的特征进行了全面分析,提出了一种新的指标 —— 敌对率,用于划分模型对此类扰动的敏感性,并提供了计算该指标的一系列工具和算法。我们的分析在实证上展示了敌对输入如何影响给定深度强化学习系统在敏感性方面的安全性,并分析了这些配置的行为,提出了一些有用的实践和指导方针,以帮助减轻训练深度强化学习网络的脆弱性。