ICMLJun, 2024

突破障碍:平滑 DRL 代理程序中的增强效用和鲁棒性

TL;DR我们提出了 S-DQN 和 S-PPO 方法,通过对现有平滑代理的改进,在标准 RL 基准测试中显著提高了干净奖励、经验鲁棒性和鲁棒性保证,平均因子分别为 $2.16 imes$ 和 $2.13 imes$。此外,我们引入了 Smoothed Attack,比现有对抗性攻击方法降低平滑代理奖励的效果提高了 $1.89 imes$。