May, 2022

选择性输入梯度正则化的政策蒸馏以实现高效可解释性

TL;DR本研究提出了一种称作 Distillation with selective Input Gradient Regularization (DIGR) 的方法,利用政策精炼和输入梯度正则化生成新政策,从而实现生成适用于实景且高效的可解释性 saliency 激活图。实验证明,该方法能够提高 RL 政策在多个对抗攻击下的鲁棒性,并且在 MiniGrid(Fetch Object)、Atari(Breakout)和 CARLA 自动驾驶任务上表现出良好的效果。