选择性输入梯度正则化的政策蒸馏以实现高效可解释性

May, 2022

选择性输入梯度正则化的政策蒸馏以实现高效可解释性

Policy Distillation with Selective Input Gradient Regularization for Efficient Interpretability

Jinwei Xing, Takashi Nagata, Xinyun Zou, Emre Neftci, Jeffrey L. Krichmar

TL;DR本研究提出了一种称作 Distillation with selective Input Gradient Regularization (DIGR) 的方法，利用政策精炼和输入梯度正则化生成新政策，从而实现生成适用于实景且高效的可解释性 saliency 激活图。实验证明，该方法能够提高 RL 政策在多个对抗攻击下的鲁棒性，并且在 MiniGrid（Fetch Object）、Atari（Breakout）和 CARLA 自动驾驶任务上表现出良好的效果。

Abstract

Although deep reinforcement learning (RL) has proven successful in a wide range of tasks, one challenge it faces is interpretability when applied to real-world problems. saliency maps are frequently used to provi

deep reinforcement learning saliency maps policy distillation input gradient regularization robustness

发现论文，激发创造

基于显著性引导的 Q - 网络在视觉强化学习中的泛化

本研究通过引入基于显著性的 Q 网络（SGQN），提出了一种通用的视觉强化学习方法，该方法对 Deepmind 的控制泛化基准进行了改进，从而在训练效率、泛化差距和策略可解释性等方面创造了新纪录。

Sep, 2022

基于显著性引导训练的深度学习解释性改进

本文介绍了一种基于显著性引导培训的神经网络方法，可以有效降低噪声导致的特征归因不准确，并通过实验表明这种方法能够在保持预测性能的同时提高模型可解释性。

Nov, 2021

ViSaRL：人眼显著性引导的视觉强化学习

用基于视觉显著性引导的强化学习（ViSaRL）来训练机器人从高维像素输入中执行复杂的控制任务，通过优化视觉表征，ViSaRL 显著提高了强化学习代理在不同任务上的成功率、样本效率和泛化能力。

Mar, 2024

可解释梯度的学习范式

本论文研究了卷积网络的可解释性，通过利用显著性图进行分析。我们提出了一种新的训练方法，通过引入正则化损失，使标准反向传播得到的输入图像相对于引导反向传播得到的梯度类似。我们发现，由此得到的梯度在质量上更加清晰，量化上改善了不同网络的可解释性特性，使用了多种可解释性方法。

Apr, 2024

策略蒸馏

本文介绍了一种称为 Policy Distillation 的新方法，它可以从强化学习代理中提取策略并训练出一个性能表现优异的、更小而且更高效的网络。同时，这种方法还可以将多个任务特定策略合并为一个策略并应用到 Atari 游戏中，在实验中，这个多任务提炼代理的表现要比单任务老师或联合训练的 DQN 代理更优秀。

Nov, 2015

基于范数正则化的结构化梯度解释方法

通过对简单梯度方案进行稀疏性及连接性调整，采用对抗训练作为一种内部处理方案，设计并展示了基于正则化的对抗训练方法对标准神经网络架构在基准图像数据集上的梯度图产生的影响。

Apr, 2024

SAFE-RL：针对深度强化学习策略的显著性感知因果解释器

深度强化学习在复杂控制任务中显示出了极大的潜力，然而学习策略的不可解释性限制了其在安全关键应用（如自动驾驶系统）中的应用。为了解决这些问题，本文提出了一种使用显著性地图识别代理过去观测状态序列中影响力最大的输入像素，并将该地图馈送到深度生成模型中的方法，从而实现在显著区域进行约束修改的可信 Counterfactual 示例的生成。通过多个领域的实验结果表明，该方法能够在广泛的环境和深度强化学习代理中生成更加信息丰富和可信的 Counterfactual 示例。

Apr, 2024

选择性输入梯度正则化的雅可比范数用于改进和解释可行对抗防御

本文提出了一种基于 Jacobian 规范和选择性输入梯度正则化（J-SIGR）的新方法，从 Jacobian 规范的线性化健壮性建议，并控制基于扰动的显著性图以模仿模型的可解释预测，这既实现了改进的防御又实现了 DNN 的高可解释性。

Jul, 2022

基于梯度的黑盒显著图生成的前向学习

我们引入了一种新的统一框架，用于在黑盒模型中估计梯度并生成显著性地图以解释模型决策。我们采用似然比方法来估计输出到输入的梯度，并利用它们来生成显著性地图。此外，我们提出了块计算技术来提高估计精度。在黑盒模型中进行的大量实验证实了我们方法的有效性，表明准确估计梯度并生成的显著性地图能够解释模型的决策。此外，我们将该方法应用于解释 GPT-Vision，展示了在大规模、闭源和黑盒模型时梯度解释方法的可伸缩性。

Mar, 2024

InstructRL4Pix：通过强化学习训练图像编辑的扩散

通过使用增强学习引导图像编辑方法（InstructRL4Pix）来生成由目标对象的注意力地图引导的图像扩散模型，该方法通过计算注意力地图之间的距离作为奖励函数来最大化奖励模型的输出，并使用邻近策略优化（PPO）对扩散模型进行微调，以实现基于自然人命令的准确图像编辑。实验证实 InstructRL4Pix 突破了传统数据集的限制，利用无监督学习来优化编辑目标，并实现了精确的图像编辑。

Jun, 2024