揭示神经网络在参数学习和防御中的漏洞与对抗解释感知后门

Mar, 2024

揭示神经网络在参数学习和防御中的漏洞与对抗解释感知后门

Revealing Vulnerabilities of Neural Networks in Parameter Learning and Defense Against Explanation-Aware Backdoors

Md Abdul Kadir, GowthamKrishna Addluri, Daniel Sonntag

TL;DR通过统计分析卷积神经网络中的权重变化，我们设计了一种方法来防御现代可解释性对抗攻击，成功率下降了 99%，原始解释和防御后（攻击后）解释的均方误差减少了 91%。

Abstract

explainable artificial intelligence (XAI) strategies play a crucial part in increasing the understanding and trustworthiness of neural networks. Nonetheless, these techniques could potentially generate misleading

explainable artificial intelligence neural networks misleading explanations blinding attacks cnn weights

发现论文，激发创造

可解释人工智能中的对抗攻击和防御：一项调查

该论文对 50 多篇与机器学习模型解释袭击和公正性度量有关的研究进行了简要综述，并讨论了如何防御攻击和设计稳健的解释方法。该论文提出了现有 XAI（可解释人工智能）不安全因素的列表，并概述了 Adversarial XAI（AdvXAI）的新兴研究方向。

Jun, 2023

深度神经网络的解释处理

本文发现了一个问题：通过微调输入图像，我们可以演示图像识别的解释方式可以通过进化策略对其进行任意操作。通过我们的 Adversarial XAI 算法 AttaXAI，我们能够在不使用梯度或其他模型内部的情况下，成功地在黑盒设置下操作解释方法，从而实现了对图像做微小改变却使 XAI 方法输出特定解释的目标。

Nov, 2022

利用解释进行模型反演攻击

研究了解释型人工智能提供的隐私侵犯风险，以及通过多模态转置 CNN 架构和注意力转移等技术实现图像模型反转攻击，提高模型反转性能的方法。

Apr, 2021

图像活动预测及其自然语言解释的黑盒攻击

解释性人工智能 (XAI) 方法旨在描述深度神经网络的决策过程。本文首次评估基于自我合理化的图像识别模型生成的自然语言解释在黑盒攻击下的鲁棒性，我们通过对预测结果和相应解释之间的关联进行空间上的无限制、变异性的干扰来误导模型生成不忠实的解释。我们表明，即使只能访问模型的最终输出，我们也能通过创建对抗性图像来操纵活动识别模型的解释。

Sep, 2023

探讨可解释人工智能方法对地球科学中卷积神经网络应用的保真度

本文通过对最流行的 XAI 方法的比较和探究它们在地球科学应用中的准确性，强调了 XAI 方法在 CNN 决策方法解释方面的重要性和局限性，并通过应用于气候相关预测来说明，帮助深层学习方法更好地用于预测问题

Feb, 2022

网络安全可解释人工智能调查

通过对网络系统中的网络驱动安全威胁和问题进行系统分类，本文就网络安全中的可解释人工智能问题进行了回顾和研究，探讨了解释人工智能目前的挑战和局限性，并提出了未来的研究方向。

Mar, 2023

分析开放存储库中 AI 视觉模型在对抗攻击下的质量属性

我们提出了一个集成的过程，用于验证 AI 模型的准确性、评估其鲁棒性以及比较解释效用，并展示了六种计算机视觉模型在不同扰动和 XAI 方法下的评估结果。

Jan, 2024

可解释人工智能在数据驱动系统中的隐私影响

机器学习模型的不透明性威胁到其可解释性，可解释人工智能（XAI）技术通过提供解释 ML 模型内部决策过程的框架和方法来解决这一挑战，同时维护隐私的难题需要在理解 ML 决策和保护隐私之间找到平衡点。

Jun, 2024

对抗攻击解剖：基于概念的可解释人工智能剖析

敌对攻击对深度神经网络的可靠性和鲁棒性构成重大威胁。本文通过使用可解释的人工智能技术对敌对攻击对卷积神经网络学习的概念的影响进行了深入分析，通过在多种网络架构和有针对性的敌对攻击技术上进行广泛实验，揭示了几个关键发现，包括敌对攻击在特征空间中引入新概念或修改现有概念、敌对扰动可以线性分解为一组潜在矢量分量，并且其中的一个子集负责攻击的成功等。这些发现对敌对攻击的本质和对学习表示的影响提供了有价值的见解，为开发更加强大和可解释的深度学习模型以及有效的防御策略铺平了道路。

Mar, 2024

您能相信您的解释吗？特征归因方法的健壮性测试

评估对非敌对扰动的稳健性并分析神经网络和表格数据集上应用的可解释 AI 方法的稳健性，展示如何利用流形假设和集成方法对稳健性进行深入分析。

Jun, 2024