稳定和鲁棒解释性的聚合方法
本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击,结果表明,输入语句及其语义的微小改变可以在很大程度上扰乱解释方法,达到 86% 的成功率。
Jun, 2022
本研究提出了一种理论框架和三种不同技术来提高对解释的稳健性。通过训练方法,激活函数的平滑以及网络 Hessian 的最小化,实现了对提高模型的抗干扰能力。实验结果证实了这些方法的有效性。
Dec, 2020
本文介绍了解释深度神经网络的渐变解释性方法,讨论了这些方法如何评估其鲁棒性以及鲁棒性在产生有意义的解释方面的作用,并探讨了渐变方法的局限性和选择解释方法之前应该考虑的最佳实践和属性。
Jul, 2021
该论文旨在通过将不同方法或其变种的多个解释结合起来,系统地提高特征归因的质量,从而改进理解和验证复杂的机器学习模型的预测,该组合策略在多个模型架构和流行的特征归因技术中始终优于个别方法和现有基准。
Jun, 2024
本文建立了计算机安全领域中解释方法的标准,并研究了六种广泛应用的解释方法在恶意软件检测和漏洞发现中的效用,并得出了选择和应用计算机安全领域解释方法的一般建议。
Jun, 2019
近年来,神经网络展示出了从原始数据中识别复杂模式和关系的卓越能力。然而,理解这些黑盒模型的内部机制仍具挑战性,但对于高风险决策至关重要。我们的研究通过调查解释的基本和分布行为来解决这种困惑。此外,通过全面的模拟研究,我们展示了常见缩放和编码技术对解释质量的影响,评估它们在不同效应大小中的功效,并展示了基于排序的评估指标的不一致性的来源。
Apr, 2024
该文提出了一种名为 “可解释的几何深度网络” 的端到端学习方法,用于在高维数据中实现精细的可解释性,例如神经成像和神经科学研究。该方法采用学习解释性因素来增强鉴别性表示提取,以实现可解释的预测和分类结果。
Jan, 2023