利用影响函数解释黑盒预测并揭示数据畸形

ACLMay, 2020

利用影响函数解释黑盒预测并揭示数据畸形

Explaining Black Box Predictions and Unveiling Data Artifacts through Influence Functions

Xiaochuang Han, Byron C. Wallace, Yulia Tsvetkov

TL;DR该研究探讨使用影响函数解释 NLP 模型的决策，并与基于词汇显著性的方法进行比较。该方法被发现特别适用于自然语言推理这样复杂的任务，并且还开发了一种基于影响函数的新的定量衡量方法，可以揭示训练数据中的人为制品。

Abstract

Modern deep learning models for nlp are notoriously opaque. This has motivated the development of methods for interpreting such models, e.g., via gradient-based saliency maps or the visualization of attention wei

deep learning nlp interpretability influence functions natural language inference

发现论文，激发创造

通过影响函数理解黑盒预测

本文提出使用影响函数技术来追踪黑盒模型预测的训练数据，并且证明了即使在非凸和不可导的模型中，影响函数的近似也可以提供有价值的信息。在线性模型和卷积神经网络中，通过使用影响函数，探究了模型行为、调试模型、检测数据集错误以及创建视觉上难以区分的训练集攻击等多个方面得到了实际的解决方案。

Mar, 2017

深度学习中的影响函数非常脆弱

本文举行了一项大规模实证研究，详细探究了影响函数在神经网络模型中的成功和失败，在浅层网络中影响估计值相对准确，在深层网络中影响估计值通常是错误的，特定的神经网络结构和数据集，训练时使用重量减退正规化很重要以获得高质量的影响估计。

Jun, 2020

利用影响函数研究大型语言模型的泛化能力

影响函数为我们研究 LLMs 的泛化特性提供了强大的新工具，通过使用 EK-FAC 逼近和算法技术来扩展影响函数，我们能够高效地获得有关机器学习模型中关键训练示例的见解，并揭示出泛化模式的稀疏性、尺度的增加和关键短语顺序翻转的限制.

Aug, 2023

InfFeed: 以影响函数作为反馈来提高主观任务的性能

使用影响函数改进深度神经模型的性能并自动识别需要手动校正的数据点来提高模型性能，达到减少手动标注数据点数量的效果。

Feb, 2024

分析使用影响力函数在神经机器翻译中进行特定实例数据过滤

文章研究了影响函数在神经机器翻译（NMT）中的应用，提出了两个有效扩展，并证明在处理复制训练示例等子问题时，影响功能可以更广泛地应用于 NMT。

Oct, 2022

影响函数的理论和实践视角

通过理论分析和实验测试，我们发现影响函数在现代深度神经网络中存在参数发散的局限性，但仍可用于模型调试和纠正误预测。

May, 2023

序列标注模型的影响函数

本文通过使用影响函数测度的方法，扩展了序列标注模型的可解释性。作者通过度量标注段之间的影响，确定训练中误差的位置，从而提高了模型的准确性。

Oct, 2022

关于对抗样本的学习表示和影响函数的启示

通过邻近邻居和影响函数以及马氏距离两种方法，将图像处理中的对抗样本检测方法应用到 NLP 中，发现前者在多个强基线上与最新技术相比具有领先性能，同时，新颖的影响函数的使用揭示了 NLP 中对抗性样本的子空间性质与图像处理中的子空间性质的联系，以及它们在不同类型的 NLP 任务中的差异。

Sep, 2023

论影响函数、分类影响、相对影响、记忆和泛化

本文从化简计算的角度研究影响函数，讨论了少量参数下实现影响计算的假设，并证明影响值的符号可以指示训练点是记忆还是泛化，结果表明，即使是大规模的机器学习系统，影响函数也是可操作的，并且可以通过选择性地删除培训点来计算影响值，作为学习过程的一部分。

May, 2023

重新审视影响函数的脆弱性

通过验证和放松传统的凸性假设条件，并使用更深的模型和更复杂的数据集，我们研究了影响力函数的脆弱性，并分析了验证方法可能引起脆弱性的原因。

Mar, 2023