FastIF:面向高效模型解释和调试的可扩展影响函数
通过使用广义的影响函数进行参数分析,并采用鲁棒的逆 - Hessian - 向量积逼近方法解决计算不稳定性,我们提出了一种可在各种人工智能领域中用于模型分析的多功能工具。
Dec, 2023
本文研究了影响函数在深度网络中不稳定的问题,并提出了一种基于类别信息的解决方案,经过大量实验表明我们的修改不仅显著提高了影响函数的性能和稳定性,而且不会带来额外的计算成本。
May, 2023
本文举行了一项大规模实证研究,详细探究了影响函数在神经网络模型中的成功和失败,在浅层网络中影响估计值相对准确,在深层网络中影响估计值通常是错误的,特定的神经网络结构和数据集,训练时使用重量减退正规化很重要以获得高质量的影响估计。
Jun, 2020
文章研究了影响函数在神经机器翻译(NMT)中的应用,提出了两个有效扩展,并证明在处理复制训练示例等子问题时,影响功能可以更广泛地应用于 NMT。
Oct, 2022
影响函数为我们研究 LLMs 的泛化特性提供了强大的新工具,通过使用 EK-FAC 逼近和算法技术来扩展影响函数,我们能够高效地获得有关机器学习模型中关键训练示例的见解,并揭示出泛化模式的稀疏性、尺度的增加和关键短语顺序翻转的限制.
Aug, 2023
本文利用神经切线核理论计算对于带拉格朗日正则化均方损失训练的神经网络的影响函数。通过理论分析,证明了在 ReLU 网络的两个层的宽度足够大时,误差可以任意小。此外,案例分析了 IHVP 方法在过度参数化区域的误差限制及其相关性。实验结果验证了理论分析的正确性。
Dec, 2021
我们提出了 DataInf,一种高效的影响力近似计算方法,可用于大规模生成型 AI 模型。通过利用易于计算的闭合形式表达式,DataInf 在计算和内存效率方面优于现有的影响力计算算法。我们的理论分析表明,DataInf 特别适用于 LoRA 等参数效率高的微调技术。通过系统的实证评估,我们表明 DataInf 准确地近似了影响力分数,并且比现有方法快几个数量级。在 RoBERTa-large、Llama-2-13B-chat 和 stable-diffusion-v1.5 模型的应用中,DataInf 能够比其他近似影响力分数更好地识别出影响最大的微调示例,而且可以帮助识别出错误标记的数据点。
Oct, 2023
本论文提出基于 Arnoldi 迭代方法的反 Hessian 矩阵计算,实现了首个能够扩展到拥有几亿参数的 Transformer 模型的成功影响函数实现,适用于图像分类和序列 - 序列任务。
Dec, 2021