Cincer是一种新的方法,它基于样本间的最大不兼容性来清洗数据,并使用Fisher信息矩阵的影响函数近似实现。该方法能发现在传统方法无法发现的已污染数据,并与过去数据一同进行清洗,可以显著提高数据和模型的质量。
Jun, 2021
该研究针对NLP应用中大型模型在调试训练数据和解释模型行为时计算影响力的问题,提出了一种名为TracIn-WE的技术,该技术基于词嵌入层进行数据影响力分析,能够获得较高的影响力得分,可有效调试。
Feb, 2022
该研究提出MetaSP算法,用于控制模型更新并优化训练数据集的存储,该算法基于Influence Function通过计算加权示例对模型鲁棒性的影响,从而提高连续学习的稳定性和可塑性,实验结果展示其显著优于现有方法。
Sep, 2022
文章研究了影响函数在神经机器翻译(NMT)中的应用,提出了两个有效扩展,并证明在处理复制训练示例等子问题时,影响功能可以更广泛地应用于NMT。
Oct, 2022
提出了一种名为Simfluence的新方法,旨在通过训练运行模拟器而不是单独的影响得分来研究数据示例之间非线性相互作用。该方法能够预测大语言模型微调中的损失轨迹,并比现有TDA方法提高了预测准确性。
Mar, 2023
该研究利用扩展影响函数提出了一种有效的识别和重新标记最小训练样本以翻转给定预测的过程,评估模型的韧性,并提供有关训练集内偏差的见解。
May, 2023
本文从化简计算的角度研究影响函数,讨论了少量参数下实现影响计算的假设,并证明影响值的符号可以指示训练点是记忆还是泛化,结果表明,即使是大规模的机器学习系统,影响函数也是可操作的,并且可以通过选择性地删除培训点来计算影响值,作为学习过程的一部分。
通过理论分析和实验测试,我们发现影响函数在现代深度神经网络中存在参数发散的局限性,但仍可用于模型调试和纠正误预测。
影响函数为我们研究LLMs的泛化特性提供了强大的新工具,通过使用EK-FAC逼近和算法技术来扩展影响函数,我们能够高效地获得有关机器学习模型中关键训练示例的见解,并揭示出泛化模式的稀疏性、尺度的增加和关键短语顺序翻转的限制.
Aug, 2023
该研究论文提出了一种高度准确且以数据为中心的解释方法(HD-Explain),利用核化Stein差异(KSD)的属性,有效地识别为测试点提供最佳预测支持的训练样本,从而达到精细化解释、一致性和计算效率的需求,提供了一种简单、有效且稳健的预测解释方案。
Mar, 2024