- 一种更实用的机器取消学习方法
机器学习中的模型撤销能够有效解决数据隐私问题,本研究通过实证评估表明首次梯度上升法在机器学习中的撤销过程更为有效,突出了其在提升数据隐私和符合法规(如 GDPR 和 CCPA)方面的潜力。
- 重审,扩展和增强无 Hessian 函数的影响
借助第一阶泰勒展开,影响函数可以估计样本对模型的影响力,无需进行昂贵的模型重新训练;本文通过探索矩阵分解等方法加快和近似海森矩阵的求逆过程,将影响函数应用于深度模型,并提出了一种称为 TracIn 的简单逼近方法,该方法通过将海森矩阵的逆替 - 可编辑的概念瓶颈模型
通过使用数学严谨的闭合形式近似和影响力函数,我们提出了可编辑的概念瓶颈模型(ECBMs),以解决从头重新训练的困境,实现高效率的数据删除和插入操作,从而适应大规模应用中的数据处理需求。
- GPT 对您的数据价值是多少?使用影响函数的 LLM 规模数据估值
本研究提出了一种高效的梯度投影策略 LoGra,改进了影响函数的可扩展性,进而提出了数据价值评估的理论动机,并通过引入 LogIX 软件包,降低了实施数据价值评估系统的门槛。实验证明,LoGra 在保持竞争准确性的同时,吞吐量提升了 650 - 通过近似展开的差分训练数据归因
通过引入类似影响函数的公式来计算,我们将基于隐式微分和展开的方法相连接,结合它们的优点,提出了一种名为 Source 的近似展开式 TDA 方法,该方法在计算上比展开式方法更高效,适用于隐式微分方法无法处理的情况,如非收敛模型和多阶段训练管 - 异常梯度分析:通过无 Hessian 影响函数高效提升深度学习模型性能
在数据中心学习的经典情境下,通过分析和解决模型上的凸性假设和计算逆 Hessian 矩阵的计算成本的限制,建立了通过影响函数和异常梯度检测来识别有害训练样本的等价转换,从而扩展了影响函数的适用性,使其能够应用于非凸深度模型,并通过系统性实证 - 机器特征与标签的无关量度探索
面对分布变化的复杂机器遗忘问题,特别关注非均匀特征和标签删除带来的挑战,本研究提出了一种基于影响函数和分布独立原理的新方法,以解决隐私保护和模型性能之间的平衡,通过在多样分布下维护模型的性能和适应性,确保数据去除的高效性及动态调整模型以保持 - COLINGInfFeed: 以影响函数作为反馈来提高主观任务的性能
使用影响函数改进深度神经模型的性能并自动识别需要手动校正的数据点来提高模型性能,达到减少手动标注数据点数量的效果。
- 低预算主动学习的直接获取优化
在本文中,我们首先通过实证观察到现有的主动学习算法在低预算环境下的性能下降,然后介绍了一种名为直接获取优化(DAO)的新型主动学习算法,该算法基于期望真实损失减少来优化样本选择。具体而言,DAO 利用影响函数来更新模型参数,并结合了一种附加 - 通过广义影响函数深入理解黑盒预测
通过使用广义的影响函数进行参数分析,并采用鲁棒的逆 - Hessian - 向量积逼近方法解决计算不稳定性,我们提出了一种可在各种人工智能领域中用于模型分析的多功能工具。
- 通过聚类影响嵌入发现错误
我们提出了一种识别测试例组的方法 —— 切片发现。我们将一致性定义为切片发现方法应该满足的一个关键属性,即同一切片内的错误预测应该有相同的原因。然后我们使用影响函数来推导一种新的切片发现方法 InfEmbed,它通过返回示例受相似训练数据影 - NIPS快速模型去偏置与机器遗忘
最近的研究发现,深度神经网络在许多实际场景中可能表现出偏见。本研究提出了一种快速模型去偏方法(FMD),该方法通过显式的反事实概念识别偏见属性,并使用影响函数量化数据样本的影响,进而设计了一种基于机器遗忘的策略来高效有效地消除模型中的偏见。 - ACL关于对抗样本的学习表示和影响函数的启示
通过邻近邻居和影响函数以及马氏距离两种方法,将图像处理中的对抗样本检测方法应用到 NLP 中,发现前者在多个强基线上与最新技术相比具有领先性能,同时,新颖的影响函数的使用揭示了 NLP 中对抗性样本的子空间性质与图像处理中的子空间性质的联系 - 通过影响函数评估本地差分隐私对效用损失的影响
我们提出了一种使用影响函数的方法来选择与允许的隐私 - 效用权衡最符合的隐私参数值,而无需进行大量的计算,例如广泛的模型训练和数据私有化。该方法适用于多种常见的随机化情景,并可以通过类别依赖的标签噪声校正方法来纠正由随机化引起的噪声。通过实 - 健康有影响力的噪声训练以抵御数据投毒攻击
基于影响函数的健康影响噪声训练 (HINT) 是一种高效而强大的方法,用于防御数据中毒攻击,通过使用影响函数构造有助于加固分类模型的健康噪声,显著减少对测试数据的泛化能力影响,该方法在部分训练数据修改时也能有效执行,经过综合评估,HINT - 利用影响函数研究大型语言模型的泛化能力
影响函数为我们研究 LLMs 的泛化特性提供了强大的新工具,通过使用 EK-FAC 逼近和算法技术来扩展影响函数,我们能够高效地获得有关机器学习模型中关键训练示例的见解,并揭示出泛化模式的稀疏性、尺度的增加和关键短语顺序翻转的限制.
- 影响函数的理论和实践视角
通过理论分析和实验测试,我们发现影响函数在现代深度神经网络中存在参数发散的局限性,但仍可用于模型调试和纠正误预测。
- 论影响函数、分类影响、相对影响、记忆和泛化
本文从化简计算的角度研究影响函数,讨论了少量参数下实现影响计算的假设,并证明影响值的符号可以指示训练点是记忆还是泛化,结果表明,即使是大规模的机器学习系统,影响函数也是可操作的,并且可以通过选择性地删除培训点来计算影响值,作为学习过程的一部 - ACL基于类别的影响函数用于错误检测
本文研究了影响函数在深度网络中不稳定的问题,并提出了一种基于类别信息的解决方案,经过大量实验表明我们的修改不仅显著提高了影响函数的性能和稳定性,而且不会带来额外的计算成本。
- CVPR正则化二阶影响以实现连续学习
该研究提出了一种利用影响函数建立的框架,识别了回放缓冲区的二阶影响,从而提出了新的选择目标,以规范它们,并提出了一种有效的实现方法。在多个连续学习基准测试中进行的实验表明,该方法优于现有的最先进方法。