机器学习模型的经济高效再培训
通过使用混合整数优化算法,在重新训练机器学习模型时考虑到不同数据批次更新的稳定性,通过使用自定义的距离度量指标来实现保持一致的分析洞察力,并在一个真实的生产案例中展示出比贪婪训练模型更强的稳定性。重要的分析洞察力在重新训练迭代中保持一致。
Mar, 2024
本论文旨在确保 “基于机器学习和深度学习” 的系统能够像传统软件一样可靠。论文提出了一种度量数据漂移的方法以及在其发生时自适应地重新训练模型的方法,并生成不同层面的解释以理解漂移原因。
Nov, 2022
提出了 DeltaGrad 算法,用于快速重新训练基于训练阶段缓存信息的机器学习模型,以解决由于稍微更改数据集引起的代价昂贵的重新训练问题,以实现隐私性、稳健性、偏见减少和不确定性量化等多种应用,并得到了理论和实证支持,与现有技术相比效果优越。
Jun, 2020
基于机器学习的性能模型在构建关键的作业调度和应用程序优化决策中越来越被使用。我们开发了持续学习性能模型,考虑到数据分布漂移,减轻灾难性遗忘,并提高泛化能力。我们的最佳模型能够保持准确性,无论系统变化引起的新数据分布,同时相比于朴素方法,在整个数据序列的预测准确度上提升了 2 倍。
Oct, 2023
通过在线和离线阶段,我们提出了一种高效的框架,评估训练数据对目标模型的影响,通过反向梯度匹配问题建立了一个精简同义词集,用于加速离开一个样本的过程,并计算评估目标基于的归因矩阵。实验证明,相比直接重新训练方法,我们的方法在实现了可比较的模型行为评估的同时,显著加快了过程。
Apr, 2024
该研究提出了一种序列监测方案,通过考虑测量模型质量的时间依赖性,减少不必要的警报并解决多重测试问题,从而在检测模型质量相关变化方面优于基准方法。此研究为在动态环境中区分小幅波动和有意义的模型性能退化提供了实用解决方案,确保机器学习模型的可靠性。
Sep, 2023
本文论述了如何在更新神经网络模型时减少深度学习模型遗忘前期知识的问题,从而减少新模型的训练成本,并介绍混合少量历史数据的数据彩排和弹性加权差异等方法以提高整体准确度。
Jun, 2023
本文介绍了一个自动化的机器学习平台,用于在数字广告技术环境中构建数千个预测用户行为的模型,并实现连续的优化广告活动,涉及数十亿的广告展示量和数亿的用户,以及多个不同的性能目标。
Feb, 2014