Sep, 2023

揭示文本数据中的漂移:一种检测和缓解机器学习模型漂移的无监督方法

TL;DR机器学习中的漂移是指模型所操作的数据或上下文的统计特性随时间改变而导致其性能下降的现象。为了及时预防潜在的性能退化,保持对机器学习模型性能的持续监控过程至关重要。在我们提出的无监督漂移检测方法中,我们采用了两步过程。第一步涉及将生产数据的样本编码为目标分布,将模型训练数据作为参考分布。在第二步中,我们采用了基于核的统计检验,利用最大均值离差(MMD)距离度量来比较参考和目标分布,并估计任何潜在的漂移。我们的方法还能够识别导致漂移的生产数据子集。使用这些被确定为高漂移样本进行重新训练的模型在在线客户体验质量指标上表现出了改进。