使用文档嵌入和降维技术检测文本数据中的协变量漂移
机器学习中的漂移是指模型所操作的数据或上下文的统计特性随时间改变而导致其性能下降的现象。为了及时预防潜在的性能退化,保持对机器学习模型性能的持续监控过程至关重要。在我们提出的无监督漂移检测方法中,我们采用了两步过程。第一步涉及将生产数据的样本编码为目标分布,将模型训练数据作为参考分布。在第二步中,我们采用了基于核的统计检验,利用最大均值离差(MMD)距离度量来比较参考和目标分布,并估计任何潜在的漂移。我们的方法还能够识别导致漂移的生产数据子集。使用这些被确定为高漂移样本进行重新训练的模型在在线客户体验质量指标上表现出了改进。
Sep, 2023
本文提出三个语言数据漂移维度:词汇、结构和语义漂移,通过词频差异、句法差异和不可被词频捕捉的语义变化等度量,研究发现该方法比以前的方法更能够预测模型准确性,特别是在预测模型在测试集上的表现时。
May, 2023
使用预训练语言模型(PLMs)生成的句子嵌入引起了自然语言处理界的广泛关注,因为它们在多种下游应用中以优越的性能表示文本。然而,当在内存或计算受限设备中表示大量句子时,由 PLMs 生成的句子嵌入的高维度会带来问题。作为解决方案,我们评估了无监督的降维方法来降低由 PLMs 生成的句子嵌入的维度。我们的实验结果表明,如主成分分析(PCA)等简单方法可以将句子嵌入的维度降低近 50%,而不会在多个下游任务中造成显著性能损失。令人惊讶的是,在某些任务中,进一步降低维度可以提高某些 PLMs 生成的句子嵌入的性能。
Mar, 2024
本文提供了四种文本漂移生成方法,以便生成带有标记漂移的数据集,并使用增量分类器测试它们恢复漂移的能力。结果表明,所有方法在漂移后性能都有所下降,增量支持向量机在准确性和宏 F1 得分方面运行速度最快,恢复了之前的性能水平。
Mar, 2024
通过结合基于词嵌入、降维和聚类的算法,本研究旨在从未分类的文本集合中获取主题;文本嵌入算法采用了 BERT 模型,这是一种在自然语言处理任务中广泛应用的神经网络架构;为了处理高维数据,使用 UMAP 降维技术,能保留原始数据的局部和全局信息的一部分;K-Means 作为聚类算法,用于获取主题;然后,使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义;该过程的结果显示出较好的数值,因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。
Oct, 2023
我们提出了一种新的方法,用于生成信息丰富的嵌入,该方法不仅消除了与不同类型先验知识相关的结构,还旨在揭示任何剩余的基本结构,通过采用两个目标的线性组合:首先是对先验信息相关结构进行折扣的对比主成分分析 (contrastive PCA),其次是通过峰度投影追求 (kurtosis projection pursuit) 确保得到的嵌入中存在有意义的数据分离,并将此任务形式化为流形优化问题,并在考虑三种不同类型的先验知识的各种数据集上进行了经验验证,最后,我们提供了一个自动化框架,用于对高维数据进行迭代的视觉探索。
Sep, 2023
利用大型语言模型(LLMs)生成的嵌入向量,我们提出了一种基于聚类的算法来测量文本数据的分布漂移,并通过实验证明其对于数据漂移的敏感性比其他嵌入方法更高。我们还提出了数据漂移敏感性作为衡量语言模型的重要评估指标,并从 18 个月的实际部署中总结了经验教训。
Dec, 2023
本文提出了一种基于 transformer 的预测模型 TransDrift 用于保持 word embeddings 与数据分布的一致性,实验证明预测嵌入能够显著提高分类准确性。
Jun, 2022