使用文档嵌入和降维技术检测文本数据中的协变量漂移

Sep, 2023

使用文档嵌入和降维技术检测文本数据中的协变量漂移

Detecting covariate drift in text data using document embeddings and dimensionality reduction

Vinayak Sodar, Ankit Sekseria

TL;DR探讨使用不同文档嵌入、降维技术和漂移检测方法来识别文本数据中的协变漂移的有效性，结果表明某些组合的嵌入、降维技术和漂移检测方法在检测协变漂移方面表现优异。

Abstract

Detecting covariate drift in text data is essential for maintaining the reliability and performance of text analysis models. In this research, we investigate the effectiveness of different →

covariate drift text analysis models document embeddings dimensionality reduction techniques drift detection methods

发现论文，激发创造

揭示文本数据中的漂移：一种检测和缓解机器学习模型漂移的无监督方法

机器学习中的漂移是指模型所操作的数据或上下文的统计特性随时间改变而导致其性能下降的现象。为了及时预防潜在的性能退化，保持对机器学习模型性能的持续监控过程至关重要。在我们提出的无监督漂移检测方法中，我们采用了两步过程。第一步涉及将生产数据的样本编码为目标分布，将模型训练数据作为参考分布。在第二步中，我们采用了基于核的统计检验，利用最大均值离差（MMD）距离度量来比较参考和目标分布，并估计任何潜在的漂移。我们的方法还能够识别导致漂移的生产数据子集。使用这些被确定为高漂移样本进行重新训练的模型在在线客户体验质量指标上表现出了改进。

Sep, 2023

语言数据集漂移的表征与测量

本文提出三个语言数据漂移维度：词汇、结构和语义漂移，通过词频差异、句法差异和不可被词频捕捉的语义变化等度量，研究发现该方法比以前的方法更能够预测模型准确性，特别是在预测模型在测试集上的表现时。

May, 2023

评估预训练句子嵌入的无监督降维方法

使用预训练语言模型（PLMs）生成的句子嵌入引起了自然语言处理界的广泛关注，因为它们在多种下游应用中以优越的性能表示文本。然而，当在内存或计算受限设备中表示大量句子时，由 PLMs 生成的句子嵌入的高维度会带来问题。作为解决方案，我们评估了无监督的降维方法来降低由 PLMs 生成的句子嵌入的维度。我们的实验结果表明，如主成分分析（PCA）等简单方法可以将句子嵌入的维度降低近 50%，而不会在多个下游任务中造成显著性能损失。令人惊讶的是，在某些任务中，进一步降低维度可以提高某些 PLMs 生成的句子嵌入的性能。

Mar, 2024

生成文本流中的漂移方法

本文提供了四种文本漂移生成方法，以便生成带有标记漂移的数据集，并使用增量分类器测试它们恢复漂移的能力。结果表明，所有方法在漂移后性能都有所下降，增量支持向量机在准确性和宏 F1 得分方面运行速度最快，恢复了之前的性能水平。

Mar, 2024

词嵌入的简单有效的降维方法

本文提出一种基于主成分分析和后处理算法相结合的新颖算法，用于将预先训练好的词向量降维，实验表明该算法能够在保证性能的前提下将词嵌入维数降至原来的一半。

Aug, 2017

大规模评估主题模型和降维方法在二维文本空间化中的应用

基于主题模型和降维的大规模基于基准的计算方法有效地设计文本空间化，t-SNE 在降维中的适用性得到验证。

Jul, 2023

基于词嵌入的主题建模流程

通过结合基于词嵌入、降维和聚类的算法，本研究旨在从未分类的文本集合中获取主题；文本嵌入算法采用了 BERT 模型，这是一种在自然语言处理任务中广泛应用的神经网络架构；为了处理高维数据，使用 UMAP 降维技术，能保留原始数据的局部和全局信息的一部分；K-Means 作为聚类算法，用于获取主题；然后，使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义；该过程的结果显示出较好的数值，因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。

Oct, 2023

利用信息流形投影进行聚类探索

我们提出了一种新的方法，用于生成信息丰富的嵌入，该方法不仅消除了与不同类型先验知识相关的结构，还旨在揭示任何剩余的基本结构，通过采用两个目标的线性组合：首先是对先验信息相关结构进行折扣的对比主成分分析 (contrastive PCA)，其次是通过峰度投影追求 (kurtosis projection pursuit) 确保得到的嵌入中存在有意义的数据分离，并将此任务形式化为流形优化问题，并在考虑三种不同类型的先验知识的各种数据集上进行了经验验证，最后，我们提供了一个自动化框架，用于对高维数据进行迭代的视觉探索。

Sep, 2023

基于语言模型的嵌入方式测量文本的分布变化优势

利用大型语言模型（LLMs）生成的嵌入向量，我们提出了一种基于聚类的算法来测量文本数据的分布漂移，并通过实验证明其对于数据漂移的敏感性比其他嵌入方法更高。我们还提出了数据漂移敏感性作为衡量语言模型的重要评估指标，并从 18 个月的实际部署中总结了经验教训。

Dec, 2023

TransDrift: 使用 Transformer 建模词嵌入漂移

本文提出了一种基于 transformer 的预测模型 TransDrift 用于保持 word embeddings 与数据分布的一致性，实验证明预测嵌入能够显著提高分类准确性。

Jun, 2022