基于语言模型的嵌入方式测量文本的分布变化优势

Dec, 2023

基于语言模型的嵌入方式测量文本的分布变化优势

Measuring Distributional Shifts in Text: The Advantage of Language Model-Based Embeddings

Gyandev Gupta, Bashir Rastegarpanah, Amalendu Iyer, Joshua Rubin, Krishnaram Kenthapadi

TL;DR利用大型语言模型（LLMs）生成的嵌入向量，我们提出了一种基于聚类的算法来测量文本数据的分布漂移，并通过实验证明其对于数据漂移的敏感性比其他嵌入方法更高。我们还提出了数据漂移敏感性作为衡量语言模型的重要评估指标，并从 18 个月的实际部署中总结了经验教训。

Abstract

An essential part of monitoring machine learning models in production is measuring input and output data drift. In this paper, we present a system for measuring →

machine learning models data drift natural language data large language models distributional shifts

发现论文，激发创造

使用 LLM 嵌入进行文本聚类

通过使用大型语言模型（LLMs）的文本嵌入和聚类算法，该研究调查了文本聚类方法对数据集的影响，评估了嵌入对聚类结果的影响、通过摘要进行的维度降低的作用以及嵌入维度和摘要技术的调整。结果显示，LLMs 嵌入在捕捉结构化语言的细微差别方面表现出色，而 BERT 在性能方面领先于其他轻量级选择。此外，我们发现增加嵌入维度和使用摘要技术并不能统一提高聚类效率，暗示这些策略需要仔细分析才能在现实模型中应用。这些结果突显了在文本聚类应用中，需要权衡对细微差别的文本表示需要和计算可行性之间的复杂平衡。该研究通过引入 LLMs 嵌入，扩展了传统文本聚类框架，从而为改进方法学和在各种类型的文本分析中开辟了新的研究方向。

Mar, 2024

词嵌入再探讨：LLMs 是否提供新的东西？

通过比较经典词嵌入技术与大型语言模型的词嵌入之间的潜在向量语义，系统地调查了大型语言模型是否在表现上与经典编码模型存在显著差异。结果显示，大型语言模型往往比经典模型更紧密地聚集语义相关的词，并在 Bigger Analogy Test Set (BATS) 上取得更高的平均准确率。此外，一些大型语言模型的词嵌入与相对较轻的句子级 BERT (SBERT) 模型相似。

Feb, 2024

通过基于大型语言模型的文本补充和重写增强嵌入性能

利用大型语言模型丰富和重写输入文本，改善嵌入模型的性能，并在特定领域取得显著改进。

Apr, 2024

估算和提高语言模型的强健性的方法

通过研究大型语言模型的泛化能力问题以及多种提高其分布韧性的方法，本文提出了未来改进大型语言模型鲁棒性的研究方向。

Jun, 2022

大型语言模型引导的嵌入的隐私风险理解

这篇论文探讨了大型语言模型在提高检索式生成任务准确度方面的有效性，发现大型语言模型相较于传统的预训练模型具有更高的潜在危险性，可能对用户隐私造成负面影响，并探讨了缓解这一风险的初步策略。

Apr, 2024

使用孪生神经网络分析嵌入层和相似度得分

我们的研究比较了不同的领先嵌入算法及其碳足迹的准确性，从而为每个嵌入算法提供了一个全面的审视。

Dec, 2023

历时词向量和语义漂移：一项调查

本文综述了当前关于使用预测型词嵌入模型追踪词汇语义时序变化和语义漂移检测的学术研究现状，并讨论了该领域的挑战和应用前景。

Jun, 2018

ClusterLLM：将大语言模型用作文本聚类的指南

介绍了 ClusterLLM，一种新颖的文本聚类框架，它利用指导调整的大型语言模型（例如 ChatGPT）的反馈。通过与传统的无监督方法相比较，ClusterLLM 具有两个有趣的优势：（1）即使其嵌入不可访问，它也具有 LLM 的紧急能力；（2）通过文本指令和 / 或少量注释数据，他可以理解用户在聚类方面的偏好。

May, 2023

一种基于语言模型的挖掘时序数据分布变化的框架

使用大型语言模型和数据源接口来探索和收集时间序列数据集的方法，扩大数据量以应对限制或缺乏关键属性的原始数据，有效补充现有数据集，尤其在数据分布变化方面。演示了通过实际示例证明了收集数据集的有效性，并展示了在这些数据集上进行微调的时间序列预测基础模型与未经微调的模型相比具有可比的性能。

Jun, 2024

大型语言模型对齐：一项调查

大型语言模型（LLMs）的对齐方法研究，包括外部和内部对齐方法，探讨了其可解释性和对抗攻击的潜在漏洞以及评估方法，并展望了未来的研究方向。

Sep, 2023