使用 LLM 嵌入进行文本聚类

Mar, 2024

Text clustering with LLM embeddings

Alina Petukhova, Joao P. Matos-Carvalho, Nuno Fachada

TL;DR通过使用大型语言模型（LLMs）的文本嵌入和聚类算法，该研究调查了文本聚类方法对数据集的影响，评估了嵌入对聚类结果的影响、通过摘要进行的维度降低的作用以及嵌入维度和摘要技术的调整。结果显示，LLMs 嵌入在捕捉结构化语言的细微差别方面表现出色，而 BERT 在性能方面领先于其他轻量级选择。此外，我们发现增加嵌入维度和使用摘要技术并不能统一提高聚类效率，暗示这些策略需要仔细分析才能在现实模型中应用。这些结果突显了在文本聚类应用中，需要权衡对细微差别的文本表示需要和计算可行性之间的复杂平衡。该研究通过引入 LLMs 嵌入，扩展了传统文本聚类框架，从而为改进方法学和在各种类型的文本分析中开辟了新的研究方向。

Abstract

text clustering is an important approach for organising the growing amount of digital content, helping to structure and find hidden patterns in uncategorised data. In this research, we investigated how different textual

text clustering textual embeddings clustering algorithms dimensionality reduction summarisation techniques

发现论文，激发创造

ClusterLLM：将大语言模型用作文本聚类的指南

介绍了 ClusterLLM，一种新颖的文本聚类框架，它利用指导调整的大型语言模型（例如 ChatGPT）的反馈。通过与传统的无监督方法相比较，ClusterLLM 具有两个有趣的优势：（1）即使其嵌入不可访问，它也具有 LLM 的紧急能力；（2）通过文本指令和 / 或少量注释数据，他可以理解用户在聚类方面的偏好。

May, 2023

词嵌入再探讨：LLMs 是否提供新的东西？

通过比较经典词嵌入技术与大型语言模型的词嵌入之间的潜在向量语义，系统地调查了大型语言模型是否在表现上与经典编码模型存在显著差异。结果显示，大型语言模型往往比经典模型更紧密地聚集语义相关的词，并在 Bigger Analogy Test Set (BATS) 上取得更高的平均准确率。此外，一些大型语言模型的词嵌入与相对较轻的句子级 BERT (SBERT) 模型相似。

Feb, 2024

基于语言模型的嵌入方式测量文本的分布变化优势

利用大型语言模型（LLMs）生成的嵌入向量，我们提出了一种基于聚类的算法来测量文本数据的分布漂移，并通过实验证明其对于数据漂移的敏感性比其他嵌入方法更高。我们还提出了数据漂移敏感性作为衡量语言模型的重要评估指标，并从 18 个月的实际部署中总结了经验教训。

Dec, 2023

基于词嵌入的主题建模流程

通过结合基于词嵌入、降维和聚类的算法，本研究旨在从未分类的文本集合中获取主题；文本嵌入算法采用了 BERT 模型，这是一种在自然语言处理任务中广泛应用的神经网络架构；为了处理高维数据，使用 UMAP 降维技术，能保留原始数据的局部和全局信息的一部分；K-Means 作为聚类算法，用于获取主题；然后，使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义；该过程的结果显示出较好的数值，因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。

Oct, 2023

LLMEmbed: 文本分类中轻量级 LLM 的真实功能的再思考

通过轻量级的大型语言模型，我们提出一种简单而有效的迁移学习策略 LLMEmbed 来改善文本分类的性能，并在公开数据集上的广泛实验验证了其强大的性能，相较于基于更大型的语言模型（如 GPT-3）和复杂的提示策略，我们的方法仅使用 4% 的模型参数、1.8% 的能耗和 1.5% 的运行时间即可达到充分的准确性。

Jun, 2024

自然语言处理中各种文本嵌入对聚类性能的影响

本研究探讨了在电商平台的评论中使用聚类算法对评论星级进行重新标注的任务，使用了 BERT 和 Word2Vec 两种不同的文本嵌入来表示文本，并测量了各种聚类算法（包括 KMeans，单连系群聚类和基于密度的算法）的性能，结果表明嵌入类型对算法性能有很大的影响。

May, 2023

大型语言模型为传统主题建模方法提供了一种替代方案

本研究旨在探讨大型语言模型（LLMs）在主题提取方面的潜力，并建立评估协议以评估 LLMs 的聚类效果。通过深入实验与评估，总结了采用 LLMs 进行主题提取的优势和限制。

Mar, 2024

大型语言模型实现少样本聚类

本文研究了大语言模型在半监督聚类中改善聚类效果的应用方法，发现在输入特征和聚类过程中加入大语言模型可以获得显著的聚类效果改进，同时可以帮助用户在精度和成本之间进行权衡，实现所需聚类。

Jul, 2023

利用词嵌入进行聚类的语言模型用于文本可读性评估

使用聚类方法基于词向量的语言模型，在一个更高语义空间中依据文本回归的特征表现显著优于之前的技术方案，同时具备与文档长度变化相关性自适应的能力。

Sep, 2017

融合词嵌入的短文本主题建模

本篇论文介绍了一种基于词向量和马尔科夫随机场正则化模型的主题模型，从而改进对小文本数据的话题推断。结果表明，与传统主题模型相比，改进后的方法可以更有效地对短文本数据进行话题建模。

Sep, 2016