将文本聚类视为使用大语言模型的分类

Sep, 2024

将文本聚类视为使用大语言模型的分类

Text Clustering as Classification with LLMs

Chen Huang, Guoxiu He

TL;DR本研究解决了文本聚类在人工标注成本高昂情况下的有效性问题，提出了一种新的框架，将文本聚类转化为分类任务，利用大语言模型（LLM）的上下文学习能力。实验结果表明，该框架在无需复杂微调或聚类算法的情况下，其性能与最先进的嵌入方法相当或更优。

Abstract

Text Clustering remains valuable in real-world applications where manual labeling is cost-prohibitive. It facilitates efficient organization and analysis of information by grouping similar texts based on their representations. However, implementing this approach necessitates fine-tuned

发现论文，激发创造

一种文本聚类的通用分类增强迭代学习框架：CEIL

提出了一种基于分类增强迭代学习架构的短文本聚类方法CEIL，该方法使用语言模型和提出的Category Disentangled Contrastive Clustering （CDCC）算法来迭代地改进特征表示。实验证明，CEIL框架在各种聚类算法上显著提高了聚类性能，并超过了其他强基准方法。

Apr, 2023

ClusterLLM：将大语言模型用作文本聚类的指南

介绍了ClusterLLM，一种新颖的文本聚类框架，它利用指导调整的大型语言模型（例如ChatGPT）的反馈。通过与传统的无监督方法相比较，ClusterLLM具有两个有趣的优势：（1）即使其嵌入不可访问，它也具有LLM的紧急能力；（2）通过文本指令和/或少量注释数据，他可以理解用户在聚类方面的偏好。

May, 2023

大型语言模型实现少样本聚类

本文研究了大语言模型在半监督聚类中改善聚类效果的应用方法，发现在输入特征和聚类过程中加入大语言模型可以获得显著的聚类效果改进，同时可以帮助用户在精度和成本之间进行权衡，实现所需聚类。

Jul, 2023

标签监督的LLaMA微调

本文介绍了一种基于标签监督的适应大语言模型（LLMs）的方法，通过从LLMs提取潜在表示并将其投影到标签空间计算交叉熵损失来微调模型。在各种下游任务中，该方法显著优于比其十倍规模的LLMs以及其他强大的基线模型如BERT-Large和RoBERTa-Large。此外，通过从解码器中移除因果掩码，LS-unLLaMA在命名实体识别（NER）中实现了最先进的性能。

Oct, 2023

德文文本嵌入聚类基准

对不同领域中的聚类德语文本嵌入性能进行了基准评估，结果表明使用单语和多语模型进行评估的性能强劲且嵌入降维可以进一步改善聚类效果，另外，对德语 BERT 模型进行了持续预训练实验，结果显示在短文本中可能实现显著的性能改善。

Jan, 2024

TnT-LLM：大规模文本挖掘与大型语言模型

利用大规模语言模型 (LLMs)，我们提出了 TnT-LLM 两阶段框架，自动化生成和分配标签，以最小人工工作量构建具有轻量级监督分类器的训练样本，并在 Bing Copilot 上应用此框架来分析用户意图和对话领域，实验结果表明 TnT-LLM 生成了更准确和相关的标签分类法，实现了在大规模分类中准确性和效率之间的有利平衡。

Mar, 2024

使用LLM嵌入进行文本聚类

通过使用大型语言模型（LLMs）的文本嵌入和聚类算法，该研究调查了文本聚类方法对数据集的影响，评估了嵌入对聚类结果的影响、通过摘要进行的维度降低的作用以及嵌入维度和摘要技术的调整。结果显示，LLMs嵌入在捕捉结构化语言的细微差别方面表现出色，而BERT在性能方面领先于其他轻量级选择。此外，我们发现增加嵌入维度和使用摘要技术并不能统一提高聚类效率，暗示这些策略需要仔细分析才能在现实模型中应用。这些结果突显了在文本聚类应用中，需要权衡对细微差别的文本表示需要和计算可行性之间的复杂平衡。该研究通过引入LLMs嵌入，扩展了传统文本聚类框架，从而为改进方法学和在各种类型的文本分析中开辟了新的研究方向。

Mar, 2024

大型语言模型为传统主题建模方法提供了一种替代方案

本研究旨在探讨大型语言模型（LLMs）在主题提取方面的潜力，并建立评估协议以评估LLMs的聚类效果。通过深入实验与评估，总结了采用LLMs进行主题提取的优势和限制。

Mar, 2024

基于大型语言模型的上下文感知聚类

使用开源的大型语言模型（LLMs）进行效率高且有效的监督聚类，通过捕捉上下文来聚类实体子集。通过引入一种新的改进的三元损失函数和基于文本增强技术的自监督聚类任务，我们的方法在各种电子商务查询和产品聚类数据集上显著优于现有的无监督和有监督的基准。

May, 2024

LLMEmbed: 文本分类中轻量级LLM的真实功能的再思考

通过轻量级的大型语言模型，我们提出一种简单而有效的迁移学习策略LLMEmbed来改善文本分类的性能，并在公开数据集上的广泛实验验证了其强大的性能，相较于基于更大型的语言模型（如GPT-3）和复杂的提示策略，我们的方法仅使用4%的模型参数、1.8%的能耗和1.5%的运行时间即可达到充分的准确性。

Jun, 2024