Mar, 2024

使用 LLM 嵌入进行文本聚类

TL;DR通过使用大型语言模型(LLMs)的文本嵌入和聚类算法,该研究调查了文本聚类方法对数据集的影响,评估了嵌入对聚类结果的影响、通过摘要进行的维度降低的作用以及嵌入维度和摘要技术的调整。结果显示,LLMs 嵌入在捕捉结构化语言的细微差别方面表现出色,而 BERT 在性能方面领先于其他轻量级选择。此外,我们发现增加嵌入维度和使用摘要技术并不能统一提高聚类效率,暗示这些策略需要仔细分析才能在现实模型中应用。这些结果突显了在文本聚类应用中,需要权衡对细微差别的文本表示需要和计算可行性之间的复杂平衡。该研究通过引入 LLMs 嵌入,扩展了传统文本聚类框架,从而为改进方法学和在各种类型的文本分析中开辟了新的研究方向。