通过使用大型语言模型(LLMs)的文本嵌入和聚类算法,该研究调查了文本聚类方法对数据集的影响,评估了嵌入对聚类结果的影响、通过摘要进行的维度降低的作用以及嵌入维度和摘要技术的调整。结果显示,LLMs 嵌入在捕捉结构化语言的细微差别方面表现出色,而 BERT 在性能方面领先于其他轻量级选择。此外,我们发现增加嵌入维度和使用摘要技术并不能统一提高聚类效率,暗示这些策略需要仔细分析才能在现实模型中应用。这些结果突显了在文本聚类应用中,需要权衡对细微差别的文本表示需要和计算可行性之间的复杂平衡。该研究通过引入 LLMs 嵌入,扩展了传统文本聚类框架,从而为改进方法学和在各种类型的文本分析中开辟了新的研究方向。
Mar, 2024
本研究使用模糊聚类方法和进化算法优化实现的模糊聚类方法介绍,通过应用基于计数的单词嵌入在 covid 数据集上,研究表明模糊聚类算法对高维数据非常敏感且参数调整会大大改变其性能,我们通过比较不同算法变体的不同嵌入精度来评估实验结果。
Apr, 2022
本文提出了一种基于聚类词向量的文本分类方法,使用 K 均值算法构建超级词向量表征,建立特定于类别的词汇表以提高性能,在主题分类和极性分类任务中表现优异。
Jul, 2017
使用聚类方法基于词向量的语言模型,在一个更高语义空间中依据文本回归的特征表现显著优于之前的技术方案,同时具备与文档长度变化相关性自适应的能力。
Sep, 2017
通过结合基于词嵌入、降维和聚类的算法,本研究旨在从未分类的文本集合中获取主题;文本嵌入算法采用了 BERT 模型,这是一种在自然语言处理任务中广泛应用的神经网络架构;为了处理高维数据,使用 UMAP 降维技术,能保留原始数据的局部和全局信息的一部分;K-Means 作为聚类算法,用于获取主题;然后,使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义;该过程的结果显示出较好的数值,因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。
Oct, 2023
通过聚类基于 token 的上下文化词表示,可以更自然地捕捉多义性,并用作组织文档的方法,此方法与 LDA 主题模型效果相近且表现出更高的主题质量,尤其是对于 BERT 和 GPT-2 输出层训练的 token 聚类。
Oct, 2020
通过聚类单词并组合成文本向量的新文本表示方案,在 5 个分类基准测试中得到了有效的评估结果,并通过可视化分析验证了其有效性。
Jun, 2019
本文研究利用高质量的句子表示和适当的词选择方法直接聚类句子表示的方法来生成更连贯和多样化的主题,相比于利用神经模型的方法有更高的效率和简洁性。
本文提出两种具有不同目标函数的学习模型,用于基于查询 - 文档相关性信息学习单词表示,实验结果表明相对于 Word2vec 等基于词语相似度的模型,基于相关性的单词嵌入模型在查询扩展和查询分类等信息检索任务上具有显著优越性。
May, 2017
通过设计不同的探针实验,使用 BERT 和 DistilBERT,我们发现注意力框架在模拟主题词簇时发挥了关键作用,这为探讨概率主题模型和预训练语言模型之间的关系铺平了道路。
Jan, 2023