模仿人类过程:通过潜在语义聚类进行文本表示的分类
本文提出了一种基于聚类词向量的文本分类方法,使用 K 均值算法构建超级词向量表征,建立特定于类别的词汇表以提高性能,在主题分类和极性分类任务中表现优异。
Jul, 2017
提出了一种半监督的短文本聚类方法,使用神经网络将文本表示为分布式向量,并使用少量标记数据来指定聚类目标,并通过设计新的目标将表示学习过程和 k 均值聚类过程结合在一起优化,最后迭代地用已标记和未标记的数据来优化整个目标,得到了比其他文本聚类方法更好的实验结果。
Feb, 2016
使用聚类方法基于词向量的语言模型,在一个更高语义空间中依据文本回归的特征表现显著优于之前的技术方案,同时具备与文档长度变化相关性自适应的能力。
Sep, 2017
大语言模型在内容生成能力方面取得了巨大的增长,本研究展示了这些模型还可以成功地对人类生成的内容进行聚类,通过独特性和可解释性两个度量标准来定义成功。该研究验证了这一成功,通过人工审阅和 ChatGPT 的比较,提供了一种自动化的方法来弥合挑战短文本聚类的 “验证差距”。比较人工和机器方法,我们确定了每种方法固有的偏见,并质疑依赖人工编码作为 “黄金标准”。我们将该方法应用于 Twitter 个人资料描述信息,并发现人类自我描述的特点方式,与先前专家工作相吻合,但也有表达身份特点的有趣差异,这与表达身份的媒介特性有关。
May, 2024
通过使用大型语言模型(LLMs)的文本嵌入和聚类算法,该研究调查了文本聚类方法对数据集的影响,评估了嵌入对聚类结果的影响、通过摘要进行的维度降低的作用以及嵌入维度和摘要技术的调整。结果显示,LLMs 嵌入在捕捉结构化语言的细微差别方面表现出色,而 BERT 在性能方面领先于其他轻量级选择。此外,我们发现增加嵌入维度和使用摘要技术并不能统一提高聚类效率,暗示这些策略需要仔细分析才能在现实模型中应用。这些结果突显了在文本聚类应用中,需要权衡对细微差别的文本表示需要和计算可行性之间的复杂平衡。该研究通过引入 LLMs 嵌入,扩展了传统文本聚类框架,从而为改进方法学和在各种类型的文本分析中开辟了新的研究方向。
Mar, 2024
采用标签 - 词汇联合嵌入法和注意力机制的词嵌入模型,用于文本分类并保持了词嵌入的可解释性,同时提供了利用其他信息的能力。在多个大型文本数据集上实验表明,该方法在准确率和速度方面均优于现有最先进方法。
May, 2018
通过结合基于词嵌入、降维和聚类的算法,本研究旨在从未分类的文本集合中获取主题;文本嵌入算法采用了 BERT 模型,这是一种在自然语言处理任务中广泛应用的神经网络架构;为了处理高维数据,使用 UMAP 降维技术,能保留原始数据的局部和全局信息的一部分;K-Means 作为聚类算法,用于获取主题;然后,使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义;该过程的结果显示出较好的数值,因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。
Oct, 2023
本研究使用模糊聚类方法和进化算法优化实现的模糊聚类方法介绍,通过应用基于计数的单词嵌入在 covid 数据集上,研究表明模糊聚类算法对高维数据非常敏感且参数调整会大大改变其性能,我们通过比较不同算法变体的不同嵌入精度来评估实验结果。
Apr, 2022
通过聚类基于 token 的上下文化词表示,可以更自然地捕捉多义性,并用作组织文档的方法,此方法与 LDA 主题模型效果相近且表现出更高的主题质量,尤其是对于 BERT 和 GPT-2 输出层训练的 token 聚类。
Oct, 2020
本文提出了一种基于图形表示的模型,并演示了我们不仅可以跨文档检索语义相似的信息,而且我们生成的嵌入空间也捕获了有用的语义信息,类似于仅适用于文本序列的语言模型。
Feb, 2022