模仿人类过程：通过潜在语义聚类进行文本表示的分类

IJCAIJun, 2019

模仿人类过程：通过潜在语义聚类进行文本表示的分类

Mimicking Human Process: Text Representation via Latent Semantic Clustering for Classification

Xiaoye Tan, Rui Yan, Chongyang Tao, Mingrui Wu

TL;DR通过聚类单词并组合成文本向量的新文本表示方案，在 5 个分类基准测试中得到了有效的评估结果，并通过可视化分析验证了其有效性。

Abstract

Considering that words with different characteristic in the text have different importance for classification, grouping them together separately can strengthen the semantic expression of each part. Thus we propos

text representation clustering classification semantic expression visualization

发现论文，激发创造

从图像到文本分类：一种基于聚类词嵌入的新方法

本文提出了一种基于聚类词向量的文本分类方法，使用 K 均值算法构建超级词向量表征，建立特定于类别的词汇表以提高性能，在主题分类和极性分类任务中表现优异。

Jul, 2017

利用深度表示学习进行短文本半监督聚类

提出了一种半监督的短文本聚类方法，使用神经网络将文本表示为分布式向量，并使用少量标记数据来指定聚类目标，并通过设计新的目标将表示学习过程和 k 均值聚类过程结合在一起优化，最后迭代地用已标记和未标记的数据来优化整个目标，得到了比其他文本聚类方法更好的实验结果。

Feb, 2016

利用词嵌入进行聚类的语言模型用于文本可读性评估

使用聚类方法基于词向量的语言模型，在一个更高语义空间中依据文本回归的特征表现显著优于之前的技术方案，同时具备与文档长度变化相关性自适应的能力。

Sep, 2017

基于大型语言模型的短文本人可解释聚类

大语言模型在内容生成能力方面取得了巨大的增长，本研究展示了这些模型还可以成功地对人类生成的内容进行聚类，通过独特性和可解释性两个度量标准来定义成功。该研究验证了这一成功，通过人工审阅和 ChatGPT 的比较，提供了一种自动化的方法来弥合挑战短文本聚类的 “验证差距”。比较人工和机器方法，我们确定了每种方法固有的偏见，并质疑依赖人工编码作为 “黄金标准”。我们将该方法应用于 Twitter 个人资料描述信息，并发现人类自我描述的特点方式，与先前专家工作相吻合，但也有表达身份特点的有趣差异，这与表达身份的媒介特性有关。

May, 2024

使用 LLM 嵌入进行文本聚类

通过使用大型语言模型（LLMs）的文本嵌入和聚类算法，该研究调查了文本聚类方法对数据集的影响，评估了嵌入对聚类结果的影响、通过摘要进行的维度降低的作用以及嵌入维度和摘要技术的调整。结果显示，LLMs 嵌入在捕捉结构化语言的细微差别方面表现出色，而 BERT 在性能方面领先于其他轻量级选择。此外，我们发现增加嵌入维度和使用摘要技术并不能统一提高聚类效率，暗示这些策略需要仔细分析才能在现实模型中应用。这些结果突显了在文本聚类应用中，需要权衡对细微差别的文本表示需要和计算可行性之间的复杂平衡。该研究通过引入 LLMs 嵌入，扩展了传统文本聚类框架，从而为改进方法学和在各种类型的文本分析中开辟了新的研究方向。

Mar, 2024

文字分类的词与标签联合嵌入

采用标签 - 词汇联合嵌入法和注意力机制的词嵌入模型，用于文本分类并保持了词嵌入的可解释性，同时提供了利用其他信息的能力。在多个大型文本数据集上实验表明，该方法在准确率和速度方面均优于现有最先进方法。

May, 2018

基于词嵌入的主题建模流程

通过结合基于词嵌入、降维和聚类的算法，本研究旨在从未分类的文本集合中获取主题；文本嵌入算法采用了 BERT 模型，这是一种在自然语言处理任务中广泛应用的神经网络架构；为了处理高维数据，使用 UMAP 降维技术，能保留原始数据的局部和全局信息的一部分；K-Means 作为聚类算法，用于获取主题；然后，使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义；该过程的结果显示出较好的数值，因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。

Oct, 2023

模糊聚类中的词向量和有效性指标

本研究使用模糊聚类方法和进化算法优化实现的模糊聚类方法介绍，通过应用基于计数的单词嵌入在 covid 数据集上，研究表明模糊聚类算法对高维数据非常敏感且参数调整会大大改变其性能，我们通过比较不同算法变体的不同嵌入精度来评估实验结果。

Apr, 2022

使用上下文化的单词表示聚类进行主题建模

通过聚类基于 token 的上下文化词表示，可以更自然地捕捉多义性，并用作组织文档的方法，此方法与 LDA 主题模型效果相近且表现出更高的主题质量，尤其是对于 BERT 和 GPT-2 输出层训练的 token 聚类。

Oct, 2020

利用图变换网络对复杂文档布局中的文本语义进行建模

本文提出了一种基于图形表示的模型，并演示了我们不仅可以跨文档检索语义相似的信息，而且我们生成的嵌入空间也捕获了有用的语义信息，类似于仅适用于文本序列的语言模型。

Feb, 2022