自然语言处理中各种文本嵌入对聚类性能的影响

May, 2023

自然语言处理中各种文本嵌入对聚类性能的影响

Influence of various text embeddings on clustering performance in NLP

Rohan Saha

TL;DR本研究探讨了在电商平台的评论中使用聚类算法对评论星级进行重新标注的任务，使用了 BERT 和 Word2Vec 两种不同的文本嵌入来表示文本，并测量了各种聚类算法（包括 KMeans，单连系群聚类和基于密度的算法）的性能，结果表明嵌入类型对算法性能有很大的影响。

Abstract

With the advent of e-commerce platforms, reviews are crucial for customers to assess the credibility of a product. The star ratings do not always match the review text written by the customer. For example, a thre

e-commerce reviews clustering text embeddings algorithm performance

发现论文，激发创造

使用 LLM 嵌入进行文本聚类

通过使用大型语言模型（LLMs）的文本嵌入和聚类算法，该研究调查了文本聚类方法对数据集的影响，评估了嵌入对聚类结果的影响、通过摘要进行的维度降低的作用以及嵌入维度和摘要技术的调整。结果显示，LLMs 嵌入在捕捉结构化语言的细微差别方面表现出色，而 BERT 在性能方面领先于其他轻量级选择。此外，我们发现增加嵌入维度和使用摘要技术并不能统一提高聚类效率，暗示这些策略需要仔细分析才能在现实模型中应用。这些结果突显了在文本聚类应用中，需要权衡对细微差别的文本表示需要和计算可行性之间的复杂平衡。该研究通过引入 LLMs 嵌入，扩展了传统文本聚类框架，从而为改进方法学和在各种类型的文本分析中开辟了新的研究方向。

Mar, 2024

模糊聚类中的词向量和有效性指标

本研究使用模糊聚类方法和进化算法优化实现的模糊聚类方法介绍，通过应用基于计数的单词嵌入在 covid 数据集上，研究表明模糊聚类算法对高维数据非常敏感且参数调整会大大改变其性能，我们通过比较不同算法变体的不同嵌入精度来评估实验结果。

Apr, 2022

从图像到文本分类：一种基于聚类词嵌入的新方法

本文提出了一种基于聚类词向量的文本分类方法，使用 K 均值算法构建超级词向量表征，建立特定于类别的词汇表以提高性能，在主题分类和极性分类任务中表现优异。

Jul, 2017

利用词嵌入进行聚类的语言模型用于文本可读性评估

使用聚类方法基于词向量的语言模型，在一个更高语义空间中依据文本回归的特征表现显著优于之前的技术方案，同时具备与文档长度变化相关性自适应的能力。

Sep, 2017

基于词嵌入的主题建模流程

通过结合基于词嵌入、降维和聚类的算法，本研究旨在从未分类的文本集合中获取主题；文本嵌入算法采用了 BERT 模型，这是一种在自然语言处理任务中广泛应用的神经网络架构；为了处理高维数据，使用 UMAP 降维技术，能保留原始数据的局部和全局信息的一部分；K-Means 作为聚类算法，用于获取主题；然后，使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义；该过程的结果显示出较好的数值，因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。

Oct, 2023

使用上下文化的单词表示聚类进行主题建模

通过聚类基于 token 的上下文化词表示，可以更自然地捕捉多义性，并用作组织文档的方法，此方法与 LDA 主题模型效果相近且表现出更高的主题质量，尤其是对于 BERT 和 GPT-2 输出层训练的 token 聚类。

Oct, 2020

模仿人类过程：通过潜在语义聚类进行文本表示的分类

通过聚类单词并组合成文本向量的新文本表示方案，在 5 个分类基准测试中得到了有效的评估结果，并通过可视化分析验证了其有效性。

Jun, 2019

神经主题建模优于聚类吗？基于语境嵌入的聚类主题实证研究

本文研究利用高质量的句子表示和适当的词选择方法直接聚类句子表示的方法来生成更连贯和多样化的主题，相比于利用神经模型的方法有更高的效率和简洁性。

Apr, 2022

基于相关性的词嵌入

本文提出两种具有不同目标函数的学习模型，用于基于查询 - 文档相关性信息学习单词表示，实验结果表明相对于 Word2vec 等基于词语相似度的模型，基于相关性的单词嵌入模型在查询扩展和查询分类等信息检索任务上具有显著优越性。

May, 2017

上下文化注意力嵌入的主题

通过设计不同的探针实验，使用 BERT 和 DistilBERT，我们发现注意力框架在模拟主题词簇时发挥了关键作用，这为探讨概率主题模型和预训练语言模型之间的关系铺平了道路。

Jan, 2023