通过聚类单词并组合成文本向量的新文本表示方案,在 5 个分类基准测试中得到了有效的评估结果,并通过可视化分析验证了其有效性。
Jun, 2019
使用聚类方法基于词向量的语言模型,在一个更高语义空间中依据文本回归的特征表现显著优于之前的技术方案,同时具备与文档长度变化相关性自适应的能力。
Sep, 2017
通过结合基于词嵌入、降维和聚类的算法,本研究旨在从未分类的文本集合中获取主题;文本嵌入算法采用了 BERT 模型,这是一种在自然语言处理任务中广泛应用的神经网络架构;为了处理高维数据,使用 UMAP 降维技术,能保留原始数据的局部和全局信息的一部分;K-Means 作为聚类算法,用于获取主题;然后,使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义;该过程的结果显示出较好的数值,因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。
Oct, 2023
本文提出了一种利用预训练单词嵌入进行文本聚类的新方法,同时整合文本信息进行加权聚类并重新排名前几个单词,旨在挖掘出文档集合中的主题,并对其性能进行基准测试并分析其在降维中的性能。实验表明,所提出的方法在降低时间和计算复杂度同时不输于传统的概率主题模型。
Apr, 2020
采用标签 - 词汇联合嵌入法和注意力机制的词嵌入模型,用于文本分类并保持了词嵌入的可解释性,同时提供了利用其他信息的能力。在多个大型文本数据集上实验表明,该方法在准确率和速度方面均优于现有最先进方法。
May, 2018
本研究使用模糊聚类方法和进化算法优化实现的模糊聚类方法介绍,通过应用基于计数的单词嵌入在 covid 数据集上,研究表明模糊聚类算法对高维数据非常敏感且参数调整会大大改变其性能,我们通过比较不同算法变体的不同嵌入精度来评估实验结果。
Apr, 2022
本文探讨使用无监督学习的方法,通过单词嵌入在词向量空间内学习语义相似性,以实现对文本分类任务的性能优化。研究发现,使用领域特定的词嵌入可以提高分类性能。
May, 2017
提出了一种半监督的短文本聚类方法,使用神经网络将文本表示为分布式向量,并使用少量标记数据来指定聚类目标,并通过设计新的目标将表示学习过程和 k 均值聚类过程结合在一起优化,最后迭代地用已标记和未标记的数据来优化整个目标,得到了比其他文本聚类方法更好的实验结果。
Feb, 2016
本研究探讨了在电商平台的评论中使用聚类算法对评论星级进行重新标注的任务,使用了 BERT 和 Word2Vec 两种不同的文本嵌入来表示文本,并测量了各种聚类算法(包括 KMeans,单连系群聚类和基于密度的算法)的性能,结果表明嵌入类型对算法性能有很大的影响。
May, 2023
本文提出了一种使用 n-grams 的 BOW 模型,通过调用 Skip-gram 模型快速获得单词向量表示并将其平均以获得 n-grams 的表征,从而在低维度空间中为所有 n-grams 维护了相同的语义信息,使用 K-means 聚类将语义概念分组以大大减少特征数量,最终展示了在情感分类任务中胜过 LSA 和 LDA,与传统的 BOW 模型相比,具有更少的特征但类似的结果。
Dec, 2014