BERTopic: 一种基于类别的 TF-IDF 过程的神经主题建模方法
通过结合基于词嵌入、降维和聚类的算法,本研究旨在从未分类的文本集合中获取主题;文本嵌入算法采用了 BERT 模型,这是一种在自然语言处理任务中广泛应用的神经网络架构;为了处理高维数据,使用 UMAP 降维技术,能保留原始数据的局部和全局信息的一部分;K-Means 作为聚类算法,用于获取主题;然后,使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义;该过程的结果显示出较好的数值,因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。
Oct, 2023
通过引入 TF-RDF 方法和 MPTopic 聚类算法,本研究展示了通过 MPTopic 和 TF-RDF 的协同作用识别出的主题关键词优于 BERTopic 和 Top2Vec 提取的关键词。
Sep, 2023
通过设计不同的探针实验,使用 BERT 和 DistilBERT,我们发现注意力框架在模拟主题词簇时发挥了关键作用,这为探讨概率主题模型和预训练语言模型之间的关系铺平了道路。
Jan, 2023
本研究开发了一种新型的神经主题模型,结合了来自预先训练的语言模型 BERT 的上下文化单词嵌入,无需使用任何词袋信息即可推断文档的主题分布,实验表明该模型在文档分类和主题连贯度指标方面优于现有主题模型,并可处理来自新到达文档的未见单词。
May, 2023
基于软聚类和文档嵌入的模糊主题建模对比传统的 Latent Dirichlet Allocation(LDA)模型,在新闻发布监测中,得到了更加自然的结果。
Sep, 2023
我们提出了一种基于聚类的主题建模方法,使用概念实体作为语言无关的表示,并使用图神经网络从百科全书语料库和知识库中提取实体的向量表示,该方法在连贯性度量方面始终优于其他主题模型。
Jan, 2023
本文研究利用高质量的句子表示和适当的词选择方法直接聚类句子表示的方法来生成更连贯和多样化的主题,相比于利用神经模型的方法有更高的效率和简洁性。
Apr, 2022
通过聚类基于 token 的上下文化词表示,可以更自然地捕捉多义性,并用作组织文档的方法,此方法与 LDA 主题模型效果相近且表现出更高的主题质量,尤其是对于 BERT 和 GPT-2 输出层训练的 token 聚类。
Oct, 2020
本文通过实验测试,比较机器学习中经典的 TF-IDF 法与 BERT 模型在 NLP 任务中的表现,并为使用 BERT 模型提供了实证支持,结果表明 BERT 模型在 NLP 问题中表现更优秀、更独立。
May, 2020
本文提出了一种利用预训练单词嵌入进行文本聚类的新方法,同时整合文本信息进行加权聚类并重新排名前几个单词,旨在挖掘出文档集合中的主题,并对其性能进行基准测试并分析其在降维中的性能。实验表明,所提出的方法在降低时间和计算复杂度同时不输于传统的概率主题模型。
Apr, 2020