使用上下文化的单词表示聚类进行主题建模

Oct, 2020

使用上下文化的单词表示聚类进行主题建模

Topic Modeling with Contextualized Word Representation Clusters

Laure Thompson, David Mimno

TL;DR通过聚类基于 token 的上下文化词表示，可以更自然地捕捉多义性，并用作组织文档的方法，此方法与 LDA 主题模型效果相近且表现出更高的主题质量，尤其是对于 BERT 和 GPT-2 输出层训练的 token 聚类。

Abstract

clustering token-level contextualized word representations produces output that shares many similarities with topic models for English text collections. Unlike clusterings of vocabulary-level word embeddings, the

clustering contextualized word representations polysemy bert gpt-2

发现论文，激发创造

上下文化注意力嵌入的主题

通过设计不同的探针实验，使用 BERT 和 DistilBERT，我们发现注意力框架在模拟主题词簇时发挥了关键作用，这为探讨概率主题模型和预训练语言模型之间的关系铺平了道路。

Jan, 2023

神经主题建模优于聚类吗？基于语境嵌入的聚类主题实证研究

本文研究利用高质量的句子表示和适当的词选择方法直接聚类句子表示的方法来生成更连贯和多样化的主题，相比于利用神经模型的方法有更高的效率和简洁性。

Apr, 2022

话题作为实体聚类：基于语言模型和图神经网络的基于实体的话题

我们提出了一种基于聚类的主题建模方法，使用概念实体作为语言无关的表示，并使用图神经网络从百科全书语料库和知识库中提取实体的向量表示，该方法在连贯性度量方面始终优于其他主题模型。

Jan, 2023

BERTTM：利用预训练语言模型的上下文化单词嵌入来进行神经主题建模

本研究开发了一种新型的神经主题模型，结合了来自预先训练的语言模型 BERT 的上下文化单词嵌入，无需使用任何词袋信息即可推断文档的主题分布，实验表明该模型在文档分类和主题连贯度指标方面优于现有主题模型，并可处理来自新到达文档的未见单词。

May, 2023

厌倦主题模型？预训练词嵌入聚类同样适用于快速且良好的主题！

本文提出了一种利用预训练单词嵌入进行文本聚类的新方法，同时整合文本信息进行加权聚类并重新排名前几个单词，旨在挖掘出文档集合中的主题，并对其性能进行基准测试并分析其在降维中的性能。实验表明，所提出的方法在降低时间和计算复杂度同时不输于传统的概率主题模型。

Apr, 2020

BERT、ELMo 和 GPT-2 嵌入的几何比较：上下文化词表示有多上下文？

用上下文化单词表示替代静态单词嵌入在许多自然语言处理任务中都有很大的提升。本文研究了从 ELmo 和 BERT 等模型生成的上下文化表示到底有多少有多少上下文性，是否针对每个单词有无限多个上下文相关的表示，还是本质上分配了一个有限数量的单词感觉表示。

Sep, 2019

BERTopic: 一种基于类别的 TF-IDF 过程的神经主题建模方法

BERTopic 是一种主题模型，通过 BERT 语言模型生成文档嵌入，并利用 TF-IDF 进行聚类和生成主题，具有较高的性能。

Mar, 2022

上下文嵌入概述调查

该综述评估了现有的上下文嵌入模型，跨语言多语预训练，上下文嵌入在下游任务中的应用，模型压缩和分析。

Mar, 2020

预训练是热门话题：上下文化文档嵌入提高了主题相关性

本文介绍了关于主题模型的研究，探讨了如何将 contextual embeddings 应用于 neural topic models，以提高主题模型的准确性和一致性，并且研究结果表明，对自然语言处理模型的改进将会对主题模型产生积极影响。

Apr, 2020

基于词嵌入的主题建模流程

通过结合基于词嵌入、降维和聚类的算法，本研究旨在从未分类的文本集合中获取主题；文本嵌入算法采用了 BERT 模型，这是一种在自然语言处理任务中广泛应用的神经网络架构；为了处理高维数据，使用 UMAP 降维技术，能保留原始数据的局部和全局信息的一部分；K-Means 作为聚类算法，用于获取主题；然后，使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义；该过程的结果显示出较好的数值，因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。

Oct, 2023