利用预训练嵌入和句子袋高效灵活地主题建模

Feb, 2023

利用预训练嵌入和句子袋高效灵活地主题建模

Efficient and Flexible Topic Modeling using Pretrained Embeddings and Bag of Sentences

Johannes Schneider

TL;DR本文提出了一种基于句子嵌入和生成过程模型相结合的话题建模和推断算法，使用期望最大化、硬分配和退火过程推导出快速推理算法。在评估中，我们的方法以相对较少的计算要求取得了最先进的结果。

Abstract

pre-trained language models have led to a new state-of-the-art in many NLP tasks. However, for topic modeling, statistical generative models such as LDA are still prevalent, which do not easily allow incorporatin

pre-trained language models topic modeling generative process models sentence embeddings inference algorithm

发现论文，激发创造

BERTTM：利用预训练语言模型的上下文化单词嵌入来进行神经主题建模

本研究开发了一种新型的神经主题模型，结合了来自预先训练的语言模型 BERT 的上下文化单词嵌入，无需使用任何词袋信息即可推断文档的主题分布，实验表明该模型在文档分类和主题连贯度指标方面优于现有主题模型，并可处理来自新到达文档的未见单词。

May, 2023

具有排序敏感性和语义感知能力的主题建模

本文提出了一种高斯混合神经主题模型（GMNTM），该模型将单词的顺序和句子的语义意义同时纳入了主题建模，实验结果表明，相比现有的主题建模方法，GMNTM 在困惑度、检索准确性和分类准确性方面获得了显著的改进。

Feb, 2015

上下文化注意力嵌入的主题

通过设计不同的探针实验，使用 BERT 和 DistilBERT，我们发现注意力框架在模拟主题词簇时发挥了关键作用，这为探讨概率主题模型和预训练语言模型之间的关系铺平了道路。

Jan, 2023

通过邻域聚合学习主题模型

本文利用网络视角研究主题模型，将节点与词语，边与文档内出现的词语之间的关系相对应，旨在探究如何将真实信号融入其模型中，并改善模型分类表现。

Feb, 2018

厌倦主题模型？预训练词嵌入聚类同样适用于快速且良好的主题！

本文提出了一种利用预训练单词嵌入进行文本聚类的新方法，同时整合文本信息进行加权聚类并重新排名前几个单词，旨在挖掘出文档集合中的主题，并对其性能进行基准测试并分析其在降维中的性能。实验表明，所提出的方法在降低时间和计算复杂度同时不输于传统的概率主题模型。

Apr, 2020

双向语言模型的半监督序列标注

本文探讨了一种半监督的方法，通过添加双向语言模型的预训练上下文嵌入到 NLP 系统中用于序列标注任务，相比其他转移学习或添加标记数据和任务特定词典的方法，在命名实体识别和块分割等任务上实现了最先进的结果。

Apr, 2017

话题作为实体聚类：基于语言模型和图神经网络的基于实体的话题

我们提出了一种基于聚类的主题建模方法，使用概念实体作为语言无关的表示，并使用图神经网络从百科全书语料库和知识库中提取实体的向量表示，该方法在连贯性度量方面始终优于其他主题模型。

Jan, 2023

预训练是热门话题：上下文化文档嵌入提高了主题相关性

本文介绍了关于主题模型的研究，探讨了如何将 contextual embeddings 应用于 neural topic models，以提高主题模型的准确性和一致性，并且研究结果表明，对自然语言处理模型的改进将会对主题模型产生积极影响。

Apr, 2020

使用子词袋来泛化字嵌入

本文提出了一种基于子词级别的词向量生成模型来解决传统词向量模型无法应对未登录词、破音字等问题，并在英文词汇相似性任务和 23 种语言的词性标注和变形属性的联合预测任务中实现了最优表现。

Sep, 2018

句子和文本的分布式表示

提出了一种名为 “Paragraph Vector” 的无监督算法，用于从文本段落、句子和文档等长度可变的文本片段中学习固定长度的特征表示，该算法能够克服 Bag-of-words 模型的两个主要弱点，经实验证明，Paragraph Vectors 在文本分类和情感分析任务上取得了新的最佳表现。

May, 2014