走向神经主题表示的泛化

Jul, 2023

Towards Generalising Neural Topical Representations

Xiaohao Yang, He Zhao, Dinh Phung, Lan Du

TL;DR提出了一种通过模型相似度来改进神经主题模型的方法，利用数据增强和层次化主题传输距离来计算文档之间的语义距离，从而显著提高神经主题模型在不同语料库中的泛化能力。

Abstract

topic models have evolved from conventional Bayesian probabilistic models to Neural topic models (NTMs) over the last two decays. Although NTMs have achieved promising performance when trained and tested on a spe

topic models neural topic models generalisation ability hierarchical topic transport distance neural topical representation

发现论文，激发创造

最优输运下的神经主题模型

通过最优传输理论，提出一种新的神经主题模型来更好地实现文档表示和一致 / 多样化的主题，特别地，通过最小化文档的 OT 距离来学习文档的主题分布，实验证明该模型在常规和短文本的文本分析中表现显著优于现有的神经主题模型。

Aug, 2020

神经主题模型综述：方法、应用和挑战

综述了神经主题模型（Neural Topic Models）的方法、应用和挑战，将当前的神经主题模型方法按网络结构进行系统分类，并介绍了在短文本和跨语言文档等多种场景中的神经主题模型应用。还讨论了基于神经主题模型构建的各种热门应用，最后指出了神经主题模型面临的挑战，以激发未来的研究。

Jan, 2024

TAN-NTM：用于神经主题建模的主题注意力网络

提出了一种名为 TAN-NTM 的框架，该框架使用一种新颖的注意力机制，即关注主题相关线索的单词，将文档作为一个标记序列进行处理。该模型发现，利用主题 - 单词分布来学习更好的特征已经没有得到很好的利用，尝试提出一种提高这种探讨的框架。在 20Newsgroups、Yelp Review Polarity 和 AGNews 等基准数据集上，相对于现有 SOTA 主题模型的 NPMI 一致性得分，我们进行了大量的削减和实验，结果证明我们的方法可以获得～9-15％的改善。此外，我们还证明了与现有一些主题模型相比，我们的方法通过潜在文档主题特征的提高，在文档分类和主题引导关键词生成等两个下游任务上表现更好。

Dec, 2020

具有排序敏感性和语义感知能力的主题建模

本文提出了一种高斯混合神经主题模型（GMNTM），该模型将单词的顺序和句子的语义意义同时纳入了主题建模，实验结果表明，相比现有的主题建模方法，GMNTM 在困惑度、检索准确性和分类准确性方面获得了显著的改进。

Feb, 2015

ANTM: 基于对齐的神经主题模型用于探索快速演化的话题

本文介绍了 Aligned Neural Topic Model（ANTM）, 一种动态神经主题模型，它使用文本嵌入来计算不同时间段内的语义相似文档的集群，并对齐文档集群以表示其演变。实验证明 ANTM 在主题相干性和多样性方面均优于其他模型。

Feb, 2023

基于 Transformer 表示的概率主题建模

我们提出了 Transformer-Representation Neural Topic Model (TNTM)，它将基于变压器的嵌入空间中的主题表示优势与概率建模相结合，利用变分自编码器 (VAE) 框架提高推理速度和建模灵活性，实验结果表明，我们提出的模型在嵌入连贯性方面达到了各种最先进方法的结果，并且保持了几乎完美的主题多样性。

Mar, 2024

神经机器翻译的语义表征分类

加入原型引导的源端表示式，减少稀疏性和过拟合，以提高神经机器翻译的组成泛化性能。实验结果表明，该方法在多个机器翻译数据集上比 Transformer 基线方法表现更优。

Oct, 2022

融合文档关系图的神经主题建模

本文介绍了一种名为 Graph Topic Model (GTM) 的基于图形神经网络 (GNNs) 的神经主题模型，通过信息交互捕捉图形节点之间的关系，将文档和词汇转化成为图中的节点，并根据共现性连接，通过图卷积汇聚邻居节点信息从而通过共享单词在文档之间建立关系，扩充了文档的主题的表达方式。研究者还基于三个数据集开展了广泛的实验，其结果证明了这种方法的有效性。

Sep, 2020

神经主题建模优于聚类吗？基于语境嵌入的聚类主题实证研究

本文研究利用高质量的句子表示和适当的词选择方法直接聚类句子表示的方法来生成更连贯和多样化的主题，相比于利用神经模型的方法有更高的效率和简洁性。

Apr, 2022

半监督神经主题建模的联合学习方法

本文介绍了标签索引神经主题模型（LI-NTM），它是迄今为止首个有效的上游半监督神经主题模型，并通过文档重建基准测试发现 LI-NTM 在低标记数据制度和带有信息标签的数据集中优于现有神经主题模型，此外，通过消融研究发现，我们共同学习的分类器优于基线分类器。

Apr, 2022