走向神经主题表示的泛化
通过最优传输理论,提出一种新的神经主题模型来更好地实现文档表示和一致 / 多样化的主题,特别地,通过最小化文档的 OT 距离来学习文档的主题分布,实验证明该模型在常规和短文本的文本分析中表现显著优于现有的神经主题模型。
Aug, 2020
综述了神经主题模型(Neural Topic Models)的方法、应用和挑战,将当前的神经主题模型方法按网络结构进行系统分类,并介绍了在短文本和跨语言文档等多种场景中的神经主题模型应用。还讨论了基于神经主题模型构建的各种热门应用,最后指出了神经主题模型面临的挑战,以激发未来的研究。
Jan, 2024
提出了一种名为 TAN-NTM 的框架,该框架使用一种新颖的注意力机制,即关注主题相关线索的单词,将文档作为一个标记序列进行处理。该模型发现,利用主题 - 单词分布来学习更好的特征已经没有得到很好的利用,尝试提出一种提高这种探讨的框架。在 20Newsgroups、Yelp Review Polarity 和 AGNews 等基准数据集上,相对于现有 SOTA 主题模型的 NPMI 一致性得分,我们进行了大量的削减和实验,结果证明我们的方法可以获得~9-15%的改善。此外,我们还证明了与现有一些主题模型相比,我们的方法通过潜在文档主题特征的提高,在文档分类和主题引导关键词生成等两个下游任务上表现更好。
Dec, 2020
本文提出了一种高斯混合神经主题模型(GMNTM),该模型将单词的顺序和句子的语义意义同时纳入了主题建模,实验结果表明,相比现有的主题建模方法,GMNTM 在困惑度、检索准确性和分类准确性方面获得了显著的改进。
Feb, 2015
本文介绍了 Aligned Neural Topic Model(ANTM), 一种动态神经主题模型,它使用文本嵌入来计算不同时间段内的语义相似文档的集群,并对齐文档集群以表示其演变。实验证明 ANTM 在主题相干性和多样性方面均优于其他模型。
Feb, 2023
我们提出了 Transformer-Representation Neural Topic Model (TNTM),它将基于变压器的嵌入空间中的主题表示优势与概率建模相结合,利用变分自编码器 (VAE) 框架提高推理速度和建模灵活性,实验结果表明,我们提出的模型在嵌入连贯性方面达到了各种最先进方法的结果,并且保持了几乎完美的主题多样性。
Mar, 2024
加入原型引导的源端表示式,减少稀疏性和过拟合,以提高神经机器翻译的组成泛化性能。实验结果表明,该方法在多个机器翻译数据集上比 Transformer 基线方法表现更优。
Oct, 2022
本文介绍了一种名为 Graph Topic Model (GTM) 的基于图形神经网络 (GNNs) 的神经主题模型,通过信息交互捕捉图形节点之间的关系,将文档和词汇转化成为图中的节点,并根据共现性连接,通过图卷积汇聚邻居节点信息从而通过共享单词在文档之间建立关系,扩充了文档的主题的表达方式。研究者还基于三个数据集开展了广泛的实验,其结果证明了这种方法的有效性。
Sep, 2020
本文研究利用高质量的句子表示和适当的词选择方法直接聚类句子表示的方法来生成更连贯和多样化的主题,相比于利用神经模型的方法有更高的效率和简洁性。
Apr, 2022
本文介绍了标签索引神经主题模型(LI-NTM),它是迄今为止首个有效的上游半监督神经主题模型,并通过文档重建基准测试发现 LI-NTM 在低标记数据制度和带有信息标签的数据集中优于现有神经主题模型,此外,通过消融研究发现,我们共同学习的分类器优于基线分类器。
Apr, 2022