对抗神经主题模型
提出了一种用于文本中的主题抽取的神经主题建模方法,Bidirectional Adversarial Topic (BAT) 模型,该模型使用双向对抗训练构建文档 - 主题分布和文档 - 单词分布之间的两向投影,并扩展了 Gaussian-BAT 模型用以提高相关单词信息的综合利用。在三个基准数据集上进行的实验结果表明,BAT 和 Gaussian-BAT 能够获得更一致的主题,提升了文本聚类的准确性。
Apr, 2020
该研究提出了一种使用循环一致对抗训练的话题建模方法,能够发现连贯的话题和根据文档标签发现话题,并在无监督 / 有监督主题建模和文本分类中实现更好的效果。
Sep, 2020
本文提出了一个基于对抗生成网络的事件提取模型,可以对长文本进行结构化表示,实验结果显示该模型在三个数据集上的表现优于基线模型,尤其在新闻文章数据集上提高了 15% 的 F - 度量值。
Aug, 2019
本文介绍了 Aligned Neural Topic Model(ANTM), 一种动态神经主题模型,它使用文本嵌入来计算不同时间段内的语义相似文档的集群,并对齐文档集群以表示其演变。实验证明 ANTM 在主题相干性和多样性方面均优于其他模型。
Feb, 2023
这篇论文主要介绍了如何使用无限作者主题模型(Infinite Author Topic)来解决传统主题模型中难以确定主题数量的问题,并通过 Gamma-Negative Binomial Process 和 Gibbs Sampling Inference Algorithm 来实现对主题、作者兴趣和文本数据的学习。
Mar, 2015
该研究提出了 Auto-attack on Text-to-image Models(ATM)方法,借助 Gumbel Softmax 分布学习来生成高效、多样的扰动样本,以防止生成模型过分拟合,从而提高模型的稳健性。通过实验分析,发现扰动攻击主要依据于生成速度、多义词、词性和文本长度等因素。
Jun, 2023
利用迭代式多智能体对抗调整,通过 ATM 系统,大型语言模型 (LMM) 可以区分真假相关文件,并且在 RAG 管道中实现更好的性能表现。
May, 2024
本文介绍了标签索引神经主题模型(LI-NTM),它是迄今为止首个有效的上游半监督神经主题模型,并通过文档重建基准测试发现 LI-NTM 在低标记数据制度和带有信息标签的数据集中优于现有神经主题模型,此外,通过消融研究发现,我们共同学习的分类器优于基线分类器。
Apr, 2022
提出了一种名为 TAN-NTM 的框架,该框架使用一种新颖的注意力机制,即关注主题相关线索的单词,将文档作为一个标记序列进行处理。该模型发现,利用主题 - 单词分布来学习更好的特征已经没有得到很好的利用,尝试提出一种提高这种探讨的框架。在 20Newsgroups、Yelp Review Polarity 和 AGNews 等基准数据集上,相对于现有 SOTA 主题模型的 NPMI 一致性得分,我们进行了大量的削减和实验,结果证明我们的方法可以获得~9-15%的改善。此外,我们还证明了与现有一些主题模型相比,我们的方法通过潜在文档主题特征的提高,在文档分类和主题引导关键词生成等两个下游任务上表现更好。
Dec, 2020