利用负采样改进上下文化主题模型

Mar, 2023

利用负采样改进上下文化主题模型

Improving Contextualized Topic Models with Negative Sampling

Suman Adhya, Avishek Lahiri, Debarshi Kumar Sanyal, Partha Pratim Das

TL;DR本文提出了一种基于负采样机制的上下文主题模型，通过扰动生成的文档 - 主题向量，并利用三元组损失函数，鼓励从正确文档 - 主题向量重构出来的文档与输入文档相似，与从扰动向量重构出来的文档相异，实验证明该方法在不同主题数量公开数据集上得到了改善。同时该模型具有较高的主题多样性。

Abstract

topic modeling has emerged as a dominant method for exploring large document collections. Recent approaches to topic modeling use large contextualized language models and →

topic modeling contextualized language models variational autoencoders negative sampling mechanism document-topic vector

发现论文，激发创造

主题驱动神经语言模型

本文介绍了一种神经语言模型，可以通过类似主题模型的架构将文档上下文（而非当前句子）作为简洁的表征加入模型中。实验表明，这种模型在语言模型困惑度和主题相关性方面优于仅基于句子的模型和标准 LDA 主题模型。同时，该模型还具有生成单个主题关联句子的功能，为主题的解释提供了另一种方式。

Apr, 2017

预训练是热门话题：上下文化文档嵌入提高了主题相关性

本文介绍了关于主题模型的研究，探讨了如何将 contextual embeddings 应用于 neural topic models，以提高主题模型的准确性和一致性，并且研究结果表明，对自然语言处理模型的改进将会对主题模型产生积极影响。

Apr, 2020

LEMON: 知识图谱嵌入负采样的语言模型

本文提出了一种利用预训练语言模型来生成负样本的方法，该方法利用实体之间的距离通过它们的文本信息形成邻域集群，以得到符号实体的表示形式，有效地应用于基准知识图谱的链接预测任务。

Mar, 2022

主题 - 语义对比学习减轻短文本主题建模中的数据稀疏性

提出了一种新颖的短文本主题建模框架 Topic-Semantic Contrastive Topic Model (TSCTM)，采用一种新的对比学习方法来丰富学习信号并缓解数据稀疏问题，该方法优于现有的基线模型，不受数据增强可用性限制，能够产生高质量的主题和主题分布。

Nov, 2022

图形对比主题模型

本文提出了一种基于图的对比学习方法，使用生成的正负样本和原型来改善学习文档主题表示和潜在主题。通过对几个基准数据集的实验，证明了该方法在主题连贯性和文档表示学习方面的有效性。

Jul, 2023

改进负对比度的神经文本检索

本研究探讨了在自动问答的双编码器模型中使用负采样的影响，并探索了四种补充传统随机负采样的方式。实验表明，本研究提出的基于检索和启发式规则的负采样策略可以显著提高双编码器模型在开放领域问答数据集上的表现，并取得了新的最好性能。

Oct, 2020

具有基于文档信息的分布式先验的神经自回归主题模型

我们提出了一种新颖的神经自回归主题模型，利用语言建模方式中单词周围的完整上下文信息进行学习，同时将嵌入作为分布式先验知识引入模型，这两个扩展可以处理短文本情况并提高主题模型的一般性、可解释性和适用性。

Sep, 2018

使用 Wasserstein 知识蒸馏提高神经主题模型

本文提出了一种知识蒸馏框架，以压缩具有大内存占用的上下文化主题模型，而不会在主题质量上造成损失，并在两个公开数据集上进行实验以证明其有效性。

Mar, 2023

神经动态聚焦主题模型

本文提出了一种基于神经组态推断的动态聚焦主题模型，该模型能够跟踪主题的出现情况以及活跃度，并在各种任务中实现了比其他主题模型更好的泛化能力和类似的预测能力。

Jan, 2023

重新思考自监督目标，用于可泛化的连贯建模

本文研究利用基本的神经模型架构，结合对比学习中的负采样和硬负采样策略以及大规模全局负采样队列的增强效应，在任务独立测试集上进行一致性模型的评估和下游任务的改进。结果表明，增加负样本密度和使用全局负采样队列结合硬负采样可以显著地提高模型的性能表现。

Oct, 2021