主题标签的自动生成

SIGIRMay, 2020

Automatic Generation of Topic Labels

Areej Alokaili, Nikolaos Aletras, Mark Stevenson

TL;DR本文提出了一种基于序列到序列神经网络的方法，用于为主题生成描述性标签，同时使用合成的数据集进行训练和测试，并通过与人工标注的标签进行比较评估该方法。

Abstract

topic modelling is a popular unsupervised method for identifying the underlying themes in document collections that has many applications in information retrieval. A topic is usually represented by a list of term

topic modelling unsupervised method semantic similarity neural-based approach synthetic dataset

发现论文，激发创造

利用神经嵌入自动标注主题

使用维基百科的标题作为标签的候选项，计算文档和词的神经嵌入，以选择与话题最相关的标签，使得主题标签更简单有效。

Dec, 2016

主题建模：超越标记输出

该研究介绍了一种将传统主题建模方法的输出扩展到除了独立的令牌列表之外的新方法，通过提取高评分的关键词，并将其映射到主题模型的令牌输出，提高其可解释性。

Jan, 2024

基于查询的主题模型

提出了一种新的查询驱动主题模型，可以允许用户指定一个简单的查询，并返回相关的主题，从而避免了领域专家的繁琐工作。实验结果表明，该模型相比于传统和神经主题模型更加有效。

May, 2021

自动主题生成的分层潜在语义映射

本文提出一种新的名为 Hierarchical Latent Semantic Mapping (HLSM) 的主题生成方法，它可以自动从语料库中生成主题，并使用单词之间的关联和层次生成主题网络。实验表明，相比于现有的一些最先进的方法，HLSM 在几个文档集合上表现良好。

Nov, 2015

半监督神经主题建模的联合学习方法

本文介绍了标签索引神经主题模型（LI-NTM），它是迄今为止首个有效的上游半监督神经主题模型，并通过文档重建基准测试发现 LI-NTM 在低标记数据制度和带有信息标签的数据集中优于现有神经主题模型，此外，通过消融研究发现，我们共同学习的分类器优于基线分类器。

Apr, 2022

多标签文档分类的统计主题模型

本文探讨生成性统计主题模型在多标签文档分类中的应用，相对于判别性模型，在包含大量稀有标签和高度倾斜标签分布等实际数据集的分类问题中有优越性。实验结果表明，相较于判别性方法，概率生成模型在多标签分类方面表现优异。

Jul, 2011

循环中的人类：如何通过手动标记每个类别中仅有的几个文档来有效创建连贯的主题

本文研究表明，结合简单的主题提取方法的有监督少样本学习可以在仅使用每个类别少量标记文档的情况下，优于无监督主题建模技术，生成连贯的主题。

Dec, 2022

主题建模与深度神经网络：一项调查

本文介绍了神经主题模型研究的最新进展和发展方向，旨在为 AI 社区中的研究人员提供一个全面的概述以促进其在这一快速发展研究领域中进行创新。

Feb, 2021

有标记的交互式主题模型

通过为神经主题模型添加一种直观的交互方式，即用户可以为主题标记一个词语，并更新主题词使其靠近标记词，从而允许用户根据信息需求优化主题，我们的研究方法通过人机研究评估，证明用户标记能够改善文件排序得分，帮助找到更相关的文档。

Nov, 2023

神经关键词生成的半监督学习

本篇论文探讨了如何利用半监督学习方法，在有限的有标签数据下，将无标签数据与有标签数据结合来提高关键短语生成的性能，实现多任务学习，通过无监督关键短语抽取方法或自学习算法得到的合成关键短语为无标签数据进行标注。实验结果表明，利用半监督学习的方法能够明显优于仅训练有标签数据的最先进模型。

Aug, 2018