利用神经嵌入自动标注主题

COLINGDec, 2016

Automatic Labelling of Topics with Neural Embeddings

Shraey Bhatia, Jey Han Lau, Timothy Baldwin

TL;DR使用维基百科的标题作为标签的候选项，计算文档和词的神经嵌入，以选择与话题最相关的标签，使得主题标签更简单有效。

Abstract

Topics generated by topic models are typically represented as list of terms. To reduce the cognitive overhead of interpreting these topics for end-users, we propose labelling a topic with a succinct phrase that summarises its theme or idea. Using Wikipedia document titles as label cand

topic models neural embeddings wikipedia titles topic labelling efficiency

发现论文，激发创造

主题标签的自动生成

本文提出了一种基于序列到序列神经网络的方法，用于为主题生成描述性标签，同时使用合成的数据集进行训练和测试，并通过与人工标注的标签进行比较评估该方法。

May, 2020

话题作为实体聚类：基于语言模型和图神经网络的基于实体的话题

我们提出了一种基于聚类的主题建模方法，使用概念实体作为语言无关的表示，并使用图神经网络从百科全书语料库和知识库中提取实体的向量表示，该方法在连贯性度量方面始终优于其他主题模型。

Jan, 2023

基于词嵌入的主题建模流程

通过结合基于词嵌入、降维和聚类的算法，本研究旨在从未分类的文本集合中获取主题；文本嵌入算法采用了 BERT 模型，这是一种在自然语言处理任务中广泛应用的神经网络架构；为了处理高维数据，使用 UMAP 降维技术，能保留原始数据的局部和全局信息的一部分；K-Means 作为聚类算法，用于获取主题；然后，使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义；该过程的结果显示出较好的数值，因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。

Oct, 2023

厌倦主题模型？预训练词嵌入聚类同样适用于快速且良好的主题！

本文提出了一种利用预训练单词嵌入进行文本聚类的新方法，同时整合文本信息进行加权聚类并重新排名前几个单词，旨在挖掘出文档集合中的主题，并对其性能进行基准测试并分析其在降维中的性能。实验表明，所提出的方法在降低时间和计算复杂度同时不输于传统的概率主题模型。

Apr, 2020

上下文化注意力嵌入的主题

通过设计不同的探针实验，使用 BERT 和 DistilBERT，我们发现注意力框架在模拟主题词簇时发挥了关键作用，这为探讨概率主题模型和预训练语言模型之间的关系铺平了道路。

Jan, 2023

神经主题建模优于聚类吗？基于语境嵌入的聚类主题实证研究

本文研究利用高质量的句子表示和适当的词选择方法直接聚类句子表示的方法来生成更连贯和多样化的主题，相比于利用神经模型的方法有更高的效率和简洁性。

Apr, 2022

文字分类的词与标签联合嵌入

采用标签 - 词汇联合嵌入法和注意力机制的词嵌入模型，用于文本分类并保持了词嵌入的可解释性，同时提供了利用其他信息的能力。在多个大型文本数据集上实验表明，该方法在准确率和速度方面均优于现有最先进方法。

May, 2018

有标记的交互式主题模型

通过为神经主题模型添加一种直观的交互方式，即用户可以为主题标记一个词语，并更新主题词使其靠近标记词，从而允许用户根据信息需求优化主题，我们的研究方法通过人机研究评估，证明用户标记能够改善文件排序得分，帮助找到更相关的文档。

Nov, 2023

文本的神经嵌入

本文提出了一种新的自然语言文本嵌入方法，从语言模型的神经元权重来生成向量，称为神经嵌入，结果表明其在语义表达方面表现良好。

Aug, 2022

NewsEmbed: 预训练文档表示模型对新闻进行建模

本文提出了一个新颖的方法，使用少量人为监督来挖掘具有语义相关性的新鲜文档及其主题标签，并设计了一个多任务模型 - NewsEmbed，交替使用对比学习和多标签分类来推导通用文档编码器，在多个自然语言理解任务中实现了出色的性能表现。

Jun, 2021