TaxoCom: 利用分层发现新话题群集的主题分类完成

WWWJan, 2022

TaxoCom: 利用分层发现新话题群集的主题分类完成

TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel Topic Clusters

Dongha Lee, Jiaming Shen, SeongKu Kang, Susik Yoon, Jiawei Han...

TL;DR研究自动构建文档集合的隐藏主题 (或类别) 结构的主题分类法建议一个名为 TaxoCom 的新框架，该框架利用关于主题结构的部分 (或不完全) 信息作为指南来发现完整的主题分类法，并应用嵌入和聚类技术来识别层级主题结构中的新主题。

Abstract

topic taxonomies, which represent the latent topic (or category) structure of document collections, provide valuable knowledge of contents in many applications such as web search and information filtering. Recently, several →

topic taxonomies unsupervised methods topic structure complete topic taxonomy embedding and clustering techniques

发现论文，激发创造

TaxoGen: 自适应术语嵌入与聚类的无监督主题分类构建

本文提出了一种采用嵌入术和层次聚类方法的主题分类法 TaxoGen，通过每个节点表示概念主题，定义为语义一致概念项的聚类，以构建主题分类法，并对两个真实数据进行了实验，证明了其与基线方法的有效性。

Dec, 2018

通过层次感知的主题短语生成扩展话题分类

TopicExpan 是一种新的主题分类扩展框架，它结合了基于文本内容和新主题周围的层级关系结构，直接生成新主题相关的术语，实验结果表明，它在两个真实文本语料库中的表现显著优于其他基线方法。

Oct, 2022

通过融合关系表示增强概念生成以完成分类法

GenTaxo 通过识别需要新概念的现有分类系统中的位置，然后生成适当的概念名称，从而提高了分类完整性。

Jun, 2021

通过结构 - 语义表示实现自监督的分类补全

本研究提出了一种名为 TaxoEnrich 的新的分类完成框架，它有效地利用现有分类体系中的语义特征和结构信息，并提供更好的候选位置表示以提高分类完成性能。实验结果表明，在四个来自不同领域的大型真实数据集上，TaxoEnrich 在所有评估指标上均实现了最佳性能，并且在很大程度上优于先前的最新方法。

Feb, 2022

找出父级，然后标记子级：使用预训练语言模型的两阶段分类法完成方法

本文提出了名为 ATTEMPT 的两阶段方法，通过找到父节点并标记子节点的方式，将新概念插入正确的位置。利用预训练的语言模型进行上下位关系识别，通过合并本地节点和提示生成自然语句。实验结果表明，ATTEMPT 在分类系统补全和扩展任务上表现最佳，超过了现有方法。

Jun, 2024

通过联合球树和文本嵌入进行层次主题挖掘

提出了一种新方法：基于类别树描述的文本语料库的层次话题挖掘，通过开发一种新的联合树和文本嵌入方法，同时建模类别树结构和语料库生成过程来实现有效的层次话题挖掘，发现代表性词。该方法具有高效的性能和弱监督下的分类任务性能优势。

Jul, 2020

TaxoExpan: 利用位置增强的图神经网络进行自监督分类扩展

本文提出了一种名为 TaxoExpan 的自我监督框架，使用一组 <查询概念，锚定概念> 对从现有分类法中自动生成的训练数据。通过使用这种自我监督数据，TaxoExpan 学习模拟预测查询概念是否为锚定概念的直接下位词的模型，并提出了两个创新技术：（1）增强位置的图神经网络，用于编码现有分类法中锚定概念的局部结构；（2）噪声鲁棒训练目标，使学习模型不受自我监督数据标注噪声的影响。实验结果表明，TaxoExpan 对于分类法扩展具有高效性和有效性。

Jan, 2020

在标记零售银行交易过程中使用零点提示的自动创建和扩展主题分类系统

通过使用基于指令的精调大型语言模型（LLMs），本研究提出了一种无监督方法来自动生成和扩展主题分类法。我们运用主题建模和关键词提取技术创建初始主题分类法，并使用 LLMs 对结果进行后处理以创建层次结构。为了通过新术语扩展现有分类法，我们使用零样本提示来确定在何处添加新节点，这是首次在分类任务中提出此种方法。我们使用生成的分类法为来自零售银行数据集的商户分配标签。为了评估我们的工作，我们请 12 位志愿者回答一个两部分的表格，首先评估创建的分类法质量，然后评估基于该分类法为商户分配的标签。评估结果显示所选分类法的一致性率超过 90％，而商户分配的平均一致性超过 80％。

Jan, 2024

ClusTop: 一种无监督和集成的文本聚类和主题提取框架

本文提出了一个无监督文本聚类与主题提取框架 “ClusTop”，该框架将文本聚类和主题提取整合到一个统一的框架中，并可以同时实现高质量的聚类结果和从每个聚类中提取主题。该框架包括四个组件：增强语言模型训练、降维、聚类和主题提取。

Jan, 2023

三元组匹配网络完成分类

通过提出 Triplet Matching Network 模型，实现了新的 “taxonomy completion” 任务，即同时发现查询的上位词和下位词，通过实验验证，在实现新任务的同时，对于以往的 taxonomy expansion 任务也取得了最佳表现。

Jan, 2021