三元组匹配网络完成分类

Jan, 2021

Taxonomy Completion via Triplet Matching Network

Jieyu Zhang, Xiangchen Song, Ying Zeng, Jiaze Chen, Jiaming Shen...

TL;DR通过提出 Triplet Matching Network 模型，实现了新的 “taxonomy completion” 任务，即同时发现查询的上位词和下位词，通过实验验证，在实现新任务的同时，对于以往的 taxonomy expansion 任务也取得了最佳表现。

Abstract

Automatically constructing taxonomy finds many applications in e-commerce and web search. One critical challenge is as data and business scope grow in real applications, new concepts are emerging and needed to be added to the existing →

taxonomy hypernym hyponym triplet matching network taxonomy completion

发现论文，激发创造

通过融合关系表示增强概念生成以完成分类法

GenTaxo 通过识别需要新概念的现有分类系统中的位置，然后生成适当的概念名称，从而提高了分类完整性。

Jun, 2021

TaxoExpan: 利用位置增强的图神经网络进行自监督分类扩展

本文提出了一种名为 TaxoExpan 的自我监督框架，使用一组 <查询概念，锚定概念> 对从现有分类法中自动生成的训练数据。通过使用这种自我监督数据，TaxoExpan 学习模拟预测查询概念是否为锚定概念的直接下位词的模型，并提出了两个创新技术：（1）增强位置的图神经网络，用于编码现有分类法中锚定概念的局部结构；（2）噪声鲁棒训练目标，使学习模型不受自我监督数据标注噪声的影响。实验结果表明，TaxoExpan 对于分类法扩展具有高效性和有效性。

Jan, 2020

找出父级，然后标记子级：使用预训练语言模型的两阶段分类法完成方法

本文提出了名为 ATTEMPT 的两阶段方法，通过找到父节点并标记子节点的方式，将新概念插入正确的位置。利用预训练的语言模型进行上下位关系识别，通过合并本地节点和提示生成自然语句。实验结果表明，ATTEMPT 在分类系统补全和扩展任务上表现最佳，超过了现有方法。

Jun, 2024

用户行为监督下的产品分类扩展：从所做的事情中学到所需的知识

本文提出了一种自我监督和用户行为导向的产品分类法拓展框架，通过从现有的分类法和用户点击日志中抽取用户感兴趣的候选下义词关系并利用预训练语言模型和图神经网络结合对比学习来建模概念和关系，以自动将新概念附加到现有分类法，从而减少手动更新的人力成本。

Mar, 2022

通过部分或完全匹配三元组来查询三元概念

通过倒排索引的完全或部分匹配三元组的方法，我们介绍了一种查询三元概念的新方法，以检索包含一组术语在其范围、意图和 / 或模式中的已经计算过的三元概念。与 Ananias 中描述的近似方法相反，我们的方法不需要保留初始的三元上下文或其三个二元对应项，避免了通过上下文探索对三元组成分应用派生运算符，并且消除了通过分解阶段获得三元概念作为一维查询的答案的要求。此外，我们的解决方案引入了一种基于与给定查询的相似性的检索到的三元概念的新指标进行排序的方法。最后，我们主要进行了一项实证研究，以说明我们的方法相对于近似方法的有效性和可扩展性。我们的解决方案不仅展示了更高的效率，还突显了更好的可扩展性，非常适合大数据场景。

Jan, 2024

通过结构 - 语义表示实现自监督的分类补全

本研究提出了一种名为 TaxoEnrich 的新的分类完成框架，它有效地利用现有分类体系中的语义特征和结构信息，并提供更好的候选位置表示以提高分类完成性能。实验结果表明，在四个来自不同领域的大型真实数据集上，TaxoEnrich 在所有评估指标上均实现了最佳性能，并且在很大程度上优于先前的最新方法。

Feb, 2022

TaxoCom: 利用分层发现新话题群集的主题分类完成

研究自动构建文档集合的隐藏主题 (或类别) 结构的主题分类法建议一个名为 TaxoCom 的新框架，该框架利用关于主题结构的部分 (或不完全) 信息作为指南来发现完整的主题分类法，并应用嵌入和聚类技术来识别层级主题结构中的新主题。

Jan, 2022

专利文本中用于上下位词检索的技术分类

本文提出了一种基于专利合作分类（CPC）的技术术语分类自动化方法，生成的分类包含 9 个独立技术分支中的约 170k 个节点，并且使用 Text-to-Text Transfer Transformer (T5) 模型 fine-tune 生成上下位词并得到相对较高的准确性，从而证明了此资源的质量。T5 模型可以打开新的技术术语的分类（根据上下位关系），因此这个资源可以更新，是技术术语领域不断发展的必要特性。

Nov, 2022

超类别检测的数据增强

本研究旨在探讨 NLP 中的 hypernymy detection 问题，提出两种数据扩增技术和两种扩增数据集的策略，通过对 3 种数据集和 2 种向量空间的评估表明，这些方法显著提高了分类器的性能。

May, 2020

利用多段双向上下文匹配进行实体同义词发现

该论文提出了一种多环境下的同义词发现框架，使用分布式假设和神经网络模型 SYNONYMNET，从自由文本语料库中检测出实体的同义词，以提高实体消歧或知识图谱规范化等任务的效果和稳健性。

Dec, 2018