三元组匹配网络完成分类
本文提出了一种名为 TaxoExpan 的自我监督框架,使用一组 <查询概念,锚定概念> 对从现有分类法中自动生成的训练数据。通过使用这种自我监督数据,TaxoExpan 学习模拟预测查询概念是否为锚定概念的直接下位词的模型,并提出了两个创新技术:(1)增强位置的图神经网络,用于编码现有分类法中锚定概念的局部结构;(2)噪声鲁棒训练目标,使学习模型不受自我监督数据标注噪声的影响。实验结果表明,TaxoExpan 对于分类法扩展具有高效性和有效性。
Jan, 2020
本文提出了名为 ATTEMPT 的两阶段方法,通过找到父节点并标记子节点的方式,将新概念插入正确的位置。利用预训练的语言模型进行上下位关系识别,通过合并本地节点和提示生成自然语句。实验结果表明,ATTEMPT 在分类系统补全和扩展任务上表现最佳,超过了现有方法。
Jun, 2024
本文提出了一种自我监督和用户行为导向的产品分类法拓展框架,通过从现有的分类法和用户点击日志中抽取用户感兴趣的候选下义词关系并利用预训练语言模型和图神经网络结合对比学习来建模概念和关系,以自动将新概念附加到现有分类法,从而减少手动更新的人力成本。
Mar, 2022
通过倒排索引的完全或部分匹配三元组的方法,我们介绍了一种查询三元概念的新方法,以检索包含一组术语在其范围、意图和 / 或模式中的已经计算过的三元概念。与 Ananias 中描述的近似方法相反,我们的方法不需要保留初始的三元上下文或其三个二元对应项,避免了通过上下文探索对三元组成分应用派生运算符,并且消除了通过分解阶段获得三元概念作为一维查询的答案的要求。此外,我们的解决方案引入了一种基于与给定查询的相似性的检索到的三元概念的新指标进行排序的方法。最后,我们主要进行了一项实证研究,以说明我们的方法相对于近似方法的有效性和可扩展性。我们的解决方案不仅展示了更高的效率,还突显了更好的可扩展性,非常适合大数据场景。
Jan, 2024
本研究提出了一种名为 TaxoEnrich 的新的分类完成框架,它有效地利用现有分类体系中的语义特征和结构信息,并提供更好的候选位置表示以提高分类完成性能。实验结果表明,在四个来自不同领域的大型真实数据集上,TaxoEnrich 在所有评估指标上均实现了最佳性能,并且在很大程度上优于先前的最新方法。
Feb, 2022
研究自动构建文档集合的隐藏主题 (或类别) 结构的主题分类法建议一个名为 TaxoCom 的新框架,该框架利用关于主题结构的部分 (或不完全) 信息作为指南来发现完整的主题分类法,并应用嵌入和聚类技术来识别层级主题结构中的新主题。
Jan, 2022
本文提出了一种基于专利合作分类(CPC)的技术术语分类自动化方法,生成的分类包含 9 个独立技术分支中的约 170k 个节点,并且使用 Text-to-Text Transfer Transformer (T5) 模型 fine-tune 生成上下位词并得到相对较高的准确性,从而证明了此资源的质量。T5 模型可以打开新的技术术语的分类(根据上下位关系),因此这个资源可以更新,是技术术语领域不断发展的必要特性。
Nov, 2022
本研究旨在探讨 NLP 中的 hypernymy detection 问题,提出两种数据扩增技术和两种扩增数据集的策略,通过对 3 种数据集和 2 种向量空间的评估表明,这些方法显著提高了分类器的性能。
May, 2020
该论文提出了一种多环境下的同义词发现框架,使用分布式假设和神经网络模型 SYNONYMNET,从自由文本语料库中检测出实体的同义词,以提高实体消歧或知识图谱规范化等任务的效果和稳健性。
Dec, 2018