通过结构 - 语义表示实现自监督的分类补全
本文提出了一种名为 TaxoExpan 的自我监督框架,使用一组 <查询概念,锚定概念> 对从现有分类法中自动生成的训练数据。通过使用这种自我监督数据,TaxoExpan 学习模拟预测查询概念是否为锚定概念的直接下位词的模型,并提出了两个创新技术:(1)增强位置的图神经网络,用于编码现有分类法中锚定概念的局部结构;(2)噪声鲁棒训练目标,使学习模型不受自我监督数据标注噪声的影响。实验结果表明,TaxoExpan 对于分类法扩展具有高效性和有效性。
Jan, 2020
研究自动构建文档集合的隐藏主题 (或类别) 结构的主题分类法建议一个名为 TaxoCom 的新框架,该框架利用关于主题结构的部分 (或不完全) 信息作为指南来发现完整的主题分类法,并应用嵌入和聚类技术来识别层级主题结构中的新主题。
Jan, 2022
本文提出了一种采用嵌入术和层次聚类方法的主题分类法 TaxoGen,通过每个节点表示概念主题,定义为语义一致概念项的聚类,以构建主题分类法,并对两个真实数据进行了实验,证明了其与基线方法的有效性。
Dec, 2018
本文提出了一种名为 Octet 的自我监督端到端框架,用于在线目录分类法的增强,该框架利用了用户查询、物品及其与分类法节点的关系等在线目录分类法的异构信息,并采用序列标注模型进行术语提取,采用图神经网络来捕获分类法结构以及查询项与分类法的交互,实验表明 Octet 优于最先进的方法。
Jun, 2020
在这篇文章中,我们提出了一种名为 TaxBox 的新框架,该框架使用盒状嵌入将 Taxonomy 概念映射到空间,并利用两个概率评分器处理概念附加和插入,从而避免伪叶片,实验结果表明,TaxBox 在四个真实数据集上的表现优于基线方法,并在一定程度上超过了先前的最优方法。
May, 2023
本文提出了层次扩展框架 (HEF),旨在更好地利用分类法的分层结构进行分层扩展。HEF 在多个方面利用分类法的分层结构,利用亲属关系检测和几个树独特功能来评估其子树的连贯性,并引入适合度评分来选择最优位置,将信息交换用于消歧和自我纠正。该模型在三个基准数据集上的实验表明,通过更好地利用层次结构和优化分类法的连贯性,HEF 在准确性和平均倒数排名方面平均提高了 46.7% 和 32.3% 的精度,远远超过了之前的最佳水平。
Jan, 2021
本文提出了一种自我监督和用户行为导向的产品分类法拓展框架,通过从现有的分类法和用户点击日志中抽取用户感兴趣的候选下义词关系并利用预训练语言模型和图神经网络结合对比学习来建模概念和关系,以自动将新概念附加到现有分类法,从而减少手动更新的人力成本。
Mar, 2022
本文提出的 HyperExpan 算法是一种基于超平面嵌入(Hyperbolic space)的 taxonomy expansion 自动扩展算法,运用了超图神经网络和位置嵌入技术,通过表征概念及其关系来扩展现有分类体系的覆盖范围,并在分类扩展基准测试中取得最优性能。
Sep, 2021