利用文本和图形向量表示来丰富分类学
本文提出了一种名为 TaxoExpan 的自我监督框架,使用一组 <查询概念,锚定概念> 对从现有分类法中自动生成的训练数据。通过使用这种自我监督数据,TaxoExpan 学习模拟预测查询概念是否为锚定概念的直接下位词的模型,并提出了两个创新技术:(1)增强位置的图神经网络,用于编码现有分类法中锚定概念的局部结构;(2)噪声鲁棒训练目标,使学习模型不受自我监督数据标注噪声的影响。实验结果表明,TaxoExpan 对于分类法扩展具有高效性和有效性。
Jan, 2020
本研究提出了一种名为 TaxoEnrich 的新的分类完成框架,它有效地利用现有分类体系中的语义特征和结构信息,并提供更好的候选位置表示以提高分类完成性能。实验结果表明,在四个来自不同领域的大型真实数据集上,TaxoEnrich 在所有评估指标上均实现了最佳性能,并且在很大程度上优于先前的最新方法。
Feb, 2022
本文探讨了利用词汇分类学构建新的语义特征来提高文本分类任务精度和鲁棒性的方法,提出了一种基于分类学的特征构建并行算法 tax2vec,在性别、人格类型、年龄、新闻主题、药品副作用和药效预测等 6 个短文本分类问题上表现出与基于层次注意力神经网络等强基线方法相当的分类性能,同时在少量样本的学习情况下也表现出卓越的性能。算法能够提取特定于语料库的语义关键词,并且语义特征与著名的 Zipf 定律具有相似性。
Feb, 2019
本文提出的 HyperExpan 算法是一种基于超平面嵌入(Hyperbolic space)的 taxonomy expansion 自动扩展算法,运用了超图神经网络和位置嵌入技术,通过表征概念及其关系来扩展现有分类体系的覆盖范围,并在分类扩展基准测试中取得最优性能。
Sep, 2021
本文提出了 “视觉分类法扩展”(VTE),将视觉特征引入分类法扩展任务。我们提出了文本上位词学习任务和视觉原型学习任务,以聚类文本和视觉语义。除了各自的任务外,我们还引入了超原型约束,整合文本和视觉语义以产生细粒度的视觉语义。在两个数据集上对我们的方法进行评估,我们获得了令人信服的结果。特别在中文分类法数据集上,我们的方法的准确度提升了 8.75%。此外,我们的方法在中文分类法数据集上的表现优于 ChatGPT。
Sep, 2023
本文提出了一种基于文本和图像的概率模型,通过端到端特征设计实现自动构建上位词分类法。通过小型本体数据的判别训练,该模型可以从头开始为具有关联图像的未知概念标签构建完整的分类法。在 WordNet 层次结构的评估中,本系统的表现优于以往方法。
Jun, 2016
本文提出了一种新颖而简单的技术,将来自不同结构的两个大型知识库中的概念知识(Wikipedia 和 Probase)整合起来,学习概念表示,并在两个任务上评估了概念嵌入模型:类比推理和概念分类,并展示了无监督环境中用于神经语义分析的参数识别的案例研究,相对于 gazetteer 和正则表达式等繁琐易出错的方法,我们的无监督方法具有更好的泛化能力。
Jan, 2018
本文提出一种方法学习语言的词汇,并使用图嵌入技术和跨语言向量空间映射方法结合本体源和语料库来提高现有词向量的覆盖范围以及加强其词汇知识。所提出的方法在 Rare Word Similarity dataset 上表现出 10% 的性能提升。
Jul, 2017
本文介绍一种从无序平面嵌入空间中捕捉层次结构信息的数据结构算法,基于权威性分布的想法构建有向根树,用于识别单词的上位词关系和寻找共同祖先,同时在维基页面链接恢复方面表现出优异的性能。
Nov, 2022