mOKB6:一个多语言的开放知识库完整性评测基准
本文介绍了一种更具挑战性的基准数据集和方法,用于评估语言模型在无监督知识库补全方面的潜力,并发现了语言模型在补全 Wikidata 中 nativeLanguage、usedLanguage 和 citizenOf 等关系方面表现出强大的泛化能力。
Mar, 2023
该研究对多语言信息处理领域中的跨语言问答问题进行了研究:提出了一种基于阅读理解范式的知识库子图到问题的转换方法,利用汽车预训练语言模型和跨语言阅读理解技术进行跨语言阅读理解,基于现有的高质量跨语言阅读理解数据集进一步优化模型,为跨语言问答领域提供了一种有效、高效的方法。
Feb, 2023
构建大型开放知识库(OKBs)对于许多知识驱动的 Web 应用程序(如 Web 搜索)至关重要。然而,OKBs 中的名词短语和关系短语常常存在冗余和歧义,因此需要研究 OKB 规范化。本文提出了一种名为 MulCanon 的多任务学习框架,用于解决 OKB 规范化问题,并通过扩散模型在软聚类过程中改进名词短语的表示,以获得更准确的表示。MulCanon 统一了这些子任务的学习目标,并采用两阶段多任务学习范式进行训练。对知名 OKB 规范化基准的彻底实验研究验证了 MulCanon 能够实现具有竞争力的规范化结果。
Mar, 2024
本文提出了一种基于生成式翻译的方法,通过训练语言模型,将开放式知识库映射到现有知识库的固定模式中,以此解决了开放式知识抽取中存在的问题。实验证明,该方法在传统方法和生成式知识库构建之间找到了一个甜点,并且在避免后者的相关性噪声的同时,比前者产生了更高的映射准确性。
Jun, 2023
本文提出了 OpenKI 模型,通过对 OpenIE 三元组和 Knowledge Bases(KB)的整合来处理 OpenIE 的稀疏性。该模型通过进行实例级别推理来处理未知实体,并借助聚合和关注机制在关系推理中利用其邻域中的信息。实验结果表明,该方法不仅显着提高了现有 OpenIE 提取的准确率,而且还提高了面向半结构化数据的 OpenIE 表现。
Apr, 2019
本文提出了一种有效的预训练方法,用于从非结构化文本中提取的事实的规范化和非规范化知识库,通过小数据集上实验证明其相对于已有方法的改进,不依赖于大型预先训练的模型(如 BERT)
Aug, 2021
介绍并分析一种无需实体或关系匹配将一个事实集合中的知识转移到另一个集合的方法,该方法对规范化知识库和非规范化或开放式知识库都适用。通过在无结构文本中收集的大规模预训练的事实,改进了对特定领域的结构化数据的预测,并通过实验验证了该方法在小数据集上的显著提升。此外,引入了一种新的用于分析开放式知识库完成的预训练模型的数据集,名为 Doge,通过该数据集揭示了现有模型的一些缺陷和问题。
Jan, 2024
本文介绍了有关知识库的完整性、回溯和否定的表示、提取和推断的方法,以及对应的方法及其工作原理的基本方法,并针对两类受众提出了解决不完备知识库方面的建议。
May, 2023