长尾实体的开放知识扩充
本文提出了一种基于语言模型的知识库完成方法,针对长尾实体的事实,该方法利用两个不同的语言模型进行候选检索和候选验证和消歧,通过评估我们的方法和不同的基线,引入一个名为 MALT 的基于 Wikidata 的数据集,我们的方法在 F1 中优于所有基线,尤其是在召回率方面有很大提升。
Jun, 2023
论文提出了在缺乏背景知识和长尾实体的情况下,通过自动化生成实体出现位置的候选项并结合用户反馈来提高实体链接的准确性的方法。选择了基于梯度互缠的多样化和文本相关性方法作为生成候选项的方法,并在 FACC 数据集上进行了广泛的实验,展示了该方法的有效性。
Oct, 2018
该论文提出了一种基于文献内在特征的长尾实体文档过滤方法,通过使用与实体相关的方面相似性、关系模式和时间表达式等标准特征,结合信息量、实体显著性和时效性等一些特征,能够在不依赖任何实体特定的训练数据的情况下提高过滤性能。
Sep, 2016
该研究提出了一种基于元学习的框架,通过使用文本描述来处理罕见关系和少见实体,其中包括一个新颖的模型来更好地从文本描述中提取关键信息,并引入了新的生成模型来增强性能。实验结果表明,此框架处理罕见关系和少见实体时优于以往的方法。
Sep, 2019
通过预训练大型语言模型解决普适领域问答中的常见知识和罕见长尾知识学习难题,我们提出了一种自动生成专门用于长尾知识的问答数据集的自动方法,并展示了相关的研究挑战。通过预训练语言模型,在我们新生成的长尾问答数据集上进行了详尽实验,比较了其使用维基百科和维基数据知识图等外部资源的性能。
Mar, 2024
大型语言模型在各种自然语言处理任务中表现出色,但在处理需要广泛、现实世界知识的任务,特别是那些涉及长尾实体的任务时,仍然存在困难。为了解决这个问题,本研究分析了不同类型的非参数化知识对语言模型的影响,其中包括文本片段和知识图谱。通过创建一个需要长尾事实知识来回答问题的基准测试工具,我们评估了最先进的语言模型在不同知识环境下的表现。实验结果表明,单独使用语言模型来回答这些问题存在困难,特别是在需要大量长尾知识或丰富知识的情况下。然而,当为语言模型提供非参数化知识时,这些模型的性能显著提高。我们观察到,在大多数情况下,使用知识图谱三元组作为提示的语言模型表现优于使用最先进的检索器的段落提示。此外,虽然同时为语言模型提供知识图谱三元组和文档并不能始终改善知识覆盖率,但可以显著减少生成内容中的幻觉。
May, 2024
本文研究了大型语言模型记忆的知识与其预训练数据中信息之间的关系,结果发现语言模型回答基于事实的问题的能力与预训练期间看到的相关问题文档数量有强相关性和因果关系;同时,该研究发现,虽然更大的模型能学习更长尾的知识,但需要将模型规模增加数个数量级才能在缺乏支持数据的问题上实现具有竞争性的问答表现。最后,对相关文档数量依赖进行检索增强,能够有效捕捉长尾知识。
Nov, 2022
本文介绍了一个大规模、有挑战性的数据集,以促进知识图谱到文本分类的实际场景研究,同时提出了一种多图结构和聚合方法,以更全面地代表原始图信息,并成功解决信息丢失和参数爆炸的问题。
Apr, 2020
本文提出了 OpenKI 模型,通过对 OpenIE 三元组和 Knowledge Bases(KB)的整合来处理 OpenIE 的稀疏性。该模型通过进行实例级别推理来处理未知实体,并借助聚合和关注机制在关系推理中利用其邻域中的信息。实验结果表明,该方法不仅显着提高了现有 OpenIE 提取的准确率,而且还提高了面向半结构化数据的 OpenIE 表现。
Apr, 2019
本文研究知识库完成的问题,聚焦于推断知识库中缺失的实体类型实例,提出了使用现有知识库信息和维基百科的外部信息的知识库完成方法,并通过构建大规模数据集和设计自动评估方法验证了方法的有效性和正确性。
Apr, 2015