从头到尾:大型语言模型(LLM)有多专业?也可以称之为 LLM 是否可以取代知识图谱?
大型语言模型在各种自然语言处理任务中表现出色,但在处理需要广泛、现实世界知识的任务,特别是那些涉及长尾实体的任务时,仍然存在困难。为了解决这个问题,本研究分析了不同类型的非参数化知识对语言模型的影响,其中包括文本片段和知识图谱。通过创建一个需要长尾事实知识来回答问题的基准测试工具,我们评估了最先进的语言模型在不同知识环境下的表现。实验结果表明,单独使用语言模型来回答这些问题存在困难,特别是在需要大量长尾知识或丰富知识的情况下。然而,当为语言模型提供非参数化知识时,这些模型的性能显著提高。我们观察到,在大多数情况下,使用知识图谱三元组作为提示的语言模型表现优于使用最先进的检索器的段落提示。此外,虽然同时为语言模型提供知识图谱三元组和文档并不能始终改善知识覆盖率,但可以显著减少生成内容中的幻觉。
May, 2024
我们通过复杂问题回答作为任务,对比了不同的知识图谱注入方法,旨在探索最佳提供知识图谱给大型语言模型的提示方法,从而增强其对知识图谱的理解能力。与预期相反,我们的分析发现,大型语言模型能够有效处理混乱、噪音和线性化的知识图谱知识,并且表现优于使用设计良好的自然语言文本提示的方法。这一反直觉的发现为未来关于大型语言模型理解结构化知识的研究提供了重要见解。
Feb, 2024
利用压缩的知识图作为输入,我们的方法在使用较少标记表示支持文档中与查询相关信息方面比现有方法利用高达 67% 的标记。我们的实验证明,在两个流行的基准数据集(HotpotQA 和 MuSiQue)上,我们的方法在多个指标(EM,F1,BERTScore 和人类评估)上持续改进。
Jun, 2024
通过利用知识图谱 (KGs) 来系统评估大型语言模型 (LLMs) 的事实知识,本文提出了一个框架。我们的框架通过从给定 KG 中存储的事实自动生成一组问题和预期答案,然后评估 LLMs 回答这些问题的准确性。我们在通用和特定领域系统评估了最先进的 LLMs,实验证明 ChatGPT 在所有领域中始终是最佳表现者。我们还发现 LLMs 的表现取决于指导微调、领域和问题的复杂性,并且容易受到对抗性环境的影响。
Oct, 2023
尽管大型语言模型在知识密集型任务上表现出竞争力,但它们仍存在于记忆所有世界知识,尤其是长尾知识方面的局限性。本文研究了用于解决知识图谱问答任务的知识图增强语言模型方法。基于回答敏感的 KG-to-Text 方法,我们提出了一种将 KG 知识转化为对 KGQA 最有信息量的文本化陈述的方法,并基于此方法提出了一种 KG-to-Text 增强的 LLMs 框架来解决 KGQA 任务。在几个 KGQA 基准测试上的实验证明了所提出的 KG-to-Text 增强 LLMs 方法在回答准确性和知识陈述的有用性方面优于先前的 KG 增强 LLMs 方法。
Sep, 2023
本研究调查了大型语言模型(LLMs)与知识图谱(KGs)之间的协同关系,旨在探讨 KG 问答、本体生成、KG 验证以及通过 LLMs 提高 KG 准确性和一致性等领域的研究空白。该论文还检验了 LLMs 在生成描述性文本和自然语言查询方面的作用,并通过分类 LLM-KG 交互、研究方法论和合作使用以及潜在偏见等结构化分析,提供了它们的结合潜力的新见解。该研究强调了它们的交互对于提升人工智能应用的重要性,并概述了未来的研究方向。
Jun, 2024
通过预训练大型语言模型解决普适领域问答中的常见知识和罕见长尾知识学习难题,我们提出了一种自动生成专门用于长尾知识的问答数据集的自动方法,并展示了相关的研究挑战。通过预训练语言模型,在我们新生成的长尾问答数据集上进行了详尽实验,比较了其使用维基百科和维基数据知识图等外部资源的性能。
Mar, 2024
使用大型语言模型,该研究论文介绍了一种学术知识图谱问答(KGQA)系统,通过少量示例解决书目自然语言问题。模型使用基于 BERT 的句子编码器来识别与给定测试问题相关的前 n 个相似训练问题,并检索它们对应的 SPARQL 查询。利用前 n 个相似问题 - SPARQL 对作为示例以及测试问题创建提示,并将其传递给大型语言模型以生成 SPARQL 查询。最后,在底层知识图谱(Open Research KG)端点上运行 SPARQL 查询并返回答案。该系统在 Scholarly-QALD-23 挑战基准中的 SciQA 数据集上获得了 99.0% 的 F1 分数。
Nov, 2023
大型语言模型(LLM)在一般知识上表现出色,但在细致的长尾知识上表现不佳,该研究问传统的知识图谱是否应该被 LLMs 取代,通过构建名为 TaxoGlimpse 的新型基准对 LLMs 在各种领域的不同层级的专业知识和叶级实体的性能进行评估,验证了 LLMs 仍然不能很好地捕捉专业知识和叶级实体的知识。
Jun, 2024