KGLens:参数化的知识图谱解决方案评估 LLM 所知和不知
大型语言模型在知识图谱工程方面的性能评估和监控是一个重要问题,我们引入了一个基于知识图谱工程的基准评测框架,涵盖了语法和纠错、事实抽取以及数据集生成三个挑战。通过实验证明,尽管具有一定的实用性,大型语言模型在零样本生成知识图谱方面尚不适用。因此,我们的 LLM-KG-Bench 框架提供了 LLM 响应的自动评估和存储机制,以及统计数据和可视化工具,以支持指导数据和模型性能的追踪。
Aug, 2023
通过利用知识图谱 (KGs) 来系统评估大型语言模型 (LLMs) 的事实知识,本文提出了一个框架。我们的框架通过从给定 KG 中存储的事实自动生成一组问题和预期答案,然后评估 LLMs 回答这些问题的准确性。我们在通用和特定领域系统评估了最先进的 LLMs,实验证明 ChatGPT 在所有领域中始终是最佳表现者。我们还发现 LLMs 的表现取决于指导微调、领域和问题的复杂性,并且容易受到对抗性环境的影响。
Oct, 2023
采用潜在变量和 KaRR 指标引导的统计知识评估框架对 14 种生成语言模型 (GLMs) 进行全面比较;该研究表明,具有相同骨干结构的 GLMs 的知识符合缩放定律,并且在指令遵循数据上的调整可能会危及模型始终生成正确的文本的能力。
May, 2023
该研究提出了一种新模型 QA-GNN,通过关联系统知识图和语言模型,实现对问题与答案之间的共同推理,并取得了在常识和生物医学领域 QA 测试中优于现有模型的表现。
Apr, 2021
尽管大型语言模型在知识密集型任务上表现出竞争力,但它们仍存在于记忆所有世界知识,尤其是长尾知识方面的局限性。本文研究了用于解决知识图谱问答任务的知识图增强语言模型方法。基于回答敏感的 KG-to-Text 方法,我们提出了一种将 KG 知识转化为对 KGQA 最有信息量的文本化陈述的方法,并基于此方法提出了一种 KG-to-Text 增强的 LLMs 框架来解决 KGQA 任务。在几个 KGQA 基准测试上的实验证明了所提出的 KG-to-Text 增强 LLMs 方法在回答准确性和知识陈述的有用性方面优于先前的 KG 增强 LLMs 方法。
Sep, 2023
大型语言模型(LLMs)在知识密集型任务上表现出色,但如何系统评估 LLMs 的知识能力及其在不同领域和任务中的知识泛化能力仍然不为人所知。为此,我们提出了 KGQuiz,这是一个基于知识的全面评估框架,包含了五个任务,从简单到复杂地涵盖了三个领域的知识。通过在 KGQuiz 基准测试中对十种开源和黑盒 LLMs 进行广泛实验,我们发现 LLMs 在简单的知识问答任务中表现出色,但在需要更复杂推理或领域特定事实的设置和上下文中仍然存在挑战。我们将 KGQuiz 视为一个测试平台,用于分析不同领域和任务格式下性能的微妙变化,并最终理解、评估和改进 LLMs 在广泛知识领域和任务中的知识能力。
Oct, 2023
通过结合大型语言模型(LLMs)和知识图谱(KGs),本研究论文提出了一种自动构建知识图谱的方法,并讨论了在数字教育环境中,LLMs 与 KGs 结合在问答任务中的初步应用。
Apr, 2024
该论文回顾了使用知识图谱增强的预训练模型的研究,详细介绍了现有的知识图谱增强预训练语言模型(KGPLMs)及其应用,并提出了基于知识图谱增强的大型语言模型(KGLLM)的思想以增强 LLM 的面向事实的推理能力,为 LLM 的研究开辟了新的途径。
Jun, 2023
我们介绍了一种用于开发图形对齐的语言模型(GLaM)的微调框架,该框架将知识图形转化为具有标签的问题 - 答案对的替代文本表示。我们证明,以特定基于图形的知识为基础的模型具有更强的结构化推理能力。我们的方法利用大型语言模型的生成能力创建数据集,并提出了一种效率高于检索增强型生成方法的替代方法。
Feb, 2024
大型语言模型在各种自然语言处理任务中表现出色,但在处理需要广泛、现实世界知识的任务,特别是那些涉及长尾实体的任务时,仍然存在困难。为了解决这个问题,本研究分析了不同类型的非参数化知识对语言模型的影响,其中包括文本片段和知识图谱。通过创建一个需要长尾事实知识来回答问题的基准测试工具,我们评估了最先进的语言模型在不同知识环境下的表现。实验结果表明,单独使用语言模型来回答这些问题存在困难,特别是在需要大量长尾知识或丰富知识的情况下。然而,当为语言模型提供非参数化知识时,这些模型的性能显著提高。我们观察到,在大多数情况下,使用知识图谱三元组作为提示的语言模型表现优于使用最先进的检索器的段落提示。此外,虽然同时为语言模型提供知识图谱三元组和文档并不能始终改善知识覆盖率,但可以显著减少生成内容中的幻觉。
May, 2024