评估 LLMs 用于知识图谱补全的适用性

May, 2024

评估 LLMs 用于知识图谱补全的适用性

Assessing LLMs Suitability for Knowledge Graph Completion

Vasile Ionut Remus Iga, Gheorghe Cosmin Silaghi

TL;DR大型语言模型 (LLMs) 能够解决与知识图谱相关的任务，如知识图谱补全，尤其在零次或少次训练的范式下。然而，它们被称为会产生错误的答案，或以不确定的方式输出结果，从而导致错误推理的回答，即使它们满足用户的需求。为了强调知识图谱相关任务中的机遇和挑战，我们在静态知识图谱的知识图谱补全任务中，使用 TELeR 分类法构建的提示，在零次和一次迭代的上下文中，通过两个显著的 LLMs 进行实验，即 Mixtral-8x7B-Instruct-v0.1 和 gpt-3.5-turbo-0125，在以任务为导向的对话系统使用案例中。当使用严格和灵活的度量标准进行评估时，我们的结果表明，如果提示包含足够的信息和相关示例，LLMs 可能适用于这样的任务。

Abstract

Recent work shown the capability of large language models (LLMs) to solve tasks related to Knowledge Graphs, such as knowledge graph completion, even in Zero- or Few-Shot paradigms. However, they are known to

large language models knowledge graph completion zero- and few-shot paradigms hallucinate answers task-oriented dialogue system

发现论文，激发创造

探索用于知识图谱完成的大型语言模型

在本研究中，我们探索了利用大型语言模型（LLM）来完成知识图的关键问题。通过将知识图中的三元组视为文本序列，并引入名为 Knowledge Graph LLM（KG-LLM）的创新框架来对这些三元组进行建模。我们的技术利用三元组的实体和关系描述作为提示，并利用生成的响应进行预测。在各种基准知识图上的实验证明，我们的方法在三元组分类和关系预测等任务中达到了最先进的性能水平。我们还发现，微调相对较小的模型（例如 LLaMA-7B，ChatGLM-6B）优于最新的 ChatGPT 和 GPT-4。

Aug, 2023

知识求解器：教授 LLMs 从知识图谱中搜索领域知识

本文提出了一种名为知识解决器（KSL）的范例，通过利用大型语言模型（LLMs）的强大概括能力，教给它们从外部知识库中搜索必要知识，并将检索过程转化为多跳决策序列，增强了 LLMs 的搜索能力，提高了推理过程的可解释性。在三个数据集上的实验证实，我们的方法相对基准模型的表现有很大的提升。

Sep, 2023

利用知识图谱为涉及长尾事实的问答任务提供大型语言模型的引导

大型语言模型在各种自然语言处理任务中表现出色，但在处理需要广泛、现实世界知识的任务，特别是那些涉及长尾实体的任务时，仍然存在困难。为了解决这个问题，本研究分析了不同类型的非参数化知识对语言模型的影响，其中包括文本片段和知识图谱。通过创建一个需要长尾事实知识来回答问题的基准测试工具，我们评估了最先进的语言模型在不同知识环境下的表现。实验结果表明，单独使用语言模型来回答这些问题存在困难，特别是在需要大量长尾知识或丰富知识的情况下。然而，当为语言模型提供非参数化知识时，这些模型的性能显著提高。我们观察到，在大多数情况下，使用知识图谱三元组作为提示的语言模型表现优于使用最先进的检索器的段落提示。此外，虽然同时为语言模型提供知识图谱三元组和文档并不能始终改善知识覆盖率，但可以显著减少生成内容中的幻觉。

May, 2024

用迭代零样本 LLM 触发知识图谱构建

本文提出了一种基于生成式语言模型的知识图谱生成方法，通过迭代提示和零样本学习等策略解决了知识图谱构建中的一些核心问题，具有可扩展性和广泛适应性。

Jul, 2023

高效知识路径的推理：知识图引导领域问题回答的大型语言模型

通过在知识图谱（KG）上选择推理路径并结合思维链（CoT）和 PageRank 的子图检索方法，本文整合和优化了一个基于大型语言模型（LLM）的管道，可以减少对 LLM 的依赖。最终，RoK 证明了使用较少的 LLM 调用可以达到相同的结果。

Apr, 2024

知识增强语言模型为零 - shot 知识图谱问答做准备

提出了一种通过直接在 LLM 的输入中添加知识以增强其内部存储的知识的方法，称为 KAPING，通过在知识图上检索相关事实来改善零 - shot 闭书问答任务性能，经验证跨多个大小不同的 LLM，基于事实的知识增强方法相对于相关零 - shot 基线的平均表现提高达 48%。

Jun, 2023

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023

HOLMES: 基于超关系的知识图谱用于多跳问答的 LLMs

利用压缩的知识图作为输入，我们的方法在使用较少标记表示支持文档中与查询相关信息方面比现有方法利用高达 67% 的标记。我们的实验证明，在两个流行的基准数据集（HotpotQA 和 MuSiQue）上，我们的方法在多个指标（EM，F1，BERTScore 和人类评估）上持续改进。

Jun, 2024

知识图谱补全模型是少样本学习器：基于 LLMs 的电子商务关系标注的实证研究

本文通过实证研究发现，大型语言模型在电商知识图谱中的关系标注任务中具有强大的学习能力和预测能力，相比于现有的知识图谱补全模型在关系标注任务上具有更高的竞争力，足以替代人工标注。

May, 2023

在图上评估大型语言模型：性能洞见与比较分析

对四个大型语言模型在图数据分析问题上的能力进行评估，结果表明：1）大型语言模型能够有效地理解自然语言的图数据并进行图拓扑推理；2）GPT 模型能够生成逻辑和连贯的结果，在正确性方面优于其他替代方法；3）所有研究中的大型语言模型在结构推理方面面临挑战，零 - shot 推理和少 - shot 提示等技术效果减弱；4）在多答案任务中，GPT 模型常常产生错误答案，引发对可靠性的担忧；5）GPT 模型在输出上表现出较高的自信度，可能影响其纠正错误的能力。值得注意的是，GPT-4 显示了纠正 GPT-3.5-turbo 和其它版本回答的能力。

Aug, 2023