使用知识图谱评估复杂问题回答和归因的大型语言模型基准

Jan, 2024

使用知识图谱评估复杂问题回答和归因的大型语言模型基准

Benchmarking Large Language Models in Complex Question Answering Attribution using Knowledge Graphs

Nan Hu, Jiaoyan Chen, Yike Wu, Guilin Qi, Sheng Bi...

TL;DR使用知识图谱为问题 - 答案对自动生成不同类别的归因，并引入细分类型（支持性、不足、矛盾和不相关）来衡量归因，评估现有评估方法在细致归因设置下的表现较差，使用人工注释验证的 CAQA 基准为选择和开发 LLM 归因评估器提供了有前景的工具。

Abstract

The attribution of question answering is to provide citations for supporting generated statements, and has attracted wide research attention. The current methods for automatically evaluating the →

question answering attribution large language models fine-grained categories complex attributed question answering

发现论文，激发创造

属性问答：针对属性化大语言模型的评估和建模

本文研究基于属性的 LLM 发展，在开发 Attributed LLMs 的第一步骤中提出可重复的 Attributed QA 评估框架并评估多种结构。实验结果探讨了如何度量归属（attribution）以及现有方法在归属方面的表现如何，并提出了建立带归属特性的 LLMs 的可能方向。

Dec, 2022

朝可验证的生成方式迈进：知识感知语言模型归因的基准

大型语言模型（LLMs）在可靠性方面通常存在不可靠的幻觉。在本文中，我们定义了一项名为知识感知语言模型归因（KaLMA）的新任务，它改进了传统归因语言模型的三个核心问题。

Oct, 2023

反直觉：大型语言模型比我们认为的更能理解知识图谱

我们通过复杂问题回答作为任务，对比了不同的知识图谱注入方法，旨在探索最佳提供知识图谱给大型语言模型的提示方法，从而增强其对知识图谱的理解能力。与预期相反，我们的分析发现，大型语言模型能够有效处理混乱、噪音和线性化的知识图谱知识，并且表现优于使用设计良好的自然语言文本提示的方法。这一反直觉的发现为未来关于大型语言模型理解结构化知识的研究提供了重要见解。

Feb, 2024

语言模型洞察：上下文问答中的归因方法

基于大语言模型的隐藏状态，我们提出了一种新的环境下问答的归因方法，绕过重复训练模型和检索模型开销，提供精细的归因并保持结果质量，在识别出 LLM 生成的文字时表现出与 GPT-4 相当甚至更好的性能，且适用于各种 LLM 架构。

May, 2024

大型语言模型自动评估归因

本文探讨了大型语言模型在自动评估引用时的两种方法：引导 LLM 和微调更小的 LM。我们手动策划了一组测试样例以涵盖 12 个领域并评估了其自动评估的结果，旨在为这一重要问题的未来研究打下基础。

May, 2023

跨语言问答的归因评估与建模

为了提高跨语言问答系统的可靠性，本研究对该系统的描述性和归属性进行了研究，并测试了多种检测方法来提高归属度。通过使用自然语言推理模型和 PaLM2 对少量的归属数据进行微调，可以准确地检测到归属和提高跨语言问答系统的归属度。

May, 2023

利用 LLM 在学术知识图谱问答中的优化

使用大型语言模型，该研究论文介绍了一种学术知识图谱问答（KGQA）系统，通过少量示例解决书目自然语言问题。模型使用基于 BERT 的句子编码器来识别与给定测试问题相关的前 n 个相似训练问题，并检索它们对应的 SPARQL 查询。利用前 n 个相似问题 - SPARQL 对作为示例以及测试问题创建提示，并将其传递给大型语言模型以生成 SPARQL 查询。最后，在底层知识图谱（Open Research KG）端点上运行 SPARQL 查询并返回答案。该系统在 Scholarly-QALD-23 挑战基准中的 SciQA 数据集上获得了 99.0% 的 F1 分数。

Nov, 2023

探究大型语言模型如何利用内部知识进行复杂推理

通过将复杂的现实世界问题分解成图形，将每个问题表示为一个节点，并使用具有解决问题所需背景知识的父节点来研究大型语言模型（LLMs）如何利用知识进行推理。使用分层图形，我们量化了 LLMs 在较简单子问题与复杂问题上性能的前向差异和后向差异。此研究拓展了我们对 LLM 推理的理解，并提出了改进它们解决问题能力的方法。

Jun, 2024

检索 - 改写 - 回答：一种对知识图谱问题回答增强语言模型的框架

尽管大型语言模型在知识密集型任务上表现出竞争力，但它们仍存在于记忆所有世界知识，尤其是长尾知识方面的局限性。本文研究了用于解决知识图谱问答任务的知识图增强语言模型方法。基于回答敏感的 KG-to-Text 方法，我们提出了一种将 KG 知识转化为对 KGQA 最有信息量的文本化陈述的方法，并基于此方法提出了一种 KG-to-Text 增强的 LLMs 框架来解决 KGQA 任务。在几个 KGQA 基准测试上的实验证明了所提出的 KG-to-Text 增强 LLMs 方法在回答准确性和知识陈述的有用性方面优于先前的 KG 增强 LLMs 方法。

Sep, 2023

从知识图谱中学习为检索增强的大型语言模型规划

使用来自知识图谱的规划数据，我们介绍了一种增强大型语言模型在复杂问答任务中的性能的新框架，通过使用这些数据对 LLMs 进行微调，提高其规划能力，更好地处理涉及检索的复杂 QA 任务。我们的框架在多个数据集上进行评估，包括我们提出的新基准，突出了其有效性和知识图谱派生规划数据的好处。

Jun, 2024