结合大型语言模型与知识图谱以减少问答中的幻觉现象
为了有效评估 Large Language Models(LLMs) 使用外部工具回答问题的能力,我们开发了一个名为 ToolQA 的新数据集,并使用可伸缩的自动化过程进行数据集的管理,并使用13种专门设计的工具进行交互以回答问题。
Jun, 2023
通过评估各种流行的大型语言模型对医学问题的知识,我们能够更好地了解它们作为一个群体的特性。从这次比较中,我们提供了初步的观察结果并提出了进一步研究的问题。
Oct, 2023
使用大型语言模型,该研究论文介绍了一种学术知识图谱问答(KGQA)系统,通过少量示例解决书目自然语言问题。模型使用基于BERT的句子编码器来识别与给定测试问题相关的前n个相似训练问题,并检索它们对应的SPARQL查询。利用前n个相似问题-SPARQL对作为示例以及测试问题创建提示,并将其传递给大型语言模型以生成SPARQL查询。最后,在底层知识图谱(Open Research KG)端点上运行SPARQL查询并返回答案。该系统在Scholarly-QALD-23挑战基准中的SciQA数据集上获得了99.0%的F1分数。
Nov, 2023
在知识图谱问答(KGQA)领域中,我们创建了一个新颖的KGQA数据集,支持常识推理并专注于长尾实体,这些实体是大语言模型容易产生错误信息的对象,因此需要借助知识图谱进行准确、可归因的常识推理。这个新数据集具有两个子任务:问题回答和声明验证。它对基于大语言模型的方法产生了显著的幻觉问题,为未来常识KGQA研究铺平了道路,以提供关于长尾实体的准确和可信的答案。
Mar, 2024
通过在知识图谱(KG)上选择推理路径并结合思维链(CoT)和PageRank的子图检索方法,本文整合和优化了一个基于大型语言模型(LLM)的管道,可以减少对LLM的依赖。最终,RoK证明了使用较少的LLM调用可以达到相同的结果。
Apr, 2024
本文针对大型语言模型(LLMs)中知识不足和生成幻觉的问题,提出了一种与知识图谱(KGs)结合的方法,利用生成在图中的方法(GoG)解决不完全知识图谱下的问答问题,并证明 GoG 可在一定程度上解决此类问题。
Apr, 2024
大型语言模型在各种自然语言处理任务中表现出色,但在处理需要广泛、现实世界知识的任务,特别是那些涉及长尾实体的任务时,仍然存在困难。为了解决这个问题,本研究分析了不同类型的非参数化知识对语言模型的影响,其中包括文本片段和知识图谱。通过创建一个需要长尾事实知识来回答问题的基准测试工具,我们评估了最先进的语言模型在不同知识环境下的表现。实验结果表明,单独使用语言模型来回答这些问题存在困难,特别是在需要大量长尾知识或丰富知识的情况下。然而,当为语言模型提供非参数化知识时,这些模型的性能显著提高。我们观察到,在大多数情况下,使用知识图谱三元组作为提示的语言模型表现优于使用最先进的检索器的段落提示。此外,虽然同时为语言模型提供知识图谱三元组和文档并不能始终改善知识覆盖率,但可以显著减少生成内容中的幻觉。
May, 2024
使用知识图谱和语义表示的大型语言模型(LLMs)相较于直接对SQL数据库(即Text-to-SQL)回答问题的系统,可以提高准确性,并且研究表明,通过使用知识图谱,准确性提升了从16%到54%。本研究基于此,提出了一个方法来进一步提高准确性和降低错误率,通过本体检查(LLM-generated SPARQL查询与本体语义的匹配)和LLM修复错误的SPARQL查询两个步骤,成功将准确度提高到72%,错误率为20%。研究结果进一步证明,投资于知识图谱,尤其是本体,可以为LLM驱动的问答系统提供更高的准确性。
May, 2024
LinkQ是一个通过自然语言问答来简化知识图谱查询构建的系统,它利用了大型语言模型来构建查询,使用户能够轻松地从知识图谱数据中获取有价值的信息,并通过迭代将开放性问题转化为精确问题,从而进行探索性和确认性数据分析。
Jun, 2024
大型语言模型(LLM)在医疗保健领域的自然语言生成中显示出潜力,但存在产生错误信息的风险。本研究在医学问答领域部署LLM需要可靠的不确定性估计(UE)方法来检测错误信息。通过在医学问答数据集上使用不同模型大小的流行UE方法进行比较,我们的结果表明目前的方法在这个领域中的表现普遍较差,强调了医疗应用中UE的挑战。我们还观察到较大模型往往产生更好的结果,暗示了模型大小与UE可靠性之间的相关性。为了解决这些挑战,我们提出了Two-phase Verification,一种无需概率的不确定性估计方法。首先,LLM生成一步一步的解释以及初始回答,然后提出验证问题来检查解释中的事实主张,模型对这些问题进行两次回答:首先独立回答,然后参考解释回答。两组答案之间的不一致性衡量了原始回答的不确定性。我们使用Llama 2 Chat模型在三个生物医学问答数据集上评估我们的方法,并将其与基准方法进行比较。结果表明,我们的Two-phase Verification方法在各种数据集和模型大小上都实现了最佳的整体准确性和稳定性,并且随着模型大小的增加,其性能也会提升。
Jul, 2024