开发一个可扩展的基准测试,用于评估大型语言模型在知识图谱工程中的表现
该研究论文介绍了 Text2KGBench 这个基准评估工具,可以评估语言模型的能力,从自然语言文本中生成知识图谱,并根据本体论从文本中提取事实。研究还提供了基准模型的结果和显示了使用语义网和自然语言处理技术,可以进一步提高模型性能的潜力。
Aug, 2023
通过在企业 SQL 数据库上直接应用零样本提示,使用 GPT-4 进行问答可以达到 16% 的准确率;当在企业 SQL 数据库的知识图表示上提出问题时,准确率增加到 54%。因此,投资于知识图为 LLM 驱动的问答系统提供了更高的准确性。
Nov, 2023
通过利用知识图谱 (KGs) 来系统评估大型语言模型 (LLMs) 的事实知识,本文提出了一个框架。我们的框架通过从给定 KG 中存储的事实自动生成一组问题和预期答案,然后评估 LLMs 回答这些问题的准确性。我们在通用和特定领域系统评估了最先进的 LLMs,实验证明 ChatGPT 在所有领域中始终是最佳表现者。我们还发现 LLMs 的表现取决于指导微调、领域和问题的复杂性,并且容易受到对抗性环境的影响。
Oct, 2023
通过以人、过程和技术为视角,功能性和安全性为支柱,使用我们的统一评估框架,对 23 个最先进的 LLM 基准进行了研究,发现了显著的限制,并强调了在人工智能进步的背景下,标准化方法、监管确定性和伦理指南的迫切需求,以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。
Feb, 2024
本研究调查了大型语言模型(LLMs)与知识图谱(KGs)之间的协同关系,旨在探讨 KG 问答、本体生成、KG 验证以及通过 LLMs 提高 KG 准确性和一致性等领域的研究空白。该论文还检验了 LLMs 在生成描述性文本和自然语言查询方面的作用,并通过分类 LLM-KG 交互、研究方法论和合作使用以及潜在偏见等结构化分析,提供了它们的结合潜力的新见解。该研究强调了它们的交互对于提升人工智能应用的重要性,并概述了未来的研究方向。
Jun, 2024
这篇论文探讨了使用大型语言模型(LLMs)对知识图谱(KG)完成模型进行自动评估的方法。通过使用通用生成型人工智能和 LLMs,可以替代传统的基于人工标注的大规模验证方法,引入了一种基于开源结构和语义验证工具的框架,以及灵活的事实检查和验证方法,并支持参考任何外部知识源的功能。该设计易于适应和扩展,可以通过模型内开发的知识、用户提供的上下文以及能够获取外部知识的代理来验证任何类型的图形结构数据。
Apr, 2024
本文提出了一种通过知识图谱来评估大型语言模型在对抗攻击场景下的鲁棒性的框架,并通过生成原始提示和毒化的对抗提示来评估模型的鲁棒性。实验证明,ChatGPT 家族的对抗鲁棒性在 GPT-4-turbo > GPT-4o > GPT-3.5-turbo,而大型语言模型的鲁棒性受其所操作的专业领域的影响。
Jun, 2024
近年来,在大型语言模型的发展方面取得了重大进展,达到了在各种任务中的显著表现。为了评估语言模型的知识能力,先前的研究提出了许多基于问答对的基准。我们认为,使用固定问题或有限的改写作为查询来评估语言模型的可靠性和全面性是不可靠的,因为语言模型对提示敏感。因此,我们引入了一个名为知识边界的新概念,用于涵盖语言模型中的提示不可知和提示敏感的知识。知识边界避免了语言模型评估中的提示敏感性,使其更可靠和稳健。为了探索给定模型的知识边界,我们提出了具有语义约束的投影梯度下降方法,这是一种新的算法,旨在识别每个知识片段的最佳提示。实验证明我们的算法在计算知识边界方面比现有方法表现出更高的性能。此外,我们还通过知识边界评估了多个语言模型在几个领域中的能力。
Feb, 2024
大型语言模型在各种自然语言处理任务中表现出色,但在处理需要广泛、现实世界知识的任务,特别是那些涉及长尾实体的任务时,仍然存在困难。为了解决这个问题,本研究分析了不同类型的非参数化知识对语言模型的影响,其中包括文本片段和知识图谱。通过创建一个需要长尾事实知识来回答问题的基准测试工具,我们评估了最先进的语言模型在不同知识环境下的表现。实验结果表明,单独使用语言模型来回答这些问题存在困难,特别是在需要大量长尾知识或丰富知识的情况下。然而,当为语言模型提供非参数化知识时,这些模型的性能显著提高。我们观察到,在大多数情况下,使用知识图谱三元组作为提示的语言模型表现优于使用最先进的检索器的段落提示。此外,虽然同时为语言模型提供知识图谱三元组和文档并不能始终改善知识覆盖率,但可以显著减少生成内容中的幻觉。
May, 2024