生成语言模型的统计知识评估
通过利用知识图谱 (KGs) 来系统评估大型语言模型 (LLMs) 的事实知识,本文提出了一个框架。我们的框架通过从给定 KG 中存储的事实自动生成一组问题和预期答案,然后评估 LLMs 回答这些问题的准确性。我们在通用和特定领域系统评估了最先进的 LLMs,实验证明 ChatGPT 在所有领域中始终是最佳表现者。我们还发现 LLMs 的表现取决于指导微调、领域和问题的复杂性,并且容易受到对抗性环境的影响。
Oct, 2023
本文提出了一种名为 MONITOR 的新度量方法,用于直接衡量大型语言模型的事实可靠性,通过计算有效输出与同一模型使用不同类型提示和上下文进行探索所产生的对应输出之间的概率分布距离来评估模型的一致性。实验证明 MONITOR 对于评估大型语言模型的事实可靠性具有良好的效果,并且计算开销较低。此外,作者还发布了包含 210,158 个提示的 FKTC 测试集,以促进相关研究的开展。
Oct, 2023
大型语言模型在知识图谱工程方面的性能评估和监控是一个重要问题,我们引入了一个基于知识图谱工程的基准评测框架,涵盖了语法和纠错、事实抽取以及数据集生成三个挑战。通过实验证明,尽管具有一定的实用性,大型语言模型在零样本生成知识图谱方面尚不适用。因此,我们的 LLM-KG-Bench 框架提供了 LLM 响应的自动评估和存储机制,以及统计数据和可视化工具,以支持指导数据和模型性能的追踪。
Aug, 2023
大型语言模型(LLMs)在知识密集型任务上表现出色,但如何系统评估 LLMs 的知识能力及其在不同领域和任务中的知识泛化能力仍然不为人所知。为此,我们提出了 KGQuiz,这是一个基于知识的全面评估框架,包含了五个任务,从简单到复杂地涵盖了三个领域的知识。通过在 KGQuiz 基准测试中对十种开源和黑盒 LLMs 进行广泛实验,我们发现 LLMs 在简单的知识问答任务中表现出色,但在需要更复杂推理或领域特定事实的设置和上下文中仍然存在挑战。我们将 KGQuiz 视为一个测试平台,用于分析不同领域和任务格式下性能的微妙变化,并最终理解、评估和改进 LLMs 在广泛知识领域和任务中的知识能力。
Oct, 2023
大型语言模型在各种自然语言处理任务中表现出色,但在处理需要广泛、现实世界知识的任务,特别是那些涉及长尾实体的任务时,仍然存在困难。为了解决这个问题,本研究分析了不同类型的非参数化知识对语言模型的影响,其中包括文本片段和知识图谱。通过创建一个需要长尾事实知识来回答问题的基准测试工具,我们评估了最先进的语言模型在不同知识环境下的表现。实验结果表明,单独使用语言模型来回答这些问题存在困难,特别是在需要大量长尾知识或丰富知识的情况下。然而,当为语言模型提供非参数化知识时,这些模型的性能显著提高。我们观察到,在大多数情况下,使用知识图谱三元组作为提示的语言模型表现优于使用最先进的检索器的段落提示。此外,虽然同时为语言模型提供知识图谱三元组和文档并不能始终改善知识覆盖率,但可以显著减少生成内容中的幻觉。
May, 2024
本文提出了信息理论量化大型语言模型中现实知识的方法,评估了其与现有排名法的精度,并探究了两种前沿知识安装方法在特定情况下的限制,最后通过应用在上下文学习中,证明了该方法可以用来提取 LLM 中未学习和错学的事实。
Jun, 2023
大型语言模型(LLMs)在可靠性方面通常存在不可靠的幻觉。在本文中,我们定义了一项名为知识感知语言模型归因(KaLMA)的新任务,它改进了传统归因语言模型的三个核心问题。
Oct, 2023
这篇论文探讨了使用大型语言模型(LLMs)对知识图谱(KG)完成模型进行自动评估的方法。通过使用通用生成型人工智能和 LLMs,可以替代传统的基于人工标注的大规模验证方法,引入了一种基于开源结构和语义验证工具的框架,以及灵活的事实检查和验证方法,并支持参考任何外部知识源的功能。该设计易于适应和扩展,可以通过模型内开发的知识、用户提供的上下文以及能够获取外部知识的代理来验证任何类型的图形结构数据。
Apr, 2024
KGLens 是一种通过在结构感知的方式下从知识图谱生成自然语言问题以评估大型语言模型的方法,可以对模型的性能进行更合聚的整体性评估,并提供主题、时间和关系分析。
Dec, 2023
基于 Feynman 的理解通过创造原则,我们引入了一个易于实施的自我认知评估框架,评估模型对自动生成的问题的理解和回应能力。我们的研究发现,在多个任务上测试多个模型后,模型的自我认知能力存在显著差距。进一步分析表明,这些差距可能是由于与人类注意机制的不匹配所导致的。此外,对自动生成的数学任务进行微调可以提高模型的数学性能,突出了该框架在高效和富有洞察力的模型评估方面的潜力,并可能有助于改善大型语言模型。
Jun, 2024