大型语言模型的知识边界基准测试：对模型评估的不同视角

Feb, 2024

大型语言模型的知识边界基准测试：对模型评估的不同视角

Benchmarking Knowledge Boundary for Large Language Model: A Different Perspective on Model Evaluation

Xunjian Yin, Xu Zhang, Jie Ruan, Xiaojun Wan

TL;DR近年来，在大型语言模型的发展方面取得了重大进展，达到了在各种任务中的显著表现。为了评估语言模型的知识能力，先前的研究提出了许多基于问答对的基准。我们认为，使用固定问题或有限的改写作为查询来评估语言模型的可靠性和全面性是不可靠的，因为语言模型对提示敏感。因此，我们引入了一个名为知识边界的新概念，用于涵盖语言模型中的提示不可知和提示敏感的知识。知识边界避免了语言模型评估中的提示敏感性，使其更可靠和稳健。为了探索给定模型的知识边界，我们提出了具有语义约束的投影梯度下降方法，这是一种新的算法，旨在识别每个知识片段的最佳提示。实验证明我们的算法在计算知识边界方面比现有方法表现出更高的性能。此外，我们还通过知识边界评估了多个语言模型在几个领域中的能力。

Abstract

In recent years, substantial advancements have been made in the development of large language models, achieving remarkable performance across diverse tasks. To evaluate the knowledge ability of language models, p

large language models knowledge ability knowledge boundary prompt sensitivity language model evaluations

发现论文，激发创造

开发一个可扩展的基准测试，用于评估大型语言模型在知识图谱工程中的表现

大型语言模型在知识图谱工程方面的性能评估和监控是一个重要问题，我们引入了一个基于知识图谱工程的基准评测框架，涵盖了语法和纠错、事实抽取以及数据集生成三个挑战。通过实验证明，尽管具有一定的实用性，大型语言模型在零样本生成知识图谱方面尚不适用。因此，我们的 LLM-KG-Bench 框架提供了 LLM 响应的自动评估和存储机制，以及统计数据和可视化工具，以支持指导数据和模型性能的追踪。

Aug, 2023

评估大型语言模型用于知识图谱上的语义解析对话问答

评估了没有在此任务上进行明确预训练的大型语言模型的性能，并通过一系列实验在广泛的基准数据集上比较了具有不同提示技术和不同大小的模型，并确定了生成输出中的常见问题类型。结果表明，大型语言模型能够从对话中生成图查询，并通过少样本提示和微调技术实现显著提升，特别是对于展现较低零样本性能的较小模型。

Jan, 2024

重新思考语言模型作为符号知识图谱

基于符号的知识图谱、语言模型和评估指标对知识图谱的拓扑属性和语义属性进行了详尽的评估，发现语言模型在提取符号知识方面能力受到限制。

Aug, 2023

大型语言模型的知识边界感知：半开放问题回答

研究了大型语言模型的知识界限，发现其在半开放问题上表现不佳，缺乏对模型知识界限的认知。通过探索模糊答案的更多可能性，发现模型的知识界限，构建了一个用于感知 GPT-4 知识界限的数据集，并使用辅助模型 LLaMA-2-13B 来发现更多模糊答案。

May, 2024

KoLA：大型语言模型世界知识的精细基准测试

我们构建了一种基于知识导向的大型语言模型评估基准，并通过使用维基百科和不断收集出现的语料库来确保数据的公正比较，评估 21 个开源和商业大型语言模型的能力和知识相关度。

Jun, 2023

评估语言模型用于知识库补全

本文介绍了一种更具挑战性的基准数据集和方法，用于评估语言模型在无监督知识库补全方面的潜力，并发现了语言模型在补全 Wikidata 中 nativeLanguage、usedLanguage 和 citizenOf 等关系方面表现出强大的泛化能力。

Mar, 2023

知识图谱引导的语言模型语义评估用于用户信任

本研究通过建立图格式的知识图谱，对自注意力转换器编码的语义进行了评估，发现语言模型不会赋予学习到的随机模式以物体和概念级别的含义和语义，同时构建了一个 GLUE 基准的增强语言理解基准，以使语言模型的概念理解得到健壮的评估。

May, 2023

KIEval：大型语言模型的基于知识的交互评估框架

KIEval 是一个知识驱动的交互式评估框架，通过在常规 LLM 基准问题中引入一个 LLM 增强的 “交互者” 角色，进行动态抗干扰评估，以确定模型的回答是否仅仅是基准答案的回忆，还是展示了更复杂对话中应用知识的深度理解。对五个数据集上的七个领先 LLM 进行的大量实验证实了 KIEval 的有效性和泛化性，同时揭示了数据污染对模型在现实世界的适用性和理解力没有贡献甚至产生负效应的事实，并且现有的 LLM 数据干扰检测方法只能在预训练阶段识别干扰而无法在监督微调期间进行识别。

Feb, 2024

大型语言模型中的事实知识系统评估

通过利用知识图谱 (KGs) 来系统评估大型语言模型 (LLMs) 的事实知识，本文提出了一个框架。我们的框架通过从给定 KG 中存储的事实自动生成一组问题和预期答案，然后评估 LLMs 回答这些问题的准确性。我们在通用和特定领域系统评估了最先进的 LLMs，实验证明 ChatGPT 在所有领域中始终是最佳表现者。我们还发现 LLMs 的表现取决于指导微调、领域和问题的复杂性，并且容易受到对抗性环境的影响。

Oct, 2023

自我认知评估大型语言模型

基于 Feynman 的理解通过创造原则，我们引入了一个易于实施的自我认知评估框架，评估模型对自动生成的问题的理解和回应能力。我们的研究发现，在多个任务上测试多个模型后，模型的自我认知能力存在显著差距。进一步分析表明，这些差距可能是由于与人类注意机制的不匹配所导致的。此外，对自动生成的数学任务进行微调可以提高模型的数学性能，突出了该框架在高效和富有洞察力的模型评估方面的潜力，并可能有助于改善大型语言模型。

Jun, 2024