KoLA:大型语言模型世界知识的精细基准测试
本文介绍了一种更具挑战性的基准数据集和方法,用于评估语言模型在无监督知识库补全方面的潜力,并发现了语言模型在补全 Wikidata 中 nativeLanguage、usedLanguage 和 citizenOf 等关系方面表现出强大的泛化能力。
Mar, 2023
大型语言模型(LLMs)在可靠性方面通常存在不可靠的幻觉。在本文中,我们定义了一项名为知识感知语言模型归因(KaLMA)的新任务,它改进了传统归因语言模型的三个核心问题。
Oct, 2023
提出了一个名为 KnowGen 的方法来生成新知识,并引入了一个名为 ALCUNA 的基准来评估大规模语言模型在处理新知识方面的能力,发现它们在处理新知识的推理方面表现不佳,并探索了实体相似性对模型对实体知识的理解以及上下文实体的影响。
Oct, 2023
本文提出了一种名为 MONITOR 的新度量方法,用于直接衡量大型语言模型的事实可靠性,通过计算有效输出与同一模型使用不同类型提示和上下文进行探索所产生的对应输出之间的概率分布距离来评估模型的一致性。实验证明 MONITOR 对于评估大型语言模型的事实可靠性具有良好的效果,并且计算开销较低。此外,作者还发布了包含 210,158 个提示的 FKTC 测试集,以促进相关研究的开展。
Oct, 2023
大型语言模型(LLMs)在科学研究中的广泛应用需要先进的评估标准来全面评估它们对科学知识的理解和应用。为了解决这个问题,我们引入了 SciKnowEval 基准,这是一个新颖的框架,从五个渐进的科学知识水平对 LLMs 进行系统评估:广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。这些水平旨在评估 LLMs 的科学知识的广度和深度,包括知识覆盖、探索能力、反思和推理能力、伦理和安全考量以及实践熟练性。我们以生物学和化学为 SciKnowEval 的两个示例,并构建了一个包含 50,000 个多层次科学问题和解决方案的数据集。通过利用这个数据集,我们使用零提示和少量提示策略对 20 个领先的开源和专有 LLMs 进行了评估。结果显示,尽管取得了最先进的性能,专有的 LLMs 在解决科学计算和应用方面仍有相当大的改进空间。我们预计 SciKnowEval 将建立一个全面的标准来评估科学研究和发现中的 LLMs,并促进将科学知识与强大的安全意识融入 LLMs 的发展。数据集和代码可在此 https URL 上公开获取。
Jun, 2024
大型语言模型(LLMs)在知识密集型任务上表现出色,但如何系统评估 LLMs 的知识能力及其在不同领域和任务中的知识泛化能力仍然不为人所知。为此,我们提出了 KGQuiz,这是一个基于知识的全面评估框架,包含了五个任务,从简单到复杂地涵盖了三个领域的知识。通过在 KGQuiz 基准测试中对十种开源和黑盒 LLMs 进行广泛实验,我们发现 LLMs 在简单的知识问答任务中表现出色,但在需要更复杂推理或领域特定事实的设置和上下文中仍然存在挑战。我们将 KGQuiz 视为一个测试平台,用于分析不同领域和任务格式下性能的微妙变化,并最终理解、评估和改进 LLMs 在广泛知识领域和任务中的知识能力。
Oct, 2023
本文提出了一种新的连续学习问题 —— 连续知识学习,并构建了一个新的数据集和指标,用于衡量时间不变世界知识的保留,过时知识的更新和新知识的获取。通过实验发现,该问题的关键在于对抗知识遗忘和参数扩展,因此对于更好地维护不断变化的大型语言模型非常重要。
Oct, 2021
大型语言模型在知识图谱工程方面的性能评估和监控是一个重要问题,我们引入了一个基于知识图谱工程的基准评测框架,涵盖了语法和纠错、事实抽取以及数据集生成三个挑战。通过实验证明,尽管具有一定的实用性,大型语言模型在零样本生成知识图谱方面尚不适用。因此,我们的 LLM-KG-Bench 框架提供了 LLM 响应的自动评估和存储机制,以及统计数据和可视化工具,以支持指导数据和模型性能的追踪。
Aug, 2023
通过使用教育诊断评估方法,本研究在 MoocRadar 上进行评估,这是一个基于布鲁姆分类法的人工测试数据集,旨在揭示大型语言模型的知识结构并了解其认知能力的差异模式,从而为研究人员在 LLMs 的知识方面提供更明确、更有效的发展和利用。
Oct, 2023
在这篇论文中,我们介绍了一个新的问题,在持续学习领域中称为 “在线持续知识学习(OCKL)”。我们提出了一个新的基准和评估指标,旨在测量新知识获取的速度和先前学到的知识的保留率。通过使用各种最先进的方法进行的实证评估为 OCKL 建立了稳健的基准。我们的结果显示,现有的持续学习方法对于应对 OCKL 提出的独特挑战不足够。我们确定了影响知识获取和保留之间权衡的关键因素,从而推进了我们对如何在不断演化的环境中训练 LLMs 的理解。
Nov, 2023