KoLA:大型语言模型世界知识的精细基准测试
大语言模型(LLMs)的评估方法是研究这些模型的重要组成部分,这篇综述介绍了评估LLMs的方法和维度,并总结了LLMs在不同任务中的成功案例、失败案例和未来挑战。
Jul, 2023
通过Head-to-Tail基准测试,我们评估了14个公开可用的大型语言模型在掌握事实性知识方面的表现,发现现有的大型语言模型在掌握中间到较不常见的实体的事实方面仍有很大的改进空间。
Aug, 2023
这篇论文提出了SciEval基准评估体系,以解决现有预先收集客观问题的数据泄露问题和缺乏主观问答能力评估的问题。SciEval基于Bloom的认知分类学,覆盖了四个维度,系统评估科学研究能力。研究者进行了全面的实验证明,尽管GPT-4在与其他LLMs相比取得了最先进的表现,但仍有很大的改进空间,特别是在动态问题方面。数据和代码现已公开。
Aug, 2023
大型语言模型(LLMs)在知识密集型任务上表现出色,但如何系统评估LLMs的知识能力及其在不同领域和任务中的知识泛化能力仍然不为人所知。为此,我们提出了KGQuiz,这是一个基于知识的全面评估框架,包含了五个任务,从简单到复杂地涵盖了三个领域的知识。通过在KGQuiz基准测试中对十种开源和黑盒LLMs进行广泛实验,我们发现LLMs在简单的知识问答任务中表现出色,但在需要更复杂推理或领域特定事实的设置和上下文中仍然存在挑战。我们将KGQuiz视为一个测试平台,用于分析不同领域和任务格式下性能的微妙变化,并最终理解、评估和改进LLMs在广泛知识领域和任务中的知识能力。
Oct, 2023
本文提出了一种名为MONITOR的新度量方法,用于直接衡量大型语言模型的事实可靠性,通过计算有效输出与同一模型使用不同类型提示和上下文进行探索所产生的对应输出之间的概率分布距离来评估模型的一致性。实验证明MONITOR对于评估大型语言模型的事实可靠性具有良好的效果,并且计算开销较低。此外,作者还发布了包含210,158个提示的FKTC测试集,以促进相关研究的开展。
Oct, 2023
提出了GraphEval方法使用大规模测试数据集来评估大型语言模型的性能,该方法通过从包含1000万多个事实的大型知识图中检索测试数据集来简化评估过程,并创造了一个判断模型来估计语言模型所给出答案的正确性。实验证明判断模型的事实评估与语言模型的生成输出的正确性密切相关,并且大大降低了评估成本,同时还为后续改进确保语言模型输出的事实性提供了有价值的见解。
Apr, 2024
评估大型语言模型的事实记忆能力及其影响因素,涵盖多个领域、知识流行度水平和模型家族,并观察到指令调整对知识召回的负面影响、模型规模对性能的正面影响以及反事实演示对大模型事实知识召回的降低作用。
Apr, 2024
这篇论文通过从方法、评估和应用三个方面对专门针对大型语言模型的知识蒸馏技术进行了全面调查,将方法分为白盒知识蒸馏和黑盒知识蒸馏,并探讨了不同蒸馏方法之间的评估任务和蒸馏效果,并提出了未来研究的方向。通过深入了解最新进展和实际应用,这篇综述为研究人员提供了有价值的资源,为这一领域的持续进展铺平了道路。
Jul, 2024
利用大型语言模型作为知识库的可靠性和效果尚未得到充分研究,该研究通过定义可靠性标准和指标,评估了26个热门语言模型的效果,并发现即使高性能模型如GPT-3.5-turbo也不具备事实性和一致性,而在上下文学习和微调等策略上的努力也未能改善这些语言模型作为知识库的表现。
Jul, 2024
本研究解决了多模态大型语言模型(MLLMs)评估中对多模态推理能力和大语言模型(LLM)骨干的过度依赖的问题。通过提出改进的评估协议和自动知识识别技术,我们发现当前评估基准可能忽视视觉输入的重要性,并指出LLM骨干知识不足对性能的显著影响。研究表明,知识增强管道可以提升性能,提供了对LLM骨干在MLLM中的关键作用的深刻洞见。
Oct, 2024