一个以用户为中心的评估大型语言模型的基准
大语言模型(LLMs)的评估方法是研究这些模型的重要组成部分,这篇综述介绍了评估LLMs的方法和维度,并总结了LLMs在不同任务中的成功案例、失败案例和未来挑战。
Jul, 2023
该研究综述了大型语言模型的评估方法,并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法,以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣,以促进负责任发展和最大化社会利益,同时最小化潜在风险。
Oct, 2023
通过综合分析来自3个评估基准的39项任务、20种不同的大型语言模型和650万个实例的单提示评估结果的脆弱性,我们提出使用一套多样的提示来评估大型语言模型,为特定的使用场景(例如LLM开发人员与对特定下游任务感兴趣的开发人员)设计定制化的评估指标,从而增强对当前大型语言模型真实优势和限制的准确可靠的评估。同时,我们实施了这些标准并对多个模型进行了评估,为当前大型语言模型的真正优势和限制提供了深入的见解。
Dec, 2023
通过以人、过程和技术为视角,功能性和安全性为支柱,使用我们的统一评估框架,对23个最先进的LLM基准进行了研究,发现了显著的限制,并强调了在人工智能进步的背景下,标准化方法、监管确定性和伦理指南的迫切需求,以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。
Feb, 2024
通过研究LLM在各种关键基准测试中的表现,我们探索了减少LLM性能评估所需评估次数的策略,并发布了评估工具和微型基准测试,证明这些工具和测试足以可靠高效地复现原始评估结果。
Feb, 2024
大型语言模型(LLMs)在各个领域中表现出卓越的能力,但在实际应用之前对其进行彻底评估是至关重要的,以确保其可靠性。本文系统地审视了LLM评估过程中导致不一致性和不可靠评估的主要挑战和限制,并根据我们的批判性评估提出了观点和建议,以确保LLM评估具有可重现性、可靠性和稳健性。
Jul, 2024
我们提出了一种新的大语言模型(LLMs)测评范式——Benchmarking-Evaluation-Assessment,将LLMs的评估位置从“考试室”转移到“医院”,通过对LLMs进行“体检”,利用特定任务解决作为评估内容,深入分析LLMs存在的问题,并为优化提供建议。
Jul, 2024
大型语言模型(LLMs)虽然在自然语言处理任务中表现出色,但仍需要外部工具来扩展其能力。本研究探索LLMs是否能够确定其能力边界并灵活使用工具,提出WTU-Eval基准评估来评估LLMs的性能,并通过细调数据集改善工具决策,结果显示LLMs在一般数据集中难以确定工具使用,并且错误的工具使用显著损害了LLMs的性能。
Jul, 2024
本文探讨了当前大型语言模型评估框架的差异性和不足之处,填补了评估方法多样性所带来的研究空白。通过对不同评估方法的深入分析,提出了更为标准化和全面的评估机制,以提升自然语言处理领域的模型评估水平。研究发现,现有框架的改进将显著推动LLMs的性能评估和实际应用。
Jul, 2024
本研究解决了在多种欧洲语言中对大型语言模型(LLM)进行一致且有意义评估的挑战,尤其是多语种基准稀缺的问题。我们提出了一种针对欧洲语言的跨语言评估方法,利用翻译的五个广泛使用的基准测试评估40个LLM在21种欧洲语言中的能力,创建了新的多语种评估框架和数据集,从而推动了多语种LLM评估的进一步研究。
Oct, 2024