LMentry: 基本语言任务的语言模型基准测试
该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试,包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战,该基准测试可以用于测试和推广最先进的 LLMs 模型。
Jun, 2023
近期大型语言模型(LLMs)的发展和成功需要对其在不同语言的各种 NLP 任务中的性能进行评估。本研究介绍了 LLMeBench 框架,该框架最初是为了使用 OpenAI 的 GPT 和 BLOOM 模型评估阿拉伯语 NLP 任务而开发的,但它可以轻松地定制任何 NLP 任务和模型,无论语言如何。该框架还具有零样本学习和少样本学习的设置。用户可以在不到 10 分钟的时间内添加新的自定义数据集,并使用自己的模型 API 密钥评估所需的任务。该框架已经在 31 个独特的 NLP 任务中进行了测试,涉及 53 个公开可用的数据集和大约 296K 个数据点的 90 个实验设置。我们计划将该框架开源给社区。在线上有演示视频供观看。
Aug, 2023
通过以人、过程和技术为视角,功能性和安全性为支柱,使用我们的统一评估框架,对 23 个最先进的 LLM 基准进行了研究,发现了显著的限制,并强调了在人工智能进步的背景下,标准化方法、监管确定性和伦理指南的迫切需求,以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。
Feb, 2024
通过民主过程提出了一种新的基准框架 —— 语言模型委员会(LMC),用于在高度主观的任务中对大型语言模型进行排名,通过平等参与来制定测试集,通过集体评估响应来产生更可分离、强健且较少偏差的排名。
Jun, 2024
大型语言模型在法律领域的能力评估中,提出了全面评估基准 LawBench,并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型,但还有很大提升空间。
Sep, 2023
通过系统分析大型语言模型(LLMs)抵抗提示扰动的稳定性,本研究构建 E-Bench 模拟真实人类使用情况,并讨论了同义扰动和排版扰动的组合以及性能下降的主要原因,实验证明即便随着模型规模的增加,易用性显著提升,但仍需努力建立足够用户友好的模型。
Jun, 2024
本文提出了一种新的基准测试框架,Language-Model-as-an-Examiner,其中 LM 作为一个知识丰富的考官,提出问题,并以无参考的方式评估答复,以便更全面和公平地评估模型。
Jun, 2023
通过使用开源库完成机器学习任务,本文旨在提出一种新的评估设置,以评估大型语言模型(LLMs)在实际编程中的适用性,并介绍了 ML-Bench 和 ML-Agent 两个工具,用于评估 LLMs 在利用开源函数时的有效性。
Nov, 2023
通过独特的基准数据集 NLPBench,评估了大型语言模型在自然语言处理中的问题解决能力,并发现高级提示策略的有效性不稳定,对 LLMs 性能有时造成损害,尤其是较小的模型 LLAMA-2(13 亿参数)中表现更明显;同时发现大型语言模型在科学问题解决能力方面存在特定的不足,逻辑分解和推理的薄弱性明显影响结果。
Sep, 2023
通过研究 LLM 在各种关键基准测试中的表现,我们探索了减少 LLM 性能评估所需评估次数的策略,并发布了评估工具和微型基准测试,证明这些工具和测试足以可靠高效地复现原始评估结果。
Feb, 2024