metabench” -- 测量大型语言模型一般能力的稀疏基准测试
近期大型语言模型(LLMs)的发展和成功需要对其在不同语言的各种NLP任务中的性能进行评估。本研究介绍了LLMeBench框架,该框架最初是为了使用OpenAI的GPT和BLOOM模型评估阿拉伯语NLP任务而开发的,但它可以轻松地定制任何NLP任务和模型,无论语言如何。该框架还具有零样本学习和少样本学习的设置。用户可以在不到10分钟的时间内添加新的自定义数据集,并使用自己的模型API密钥评估所需的任务。该框架已经在31个独特的NLP任务中进行了测试,涉及53个公开可用的数据集和大约296K个数据点的90个实验设置。我们计划将该框架开源给社区。在线上有演示视频供观看。
Aug, 2023
介绍了 RoTBench,用于评估工具学习中 LLMs 的鲁棒性的多级基准。通过在五个不同级别的噪声环境下进行实验,揭示了现有模型在工具选择、参数识别和内容填充三个关键阶段中的弹性问题。为了增强 LLMs 在工具学习中的鲁棒性,提出了 RoTTuning 策略。
Jan, 2024
我们提出了一种名为Meta Ranking (MR)的新方法,通过比较目标查询-响应对与参考查询-响应对,使能力较弱的大语言模型能够有效判断个别响应的可靠性,并且在推理任务中实现了出色的误差检测效果,可以用于改进大语言模型的性能,如查询路由和迭代训练数据过滤等实际应用中。
Feb, 2024
通过研究LLM在各种关键基准测试中的表现,我们探索了减少LLM性能评估所需评估次数的策略,并发布了评估工具和微型基准测试,证明这些工具和测试足以可靠高效地复现原始评估结果。
Feb, 2024
基准测试作为评估大型语言模型(LLMs)的核心方法已经出现。研究界通常依赖于模型在基准测试的测试提示中的平均性能来评估模型的表现。这一点符合一个假设,即基准测试中的测试提示代表来自真实世界的感兴趣的分布的随机样本。我们注意到这一点通常并不成立;相反,我们认为感兴趣的分布因具体用例而异。我们发现(1)模型在测试提示中的性能相关性是非随机的,(2)考虑到测试提示之间的相关性,可以改变主要基准测试中的模型排名,(3)导致这些相关性的解释因素包括语义相似性和常见的LLM失败点。
Apr, 2024
WildBench是一个自动评估框架,使用挑战性的真实用户查询来评估大型语言模型。它基于1,024个从超过一百万人机对话日志中精心选择的任务构建,并引入了两种具有可计算性的度量标准。通过使用任务特定的检查清单进行评估,并提供结构化解释来支持分数和比较,使得结果更可靠且易于解释。该框架中的度量标准在模型输出方面表现出与人工评分的很强相关性,具有较高的评估效率和成本效益。
Jun, 2024
通过BiGGen Bench的引入,对77个不同任务中的九种语言模型的生成能力进行了全面评估,并借助实例特定的评估标准来模拟人类评估的微妙辨别。该研究公开提供了代码、数据和评估结果。
Jun, 2024
针对大型语言模型(LLMs)的可解释性低,现有的评估系统主要考察问题解决能力而忽视了响应的不确定性,为此提出了UBENCH,一个全面评估LLM可靠性的基准,包括了3,978个多项选择题,实验结果表明UBENCH取得了最先进的性能,同时与需要多次采样的基准方法相比,其单次采样方法显著节省了计算资源。此外,基于UBENCH,我们评估了15个热门的LLM的可靠性,发现GLM4和GPT-4表现突出。我们还探讨了Chain-of-Thought提示、角色扮演提示、选项顺序和温度对LLM可靠性的影响,并分析了对不同LLM的不同效果。
Jun, 2024
我们提出了一种新的大语言模型(LLMs)测评范式——Benchmarking-Evaluation-Assessment,将LLMs的评估位置从“考试室”转移到“医院”,通过对LLMs进行“体检”,利用特定任务解决作为评估内容,深入分析LLMs存在的问题,并为优化提供建议。
Jul, 2024
本文探讨了当前大型语言模型评估框架的差异性和不足之处,填补了评估方法多样性所带来的研究空白。通过对不同评估方法的深入分析,提出了更为标准化和全面的评估机制,以提升自然语言处理领域的模型评估水平。研究发现,现有框架的改进将显著推动LLMs的性能评估和实际应用。
Jul, 2024