不要让您的 LLM 成为一个评估基准作弊者

Nov, 2023

不要让您的 LLM 成为一个评估基准作弊者

Don't Make Your LLM an Evaluation Benchmark Cheater

Kun Zhou, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao...

TL;DR大型语言模型的评估常常会受到不适当使用评估基准和误导性解读评估结果等问题的影响。本研究通过大量实验发现，评估基准泄漏会极大地提高评估结果，从而导致对模型性能的不可靠评估。最后，为大型语言模型的开发者和基准维护者提出了一些建议。

Abstract

large language models~(LLMs) have greatly advanced the frontiers of artificial intelligence, attaining remarkable improvement in model capacity. To assess the model performance, a typical approach is to construct

large language models evaluation benchmarks model performance benchmark leakage model training

发现论文，激发创造

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

大型语言模型中基准测试的基准泄露

利用简单且可扩展的 Perplexity 和 N-gram 精度两个度量指标来检测潜在数据泄漏，揭示了大规模语言模型在数学推理领域存在的数据误用问题，并提出了关于模型文档、基准设置和未来评估的几点建议，其中包括提出 “基准透明卡” 以促进透明度和语言模型的健康发展。

Apr, 2024

检查 LLM 评估对基准分布假设的鲁棒性

基准测试作为评估大型语言模型（LLMs）的核心方法已经出现。研究界通常依赖于模型在基准测试的测试提示中的平均性能来评估模型的表现。这一点符合一个假设，即基准测试中的测试提示代表来自真实世界的感兴趣的分布的随机样本。我们注意到这一点通常并不成立；相反，我们认为感兴趣的分布因具体用例而异。我们发现（1）模型在测试提示中的性能相关性是非随机的，（2）考虑到测试提示之间的相关性，可以改变主要基准测试中的模型排名，（3）导致这些相关性的解释因素包括语义相似性和常见的 LLM 失败点。

Apr, 2024

私密基准测试以防止污染并提高对 LLM 的比较评估

私密基准测试是解决基准测试数据被污染或泄露的问题的解决方案，并且可以保持模型的权重私密，以确保私密基准测试的高质量。

Mar, 2024

当基准成为目标：揭示大型语言模型排行榜的敏感性

利用基准排名构建的大型语言模型（LLM）排行榜经常被用来指导实践者选择模型，但我们展示了这是一个（潜在的昂贵）错误。在现有的排行榜中，LLM 的相对性能对（通常微小的）细节非常敏感。我们通过对多个选择题基准进行实验，比如改变选项的顺序或答案选择方法，我们发现这些微小扰动会导致排名变化高达 8 个位置。我们通过对三类基准扰动进行系统性实验并确定其来源来解释这个现象。我们的分析得出了一些最佳实践建议，包括使用混合评分方法进行答案选择。我们的研究强调了依赖简单基准评估的风险，并规划了更健壮的评估方案的路径。

Feb, 2024

评估 LLMs 在时间泛化上的表现

大语言模型的发展迫切需要与语言理解和信息处理的提升相适应的评估方法。我们检查了当前的大语言模型，并揭示了它们在时间推理和偏见方面存在的各种时间偏见。我们提出了一个评估框架 Freshbench，用于动态生成最新的现实世界预测性预测的评估基准。

May, 2024

MoralBench: LLMs 的道德评估

该论文介绍了一个新颖的基准，旨在衡量和比较大型语言模型的道德推理能力，通过开发针对大型语言模型的道德维度的综合数据集和指标，结合伦理学者的定性洞察力，评估模型性能，并揭示了不同模型的道德推理能力存在显著差异，强调在大型语言模型的开发和评估中考虑道德推理的重要性，并需要进行后续研究来解决暴露在研究中的偏见和局限性。

Jun, 2024

提升 LLMs 的信任度：比较和解释 LLMs 的算法

评估技术在提高大规模语言模型（LLM）的可信度和理解性方面起到了至关重要的作用，通过算法方法和评估指标来评估 LLM 的性能，发现其弱点，并引导其发展以实现更可信赖的应用。

Jun, 2024

tinyBenchmarks: 用较少的样例评估 LLM

通过研究 LLM 在各种关键基准测试中的表现，我们探索了减少 LLM 性能评估所需评估次数的策略，并发布了评估工具和微型基准测试，证明这些工具和测试足以可靠高效地复现原始评估结果。

Feb, 2024

教育计划修复基准测试

为了促进竞争方法的公平比较和标准化，该研究提出了一个新颖的教育性程序修复基准，对两个高质量的编程数据集进行整理，引入一种新的评估度量指标 rouge@k 来评估修复质量，并评估了五种最近的模型以建立基础性能。

May, 2024