通过多阶段采样对大型语言模型进行主动测试

Aug, 2024

通过多阶段采样对大型语言模型进行主动测试

Active Testing of Large Language Model via Multi-Stage Sampling

Yuheng Huang, Jiayang Song, Qiang Hu, Felix Juefei-Xu, Lei Ma

TL;DR本研究针对大型语言模型（LLMs）在性能评估中的数据需求问题，提出了一种新颖的主动测试框架AcTracer。该框架通过多阶段池基主动选择策略，从内部和外部信息指导测试数据的采样，有效提高了性能评估的效率和准确性。实验结果显示，AcTracer在各类任务中表现优于现有方法，性能提升达38.83%。

Abstract

Performance Evaluation plays a crucial role in the development life cycle of Large Language Models (LLMs). It estimates the model's capability, elucidates behavior characteristics, and facilitates the identificat

发现论文，激发创造

自动化行为测试在机器翻译中的应用

利用大型语言模型和行为测试的评估框架来检测机器翻译系统的行为，提出了一种通过针对不同场景生成多样的源句子、使用候选集进行验证的方法，并揭示使用准确率等传统度量指标难以察觉的重要差异和潜在错误。

Sep, 2023

MINT: 使用工具和语言反馈评估多轮交互中的LLMs

通过使用工具和自然语言反馈，MINT基准测试评估了大型语言模型在解决具有多回合交互的任务时的能力，并从20个开源和闭源的语言模型分析中发现，在工具交互和自然语言反馈的情况下，LLMs的性能有所提升。

Sep, 2023

评价大型语言模型在指令遵循方面的表现

这篇研究通过引入一个具有挑战性的元评估基准LMMBar，调查了大型语言模型(LLMs)在评估指导遵循生成文本方面的效力，发现不同评估器对LMMBar的性能表现不同，最高分的评估器仍有改进的空间，并提出了一套新颖的提示策略来缩小LLM和人类评估器之间的差距。通过LLMBar希望提供对LLM评估器的更多洞察，并促进未来开发更好的指导遵循模型的研究。

Oct, 2023

大型语言模型的训练、微调和推理的运行时性能剖析

通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试，本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。

Nov, 2023

tinyBenchmarks: 用较少的样例评估LLM

通过研究LLM在各种关键基准测试中的表现，我们探索了减少LLM性能评估所需评估次数的策略，并发布了评估工具和微型基准测试，证明这些工具和测试足以可靠高效地复现原始评估结果。

Feb, 2024

检查LLM评估对基准分布假设的鲁棒性

基准测试作为评估大型语言模型（LLMs）的核心方法已经出现。研究界通常依赖于模型在基准测试的测试提示中的平均性能来评估模型的表现。这一点符合一个假设，即基准测试中的测试提示代表来自真实世界的感兴趣的分布的随机样本。我们注意到这一点通常并不成立；相反，我们认为感兴趣的分布因具体用例而异。我们发现（1）模型在测试提示中的性能相关性是非随机的，（2）考虑到测试提示之间的相关性，可以改变主要基准测试中的模型排名，（3）导致这些相关性的解释因素包括语义相似性和常见的LLM失败点。

Apr, 2024

通过辩论评估大型语言模型的性能

基于辩论的自动化基准评估框架可有效评估和比较大型语言模型（LLMs）的性能，同时消除了依赖人类群体的昂贵需求。

Jun, 2024

超越基准测试：大型语言模型评估和评估的新范式

我们提出了一种新的大语言模型（LLMs）测评范式——Benchmarking-Evaluation-Assessment，将LLMs的评估位置从“考试室”转移到“医院”，通过对LLMs进行“体检”，利用特定任务解决作为评估内容，深入分析LLMs存在的问题，并为优化提供建议。

Jul, 2024

在测试时间计算中的最佳扩展比扩大模型参数更有效

本研究解决了在大型语言模型（LLM）测试时间计算的规模问题，探讨如何利用固定的计算资源显著提高模型在复杂提示上的表现。论文提出了一种“计算最优”的扩展策略，能够根据提示的难度动态分配计算资源，经过验证，此策略比现有基准提高了超过4倍的计算效率，并在特定情况下超越了14倍大模型的性能。

Aug, 2024

大型语言模型的峰值性能实现：系统评审

本研究解决了大型语言模型（LLM）在性能优化和资源消耗方面的挑战。通过系统文献综述，提出了多种方法来加快LLM的训练和推理，同时保持准确性。研究表明，可以在不损失性能的情况下，显著降低计算和内存成本，推动LLM的广泛应用。

Sep, 2024