CFBench：大型语言模型的综合约束遵循基准

Aug, 2024

CFBench：大型语言模型的综合约束遵循基准

CFBench: A Comprehensive Constraints-Following Benchmark for LLMs

Tao Zhang, Yanjun Shen, Wenjing Luo, Yan Zhang, Hao Liang...

TL;DR本文解决了当前评价大型语言模型（LLMs）在遵循自然语言指令方面的局限性，主要集中于碎片化的约束和狭窄场景。我们提出了CFBench，一个大规模的综合约束遵循基准，通过1000个样本覆盖200多个真实场景和50多个NLP任务，创新性地构建了约束类型的系统框架。评估结果显示，当前领先的LLMs在约束遵循方面还有显著提升空间，为模型的改进提供了方向。

Abstract

The adeptness of Large Language Models (LLMs) in comprehending and following natural language instructions is critical for their deployment in sophisticated real-world applications. Existing evaluations mainly focus on fragmented constraints or narrow scenarios, but they overlook the c

发现论文，激发创造

LLMeBench：一款加速LLM基准测试的灵活框架

近期大型语言模型（LLMs）的发展和成功需要对其在不同语言的各种NLP任务中的性能进行评估。本研究介绍了LLMeBench框架，该框架最初是为了使用OpenAI的GPT和BLOOM模型评估阿拉伯语NLP任务而开发的，但它可以轻松地定制任何NLP任务和模型，无论语言如何。该框架还具有零样本学习和少样本学习的设置。用户可以在不到10分钟的时间内添加新的自定义数据集，并使用自己的模型API密钥评估所需的任务。该框架已经在31个独特的NLP任务中进行了测试，涉及53个公开可用的数据集和大约296K个数据点的90个实验设置。我们计划将该框架开源给社区。在线上有演示视频供观看。

Aug, 2023

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入LongBench，对8个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

FLM-101B：一种开放的LLM及以10万美元预算训练它的方法

通过生长策略显著降低大语言模型的训练成本，并采用系统化评估范式，对大语言模型进行智商评估，以解决高计算成本和公正客观评估的挑战。

Sep, 2023

NLPBench：评估大型语言模型在解决NLP问题上的能力

通过独特的基准数据集NLPBench，评估了大型语言模型在自然语言处理中的问题解决能力，并发现高级提示策略的有效性不稳定，对LLMs 性能有时造成损害，尤其是较小的模型LLAMA-2（13亿参数）中表现更明显；同时发现大型语言模型在科学问题解决能力方面存在特定的不足，逻辑分解和推理的薄弱性明显影响结果。

Sep, 2023

FollowBench：用于大型语言模型的多级细粒度约束追踪基准

本文提出了FollowBench，这是一个用于大型语言模型（LLMs）的多级细粒度约束遵循基准，通过评估LLMs在遵循不同类型的细粒度约束方面的表现，揭示了LLMs在遵循指令方面的不足之处，并指出了未来研究的潜在方向。

Oct, 2023

基于多样化指令的可控生成大型语言模型的基准测试

我们提出了一个新的基准测试CoDI-Eval，系统和全面评估LLMs对带有各种约束的指令的响应，揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源LLMs之间存在显著差距。

Jan, 2024

大型语言模型的数据集：综述

该研究论文对大型语言模型数据集进行了综述和分类，包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面；此外还提供了现有数据集资源的综合评估，涵盖8个语言类别和32个领域，包括来自444个数据集的统计信息，共计超过774.5 TB的预训练语料库数据和7亿个实例的其他数据集数据；旨在为研究人员提供整个LLM文本数据集的全貌，并为未来的研究做出贡献。

Feb, 2024

从复杂到简单：增强大型语言模型的多约束复合指令跟随能力

使用包含多个约束条件的指令来训练大型语言模型，能提高其理解复杂指令，特别是对于低复杂性水平的指令，甚至可以推广到超出领域约束的组合，同时提出了获取和利用有效训练数据的方法，并通过广泛实验验证了方法在总体性能、训练效率和泛化能力方面的有效性。

Apr, 2024

评估大型语言模型的系统调查与批判性综述：挑战、局限性与建议

大型语言模型（LLMs）在各个领域中表现出卓越的能力，但在实际应用之前对其进行彻底评估是至关重要的，以确保其可靠性。本文系统地审视了LLM评估过程中导致不一致性和不可靠评估的主要挑战和限制，并根据我们的批判性评估提出了观点和建议，以确保LLM评估具有可重现性、可靠性和稳健性。

Jul, 2024

metabench” -- 测量大型语言模型一般能力的稀疏基准测试

利用超过5000个大型语言模型的数据，从六个基准测试中提取出信息量最大的项目，生成一个稀疏基准测试benchmark，其组合总体积不到原始六个基准测试总体积的3%，并能以最小均方根误差重构每个原始基准测试的分数，总体积的重构均方根误差为0.8%，并且具有单一的共同因子，与总体积的斯皮尔曼相关性为0.93。

Jul, 2024