CFBench:大型语言模型的综合约束遵循基准
近期大型语言模型(LLMs)的发展和成功需要对其在不同语言的各种NLP任务中的性能进行评估。本研究介绍了LLMeBench框架,该框架最初是为了使用OpenAI的GPT和BLOOM模型评估阿拉伯语NLP任务而开发的,但它可以轻松地定制任何NLP任务和模型,无论语言如何。该框架还具有零样本学习和少样本学习的设置。用户可以在不到10分钟的时间内添加新的自定义数据集,并使用自己的模型API密钥评估所需的任务。该框架已经在31个独特的NLP任务中进行了测试,涉及53个公开可用的数据集和大约296K个数据点的90个实验设置。我们计划将该框架开源给社区。在线上有演示视频供观看。
Aug, 2023
通过引入LongBench,对8个大型语言模型进行全面评估,我们发现商业模型(GPT-3.5-Turbo-16k)优于其他开源模型,但在更长的语境下仍存在困难;在较长序列上进行的缩放位置嵌入和微调,在长语境理解方面带来了实质性的改进;检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进,但性能仍落后于具有强大长上下文理解能力的模型。
Aug, 2023
通过生长策略显著降低大语言模型的训练成本,并采用系统化评估范式,对大语言模型进行智商评估,以解决高计算成本和公正客观评估的挑战。
Sep, 2023
通过独特的基准数据集NLPBench,评估了大型语言模型在自然语言处理中的问题解决能力,并发现高级提示策略的有效性不稳定,对LLMs 性能有时造成损害,尤其是较小的模型LLAMA-2(13亿参数)中表现更明显;同时发现大型语言模型在科学问题解决能力方面存在特定的不足,逻辑分解和推理的薄弱性明显影响结果。
Sep, 2023
本文提出了FollowBench,这是一个用于大型语言模型(LLMs)的多级细粒度约束遵循基准,通过评估LLMs在遵循不同类型的细粒度约束方面的表现,揭示了LLMs在遵循指令方面的不足之处,并指出了未来研究的潜在方向。
Oct, 2023
我们提出了一个新的基准测试CoDI-Eval,系统和全面评估LLMs对带有各种约束的指令的响应,揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源LLMs之间存在显著差距。
Jan, 2024
该研究论文对大型语言模型数据集进行了综述和分类,包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面;此外还提供了现有数据集资源的综合评估,涵盖8个语言类别和32个领域,包括来自444个数据集的统计信息,共计超过774.5 TB的预训练语料库数据和7亿个实例的其他数据集数据;旨在为研究人员提供整个LLM文本数据集的全貌,并为未来的研究做出贡献。
Feb, 2024
使用包含多个约束条件的指令来训练大型语言模型,能提高其理解复杂指令,特别是对于低复杂性水平的指令,甚至可以推广到超出领域约束的组合,同时提出了获取和利用有效训练数据的方法,并通过广泛实验验证了方法在总体性能、训练效率和泛化能力方面的有效性。
Apr, 2024
大型语言模型(LLMs)在各个领域中表现出卓越的能力,但在实际应用之前对其进行彻底评估是至关重要的,以确保其可靠性。本文系统地审视了LLM评估过程中导致不一致性和不可靠评估的主要挑战和限制,并根据我们的批判性评估提出了观点和建议,以确保LLM评估具有可重现性、可靠性和稳健性。
Jul, 2024
利用超过5000个大型语言模型的数据,从六个基准测试中提取出信息量最大的项目,生成一个稀疏基准测试benchmark,其组合总体积不到原始六个基准测试总体积的3%,并能以最小均方根误差重构每个原始基准测试的分数,总体积的重构均方根误差为0.8%,并且具有单一的共同因子,与总体积的斯皮尔曼相关性为0.93。
Jul, 2024