最弱链法则：大语言模型的跨能力

Sep, 2024

最弱链法则：大语言模型的跨能力

Law of the Weakest Link: Cross Capabilities of Large Language Models

Ming Zhong, Aston Zhang, Xuewei Wang, Rui Hou, Wenhan Xiong...

TL;DR本研究探讨了当前大语言模型（LLMs）在跨能力任务中的表现，尤其是它们在处理多种专业能力交叉时的不足。通过定义七个核心能力并结合形成跨能力，研究引入了CrossEval基准，显示了现有LLMs在跨能力表现上受限于最弱组件，这一发现强调了未来研究中识别和提升弱点的重要性，以优化复杂任务的性能。

Abstract

The development and evaluation of Large Language Models (LLMs) have largely focused on individual capabilities. However, this overlooks the intersection of multiple abilities across different types of expertise that are often required for real-world tasks, which we term →

发现论文，激发创造

超越模仿游戏：量化和推断语言模型的能力

通过引入Beyond the Imitation Game基准测试（BIG-bench），我们评估了多种大小的语言模型在204个跨不同领域的任务上的表现，发现规模越大，其表现和校准也越好，但与人类专家相比还是很差，同时也发现在歧义上下文中情境偏见随规模增加而增加，但通过提示可以改善。

Jun, 2022

揭示语言模型能力结构

本研究通过贝叶斯和频率分析结合，从29个LLM的数据中分析出LLMs的能力结构，发现LLMs的能力不是单一的，而是可以被解释为三个能力：推理、理解和核心语言建模，并且这三个能力可以解释模型性能的高比例差异，可以用来指导模型的改进和评测。

Jun, 2023

FLASK：基于对齐技能集的细粒度语言模型评估

基于技能集的细粒度语言模型评估FLASK，通过分解粗粒度评分到实例级的技能集级别，能够更准确地衡量模型性能并通过分析使语言模型在特定技能方面更加熟练。

Jul, 2023

合作评估：探索大型语言模型与人类在开放式生成评估中的协同作用

为了解决开放式自然语言生成任务中评估标准不一致的挑战，我们提出了一种协同评估流程 CoEval，涉及特定任务标准的清单设计和文本的详细评估，其中大型语言模型生成初步的构思，而人类进行审查，结果显示，通过利用大型语言模型，CoEval能够高效地评估长文本，节省时间并减少人类评估的异常值，人类审查仍然起着重要作用，以最终确保可靠性。

Oct, 2023

评估大型语言模型：综述

该研究综述了大型语言模型的评估方法，并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法，以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣，以促进负责任发展和最大化社会利益，同时最小化潜在风险。

Oct, 2023

LLaMA跨越英语：语言能力转移的实证研究

我们通过对LLaMA的实证研究发现，在使用不到1%的预训练数据时，可以实现与最先进的转移模型相媲美的性能，无论是在知识对齐还是响应质量方面，这一实验结果在十三种资源匮乏的语言中也呈现出相似的趋势。预计实验的结论将有助于开发非英语LLMs。

Jan, 2024

超越英语的LLMs：通过跨语言反馈扩展LLMs的多语言能力

通过构建两个数据集，将 LLaMA 和 BLOOM 的多语言能力扩展到 100 种语言，并使用 DPO 算法对 LLMs 进行与人类反馈的对齐，实现了对 100 种语言的支持，从而定义了最新的、支持 100 种语言的多语言 LLMs 的最新技术。

Jun, 2024

BiGGen Bench：一种用于精细评估语言模型的基准

通过BiGGen Bench的引入，对77个不同任务中的九种语言模型的生成能力进行了全面评估，并借助实例特定的评估标准来模拟人类评估的微妙辨别。该研究公开提供了代码、数据和评估结果。

Jun, 2024

你弱的LLM秘密地是一个强大的对齐教师

本研究针对大型语言模型（LLM）在对齐方面的挑战，提出了一种利用弱LLM的创新方法。实验结果显示，弱LLM能够生成与全人类标注数据相媲美甚至优于的反馈，揭示了模型规模对反馈有效性影响的最小化，从而为可扩展和可持续的对齐策略提供了新视角。

Sep, 2024

最弱环法则：大型语言模型的跨能力

本研究探讨了大型语言模型 (LLMs) 在真实任务中多种能力交叉的表现，填补了对跨能力评估的研究缺口。通过定义七种核心个体能力并形成相应的跨能力，从而开发了CrossEval这一基准，分析显示LLMs的表现受最弱能力的严重限制，这一发现强调了在复杂场景中识别和提升弱项能力的重要性。

Sep, 2024