FAC$^2$E：通过区分语言和认知来更好地理解大型语言模型的能力

Feb, 2024

FAC$^2$E：通过区分语言和认知来更好地理解大型语言模型的能力

FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition

Xiaoqiang Wang, Bang Liu, Lingfei Wu

TL;DRFAC$^2$E 是一个针对大型语言模型 (LLMs) 的能力评估框架，通过提取 LLMs 的中间推理，将特定能力应用过程分解为三个子步骤，并评估每个细分能力的各个子步骤，从而全面区分 LLMs 的语言相关能力和认知相关能力。利用 FAC$^2$E，我们发现模型中知识利用方面存在常见不足，并提出了一种简单、知识增强的方法来缓解这个问题。我们的研究不仅展示了有希望的性能改进，还为未来 LLMs 的发展方向提供了启示。

Abstract

large language models (LLMs) are primarily evaluated by overall performance on various text understanding and generation tasks. However, such a paradigm fails to comprehensively differentiate the fine-grained language and cognitive skills, rendering the lack of sufficient interpretatio

large language models capability evaluation cognition-grounded knowledge utilization performance enhancements

发现论文，激发创造

揭示语言模型能力结构

本研究通过贝叶斯和频率分析结合，从 29 个 LLM 的数据中分析出 LLMs 的能力结构，发现 LLMs 的能力不是单一的，而是可以被解释为三个能力：推理、理解和核心语言建模，并且这三个能力可以解释模型性能的高比例差异，可以用来指导模型的改进和评测。

Jun, 2023

自我认知评估大型语言模型

基于 Feynman 的理解通过创造原则，我们引入了一个易于实施的自我认知评估框架，评估模型对自动生成的问题的理解和回应能力。我们的研究发现，在多个任务上测试多个模型后，模型的自我认知能力存在显著差距。进一步分析表明，这些差距可能是由于与人类注意机制的不匹配所导致的。此外，对自动生成的数学任务进行微调可以提高模型的数学性能，突出了该框架在高效和富有洞察力的模型评估方面的潜力，并可能有助于改善大型语言模型。

Jun, 2024

F-Eval: 使用精细评估方法评估基本能力

我们提出了 F-Eval，这是一个双语评估基准，旨在评估大型语言模型的基本能力，包括表达能力、常识和逻辑。我们进行了 13 个先进 LLM 的评估，结果显示我们的评估方法与其他评估者相比具有更高的相关系数和更大的区别，并讨论了不同模型大小、维度和归一化方法的影响。我们期望 F-Eval 能促进对 LLMs 基本能力的研究。

Jan, 2024

L2CEval: 评估大型语言模型的语言到代码生成能力

最近，大型语言模型（LLMs），特别是那些在代码上进行预训练的模型，展现出了从自然语言输入中以少量甚至无需样本的方式生成程序的强大能力。然而，这些模型的语言到代码生成能力缺乏全面的评估。本研究通过 L2CEval 系统地评估了 LLMs 在 7 个任务（包括语义解析、数学推理和 Python 编程）中的语言到代码生成能力，分析了可能影响它们性能的因素，如模型大小、预训练数据、指令调整和不同的提示方法。除了评估模型性能，我们还衡量了模型的置信度校准情况，并对输出的程序进行人工评估。这使我们能够识别并分析各种任务和模型的典型失败模式。L2CEval 提供了对 LLMs 在语言到代码生成方面能力和限制的全面了解。同时，我们还发布了评估框架和所有模型输出，希望为今后在该领域的进一步研究奠定基础。

Sep, 2023

一项测试模型在某些推理任务中的能力的案例研究

大型语言模型在生成个性化内容和促进交互对话方面表现出色，但在推理能力和提供可解释性输出方面仍有待提高。本研究深入探讨了大型语言模型的推理能力，突出了当前挑战和限制，阻碍了它们在复杂推理场景中的有效性。

Feb, 2024

大型语言模型中语言和思维的分离：认知角度

今天的大型语言模型 (LLMs) 可以生成连贯的，符合语法的、有意义的文本段落，但在如人类思维一样的实际语言使用中，大多数测试需要功能语言能力，从认知神经科学的证据中，我们显示出 LLMs 显示出令人印象深刻（虽然不完美）的正式语言能力的任务，但在需要功能能力的许多测试中失败了。

Jan, 2023

了解大型语言模型在文化常识方面的能力和局限性

通过对多个最先进的大型语言模型的文化常识任务的能力和限制进行全面检验，我们发现大型语言模型在文化特定的常识知识上的表现存在显著差异，其通用常识能力受到文化环境的影响，并且提出查询大型语言模型所使用的语言会影响其在与文化相关的任务上的表现，我们的研究指出了大型语言模型在文化理解方面的固有偏见，并提供了帮助开发具备文化意识的语言模型的洞见。

May, 2024

探索从认知到表达的 LLM 之旅

该研究以百川 - 7B 和百川 - 33B 为焦点，深入探讨大型语言模型的认知和表达能力在预训练、监督微调和强化学习三个关键阶段的发展规律，揭示了认知能力在预训练阶段建立，而表达能力主要在微调和强化学习阶段提升的顺序性发展模式，并探索了这些差异发展轨迹与 LLMs 的架构设计之间的理论基础，同时评估了少样本学习和重复采样等优化无关策略对认知和表达能力之间的桥梁作用，从而为培训过程的可解释性和可控性提供了有价值的洞见。

May, 2024

心灵之镜：从大型语言模型中提炼自我评估能力和综合思考

大型语言模型（LLMs）在自然语言处理领域取得了显著的进展，但是考虑到它们的规模和计算需求，将这些模型实际部署在资源受限的环境中面临着巨大的挑战。为了解决这些问题，我们提出了一种双重方法：首先，我们引入了一种将 LLMs 中固有的自我评价能力提取到 SLMs 中的新方法，旨在减少错误推理和幻觉的不利影响。其次，我们建议采用综合的蒸馏过程，结合多种不同的链式思维和自我评价范式，确保更全面、更稳健地将知识转移至 SLMs 中。在三个自然语言处理基准测试上进行的实验表明，我们的方法显著提高了蒸馏 SLMs 的性能，并为开发与人类认知更接近的较小模型指明了方向。

Nov, 2023

知识增强大型语言模型的原则框架

这篇论文介绍了一个严格设计的框架，用于创建能够有效锚定知识并采用闭环推理过程的大型语言模型，以提升其进行深入分析的能力，同时解剖了该框架的组成部分对模型性能的贡献，从而为改进推理能力提供了理论保证。

Nov, 2023