量化大型语言模型的泛化复杂性

Oct, 2024

Quantifying Generalization Complexity for Large Language Models

Zhenting Qi, Hongyin Luo, Xuliang Huang, Zhuokai Zhao, Yibo Jiang...

TL;DR本研究针对大型语言模型（LLMs）在泛化能力与记忆之间的纠缠问题，提出了新颖的Scylla动态评估框架，通过在5个复杂度级别上的20个任务中量化评估模型对分布内（ID）和分布外（OOD）数据的表现。研究发现，任务复杂性与ID与OOD数据表现差距之间的非单调关系揭示了所谓的“泛化谷”，指出LLMs的泛化能力存在上限，并表明随着模型规模的增大，能处理更复杂任务的临界复杂度也随之提高。

Abstract

While large language models (LLMs) have shown exceptional capabilities in understanding complex queries and performing sophisticated tasks, their generalization abilities are often deeply entangled with

发现论文，激发创造

大型语言模型中的长度泛化探究

该研究探讨了基于 transformer 的语言模型的长度推广能力，发现预训练大语言模型的上下文学习能力与记事本提示相结合能大大改善长度推广，并鉴别了错误的共同来源，为赋予语言模型推广到更长问题的能力提供了新的机会。

Jul, 2022

面向多步推理的小语言模型特化

揭示了将大规模语言模型进行特化，使其在特定任务上具有相对较强的表现的可能性，并使用多步数学推理作为测试，通过设计优化措施来提高其广义性能。

Jan, 2023

KGQUIZ：评估大型语言模型中编码知识的泛化能力

大型语言模型（LLMs）在知识密集型任务上表现出色，但如何系统评估LLMs的知识能力及其在不同领域和任务中的知识泛化能力仍然不为人所知。为此，我们提出了KGQuiz，这是一个基于知识的全面评估框架，包含了五个任务，从简单到复杂地涵盖了三个领域的知识。通过在KGQuiz基准测试中对十种开源和黑盒LLMs进行广泛实验，我们发现LLMs在简单的知识问答任务中表现出色，但在需要更复杂推理或领域特定事实的设置和上下文中仍然存在挑战。我们将KGQuiz视为一个测试平台，用于分析不同领域和任务格式下性能的微妙变化，并最终理解、评估和改进LLMs在广泛知识领域和任务中的知识能力。

Oct, 2023

NPHardEval: 复杂类别下大型语言模型推理能力的动态评估基准

本研究引入了一个名为NPHardEval的新基准，旨在评估大型语言模型（LLMs）的推理能力。通过比较LLMs在复杂类别上的表现，提供了对LLMs推理能力的客观且严格的观点。此基准通过900个算法问题的广泛谱系评估LLMs的推理能力，从NP-Hard复杂类别扩展到以下较低的复杂类别，并通过每月更新数据点来减轻LLMs过拟合的风险，促进更准确可靠的能力评估。

Dec, 2023

揭示了细调的大型语言模型的泛化能力

这篇论文研究了大型语言模型（LLMs）和它们经过微调后的变体之间的差异，尤其关注微调对LLMs内在泛化能力的影响。通过在不同任务和数据集上进行广泛的实验，研究发现微调应用于生成任务和分类任务的模型在泛化到不同领域和任务时表现出不同的行为，并且在生成任务的微调中整合上下文学习策略可以增强模型的泛化能力。通过这一系统性研究，旨在为LLMs的微调实践做出有价值的贡献。

Mar, 2024

线性复杂度语言模型的尺度定律

本研究通过研究线性复杂度语言模型的扩展性建立了基础，并对三种高效的线性架构进行了扩展行为的分析。结果显示，现有的线性复杂度语言模型在扩展能力、语言熟练度和知识保留方面与传统基于transformer的模型相似。

Jun, 2024

研究模型复杂性对大语言模型影响

本文探讨了大语言模型（LLMs）中的模型复杂性如何影响微调性能，填补了理论理解的空白。通过引入隐马尔可夫模型（HMM），本文揭示了模型复杂性与下游任务泛化能力之间的关系，进而发现了“二重下降”现象，这一发现对优化模型设计具有重要影响。

Oct, 2024

深入研究逆转诅咒：大型语言模型能在多大程度上进行泛化？

本文探讨了大型语言模型（LLMs）在逆转诅咒问题上的表现，揭示了其在一般化能力和问题解决机制方面的局限。研究发现，LLMs在特定结构的事实下能够进行有效的一般化，而训练过程中固有的偏差对模型的下游表现有显著负面影响。通过这些研究，提供了对LLMs学习方法的新见解。

Oct, 2024

大型语言模型在逻辑推理中的记忆机制研究

本研究针对大型语言模型（LLMs）在推理任务中的表现与记忆现象进行系统调查，指出LLMs可能通过记忆相似问题而在逻辑推理基准测试中达到高分。尽管模型在特定任务上表现较好，但是在稍有改动的相似问题上却可能出现失败，表明其在解决这些问题时极度依赖于记忆。此外，研究表明尽管细调会导致显著的记忆现象，但也能持续改善模型的泛化能力，从而揭示了记忆与真实推理能力之间的复杂关系。

Oct, 2024

学习动态揭示大型语言模型推理中的泛化机制

本研究探讨了大型语言模型（LLM）微调过程中学习动态对后续泛化的影响，特别是在推理任务中。通过引入“预记忆训练准确度”这一训练指标，本文表明该指标能有效预测测试准确度并指导数据选择，从而在数据效率上实现显著提升。

Nov, 2024